ترغب بنشر مسار تعليمي؟ اضغط هنا

مسح واستنساخ النهج الحسابية التي يرجع تاريخها إلى النصوص التاريخية

Survey and reproduction of computational approaches to dating of historical texts

493   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

العثور على سنة الكتابة لنص تاريخي له أهمية حاسمة للبحث التاريخي.ومع ذلك، نادرا ما يتم ذكر السنة الإبداعية الأصلية بشكل صريح ويجب استنتاجها من المحتوى النصي والسجلات التاريخية والقرائن الترفيزية.بالنظر إلى نص مكبس، فقد تم استخدام تعلم الجهاز بنجاح لتقدير سنة الإنتاج.في هذه الورقة، نقدم نظرة عامة على عدة طرق تقدير لمحفوظات النص التاريخية التي تمتد من القرن الثاني عشر حتى اليوم.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الدراسة، ندرس تغيير اللغة في Biji الصينية باستخدام مهمة التصنيف: تصنيف النصوص الصينية القديمة حسب الفترات الزمنية. على وجه التحديد، نحن نركز على نوع فريد من نوعه في الأدب الصيني الكلاسيكي: BIJI (حرفيا دفتر الملاحظات "أو الملاحظات الفرشاة")، أي مجموعة من الحكايات، الاقتباسات، إلخ، أي شيء مؤلفين ينظرون إلى جديرة بالملاحظة، تمتد Biji مئات السنين عبر العديد من السلالات والحفاظ على لغة غير رسمية في شكل مكتوب. لهذه الأسباب، يعتبرون موردا جيدا لتحقيق تغيير اللغة في الصينية (فانغ، 2010). في هذه الورقة، نقوم بإنشاء مجموعة بيانات جديدة من 108 Biji عبر أربع سلالات. بناء على DataSet، نقدم أولا مهمة تصنيف الفترة الزمنية للصينيين. ثم نحقق في طرق تمثيل ميزة مختلفة للتصنيف. تظهر النتائج أن النماذج باستخدام المدينات السياقية تؤدي الأفضل. يؤكد تحليل لأعلى الميزات المختارة من قبل نموذج Word N-Gram (بعد التبييض الأسماء المناسبة) أن هذه الميزات مفيدة وتتوافق مع الملاحظات والافتراضات المقدمة من اللغويين التاريخيين.
تقدمت نماذج اللغة المحددة مثل بيرت حالة الفن للعديد من مهام NLP. لغات غنية بالموارد، لدى المرء الاختيار بين عدد من النماذج الخاصة باللغة، في حين أن النماذج متعددة اللغات تستحق الدراسة أيضا. هذه النماذج معروفة جيدا لأدائها Croadlingual، لكنها أظهرت أي ضا أداء تنافسي في اللغة في بعض المهام. نحن نعتبر نماذج أحادية اللغات متعددة اللغات من منظور النصوص التاريخية، وعلى وجه الخصوص للنصوص المخصبة بالملاحظات الافتتاحية: كيف تتعامل نماذج اللغة مع المحتوى التاريخي والتحرير في هذه النصوص؟ نقدم مجموعة بيانات جديدة للتعرف على كيان جدد للهولندية بناء على تقارير الشركة الشرقية في الهند التابعة للشرحة في القرن 17 و 18th والتي تمتد مع الملاحظات التحريرية الحديثة. تؤكد تجاربنا مع نماذج اللغة المحددة مسبقا متعددة اللغات والهولندية القدرات crosslingual من النماذج متعددة اللغات مع إظهار أن جميع النماذج اللغوية يمكنها الاستفادة من البيانات المختلطة المختلطة. على وجه الخصوص، تدمج نماذج اللغة بنجاح ملاحظات لتنبؤ الكيانات في النصوص التاريخية. نجد أيضا أن النماذج متعددة اللغات تتفوق على نماذج أحادية الألوان على بياناتنا، ولكن هذا التفوق مرتبط بالمهمة في متناول اليد: تفقد النماذج متعددة اللغات مصلحتها عند مواجهتها بمهام أكثر دلالة.
يتزايد استخدام التعرف على الكيان المسمى (NER) على النصوص العربية القديمة بشكل مطرد.ومع ذلك، فقد تم تطوير معظم الأدوات لإرجاع اللغة الإنجليزية الحديثة أو تدربت على وثائق اللغة الإنجليزية وهي محدودة للنص العربي التاريخي.حتى أدوات NER العربية غالبا ما ت درب على نص حديث من مصادر الويب، مما يجعل مناسبا له بمهمة تاريخية مشكوك فيها.لتخفيف ندرة الموارد العربية السعودية العربية، نقترح نموذج فرقة ديناميكية باستخدام العديد من المتعلمين.يتم تحقيق الجانب الديناميكي من خلال الاستفادة من التنبؤ والميزات على نتائج خوارزمية NER التي حددت التي أجريت بشكل أفضل على مهمة محددة في الوقت الفعلي.نقوم بتقييم نهجنا ضد أحدث أساليب النيران العربية والثابتة من أساليب الفرقة الثابتة عبر مهمة تاريخية تاريخية جديدة التي أنشأناها.تظهر نتائجنا أن نهجنا يحسن على أحدث ويودر من 0.8 درجة مئوية بشأن هذه المهمة الصعبة.
تصف هذه الورقة التقديمات من قبل Team HWR إلى المهمة المشتركة (DLI) التي تم تنظيمها في ورشة عمل فاريدية 2021. تتضمن مجموعة تدريب DLI 16،674 تعليقات يوتيوب مكتوبة في البرنامج النصي الروماني يحتوي على نص مختلط من التعليمات البرمجية مع اللغة الإنجليزية و احدا من اللغات الثلاثة الجنوبية الدرفيدية: كانادا، ملايال، والتاميل. لقد قدمنا ​​النتائج التي تم إنشاؤنا باستخدام نموذجين، وهو مصنف بايز ساذج مع نماذج بلغة تكيفية، والتي أثبتت الحصول على أداء تنافسي في العديد من مهام تحديد اللغة واللهجة، وعلى نموذج يستند إلى المحولات الذي يعتبر على نطاق واسع كحدث الفن في عدد من مهام NLP. تم إرسال طلبنا الأول في مسار التقديم المغلق باستخدام مجموعة التدريب فقط المقدمة من منظمي المهام المشتركة، في حين أن التقديم الثاني يعتبر مفتوحا لأنه استخدم نموذجا مسبقا تدريبا على البيانات الخارجية. حصل فريقنا على المركز الثاني المشترك في المهمة المشتركة مع التقديم على أساس بايس ساذج. تعزز نتائجنا فكرة أن أساليب التعلم العميقة ليست تنافسية في المهام المتعلقة بتحديد اللغة لأنها في العديد من مهام تصنيف النص الأخرى.
لتوفير تحليل الأبحاث الأخيرة من جيل الأسئلة التلقائي من النص، أجرينا مسح 9 أوراق بين عامي 2019 إلى أوائل 2021، تم استرجاعها من الورق مع التعليمات البرمجية (PWC).تتبع بحثنا الاستطلاع الذي أبلغ عنه كردي وآخرون. (2020)، حيث يتم توفير تحليل 93 ورقة من عا م 2014 إلى مبادر عام 2019.لقد قمنا بتحليل الخمسين من الجوانب بما في ذلك: (1) الغرض من جيل السؤال، (2) طريقة التوليد، و (3) تقييم.وجدنا أن النهج الحديثة تميل إلى الاعتماد على المعلومات الدلالية والنماذج القائمة على المحولات تجذب اهتماما متزايدا لأنها أكثر كفاءة.من ناحية أخرى، نظرا لأنه لا يوجد أي مقياس تقييم تلقائي تم الاعتراف على نطاق واسع المصمم لجيل السؤال، يعتمد الباحثون مقاييس مهام معالجة اللغة الطبيعية الأخرى لمقارنة الأنظمة المختلفة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا