ترغب بنشر مسار تعليمي؟ اضغط هنا

الفرم الديناميكي في التعرف على الكيان المسمى للنصوص العربية التاريخية

Dynamic Ensembles in Named Entity Recognition for Historical Arabic Texts

341   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتزايد استخدام التعرف على الكيان المسمى (NER) على النصوص العربية القديمة بشكل مطرد.ومع ذلك، فقد تم تطوير معظم الأدوات لإرجاع اللغة الإنجليزية الحديثة أو تدربت على وثائق اللغة الإنجليزية وهي محدودة للنص العربي التاريخي.حتى أدوات NER العربية غالبا ما تدرب على نص حديث من مصادر الويب، مما يجعل مناسبا له بمهمة تاريخية مشكوك فيها.لتخفيف ندرة الموارد العربية السعودية العربية، نقترح نموذج فرقة ديناميكية باستخدام العديد من المتعلمين.يتم تحقيق الجانب الديناميكي من خلال الاستفادة من التنبؤ والميزات على نتائج خوارزمية NER التي حددت التي أجريت بشكل أفضل على مهمة محددة في الوقت الفعلي.نقوم بتقييم نهجنا ضد أحدث أساليب النيران العربية والثابتة من أساليب الفرقة الثابتة عبر مهمة تاريخية تاريخية جديدة التي أنشأناها.تظهر نتائجنا أن نهجنا يحسن على أحدث ويودر من 0.8 درجة مئوية بشأن هذه المهمة الصعبة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدمت نماذج اللغة المحددة مثل بيرت حالة الفن للعديد من مهام NLP. لغات غنية بالموارد، لدى المرء الاختيار بين عدد من النماذج الخاصة باللغة، في حين أن النماذج متعددة اللغات تستحق الدراسة أيضا. هذه النماذج معروفة جيدا لأدائها Croadlingual، لكنها أظهرت أي ضا أداء تنافسي في اللغة في بعض المهام. نحن نعتبر نماذج أحادية اللغات متعددة اللغات من منظور النصوص التاريخية، وعلى وجه الخصوص للنصوص المخصبة بالملاحظات الافتتاحية: كيف تتعامل نماذج اللغة مع المحتوى التاريخي والتحرير في هذه النصوص؟ نقدم مجموعة بيانات جديدة للتعرف على كيان جدد للهولندية بناء على تقارير الشركة الشرقية في الهند التابعة للشرحة في القرن 17 و 18th والتي تمتد مع الملاحظات التحريرية الحديثة. تؤكد تجاربنا مع نماذج اللغة المحددة مسبقا متعددة اللغات والهولندية القدرات crosslingual من النماذج متعددة اللغات مع إظهار أن جميع النماذج اللغوية يمكنها الاستفادة من البيانات المختلطة المختلطة. على وجه الخصوص، تدمج نماذج اللغة بنجاح ملاحظات لتنبؤ الكيانات في النصوص التاريخية. نجد أيضا أن النماذج متعددة اللغات تتفوق على نماذج أحادية الألوان على بياناتنا، ولكن هذا التفوق مرتبط بالمهمة في متناول اليد: تفقد النماذج متعددة اللغات مصلحتها عند مواجهتها بمهام أكثر دلالة.
الملخص نتخذ خطوة نحو معالجة تمثيل القارة الأفريقية في أبحاث NLP من خلال جلب مختلف أصحاب المصلحة من أصحاب المصلحة في إنشاء بيانات كبيرة متاحة للجمهور وعالية الجودة للتعرف على الكيان المسمى (NER) في عشرة لغات أفريقية.إننا نقوم بالتفصيل خصائص هذه اللغات لمساعدة الباحثين والممارسين على فهم التحديات التي يفرضونها على مهام NER.نقوم بتحليل مجموعات البيانات لدينا وإجراء تقييم تجريبي واسع النطاق للطرق الحكومية في جميع إعدادات التعلم الإشراف والنقل.أخيرا، نطلق سراح البيانات والرمز والنماذج لإلهام البحوث المستقبلية على الأفريقية NLP.1
في الوقت الحاضر، حقق التعرف على الكيان المسمى (NER) نتائج ممتازة على الشركة القياسية.ومع ذلك، فإن المشكلات الكبيرة تنشأ مع الحاجة إلى تطبيق في مجال معين، لأنه يتطلب جدارا الشكل المشروح مع مجموعة علامات NE مكيفة.هذا واضح بشكل خاص في مجال معالجة المستن دات التاريخية.يتكون الهدف الرئيسي لهذه الورقة من اقتراح وتقييم العديد من طرق تعلم النقل لزيادة درجة النقر التاريخي التشيكي.ندرس العديد من مصادر المعلومات، ونحن نستخدم شباكين عصبيين للنمذجة والاعتراف.نحن نوظف سورانيا لتقييم أساليب التعلم الخاصة بنا، وهي Czech Named Entity Corpus و Czech Historical Enty Enty Engyity Corpus.نظهر أن تمثيل بيرت بضبط جيد وفقط المصنف البسيط المدرب على اتحاد كورسيا يحقق نتائج ممتازة.
يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا العمل، نأخذ هذا الاتجاه البحثي إلى المعاكس ودراسة تكبير بيانات المجال عبر المجال لمهمة NER.نحن نبحث في إمكانية الاستفادة من البيانات من مجالات الموارد العالية من خلال إسقاطها في مجالات الموارد المنخفضة.على وجه التحديد، نقترح بنية عصبية رواية لتحويل تمثيل البيانات من الموارد العالية إلى مجال موارد منخفضة من خلال تعلم الأنماط (مثل الأناقة والضوضاء والاختصارات، وما إلى ذلك) في النص الذي يميزها ومساحة ميزة مشتركةحيث يتماشى كلا المجالين.نقوم بتجربة مجموعات بيانات متنوعة وإظهار أن تحويل البيانات إلى تمثيل مجال الموارد المنخفض يحقق تحسينات كبيرة على استخدام البيانات فقط من مجالات الموارد العالية.
نستكشف تطبيق خوارزميات NER-Art-Branch إلى نصوص مركز الاتصال التي تم إنشاؤها ASR. ركز العمل السابق في هذا المجال على استخدام نموذج Bilstm-CRF الذي اعتمد على تضمين الدعوى؛ ومع ذلك، فإن مثل هذا النموذج غير عملي من حيث الكمون واستهلاك الذاكرة. في بيئة ال إنتاج، يتطلب المستخدمون النهائيون نماذج منخفضة الكمون التي يمكن دمجها بسهولة في خطوط الأنابيب الموجودة. ولتحقيق هذه الغاية، نقدم نماذجين مختلفة يمكن استخدامها بناء على متطلبات الكمون والدقة للمستخدم. أولا، نقترح مجموعة من النماذج التي تستخدم نماذج لغة محول الحديثة (روبرتا) لتطوير نظام NER عالية الدقة المدربين على مجموعة مشروحة مخصصة من نصوص مركز الاتصال. بعد ذلك، نستخدم نموذجنا المستند إلى المحولات الأفضل أداء لتسمية عدد كبير من النصوص، والذي نستخدمه للتأهيل بنموذج BILSTM-CRF ويزيد من الاستحقاق على مجموعة بيانات المشروح. نظرا لأن هذا النموذج، في حين ليس دقيقا مثل نظيره القائم على المحولات، فهو فعال للغاية في تحديد العناصر التي تتطلب تحسين قانون الخصوصية. علاوة على ذلك، نقترح مخططا شرحا عاما جديدا ل NER في بيئة مركز الاتصال.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا