ترغب بنشر مسار تعليمي؟ اضغط هنا

طلبت باتافيا المشورة.نماذج اللغة المحددة مسبقا للتعرف على الكيان المسمى في النصوص التاريخية.

Batavia asked for advice. Pretrained language models for Named Entity Recognition in historical texts.

488   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدمت نماذج اللغة المحددة مثل بيرت حالة الفن للعديد من مهام NLP. لغات غنية بالموارد، لدى المرء الاختيار بين عدد من النماذج الخاصة باللغة، في حين أن النماذج متعددة اللغات تستحق الدراسة أيضا. هذه النماذج معروفة جيدا لأدائها Croadlingual، لكنها أظهرت أيضا أداء تنافسي في اللغة في بعض المهام. نحن نعتبر نماذج أحادية اللغات متعددة اللغات من منظور النصوص التاريخية، وعلى وجه الخصوص للنصوص المخصبة بالملاحظات الافتتاحية: كيف تتعامل نماذج اللغة مع المحتوى التاريخي والتحرير في هذه النصوص؟ نقدم مجموعة بيانات جديدة للتعرف على كيان جدد للهولندية بناء على تقارير الشركة الشرقية في الهند التابعة للشرحة في القرن 17 و 18th والتي تمتد مع الملاحظات التحريرية الحديثة. تؤكد تجاربنا مع نماذج اللغة المحددة مسبقا متعددة اللغات والهولندية القدرات crosslingual من النماذج متعددة اللغات مع إظهار أن جميع النماذج اللغوية يمكنها الاستفادة من البيانات المختلطة المختلطة. على وجه الخصوص، تدمج نماذج اللغة بنجاح ملاحظات لتنبؤ الكيانات في النصوص التاريخية. نجد أيضا أن النماذج متعددة اللغات تتفوق على نماذج أحادية الألوان على بياناتنا، ولكن هذا التفوق مرتبط بالمهمة في متناول اليد: تفقد النماذج متعددة اللغات مصلحتها عند مواجهتها بمهام أكثر دلالة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يتزايد استخدام التعرف على الكيان المسمى (NER) على النصوص العربية القديمة بشكل مطرد.ومع ذلك، فقد تم تطوير معظم الأدوات لإرجاع اللغة الإنجليزية الحديثة أو تدربت على وثائق اللغة الإنجليزية وهي محدودة للنص العربي التاريخي.حتى أدوات NER العربية غالبا ما ت درب على نص حديث من مصادر الويب، مما يجعل مناسبا له بمهمة تاريخية مشكوك فيها.لتخفيف ندرة الموارد العربية السعودية العربية، نقترح نموذج فرقة ديناميكية باستخدام العديد من المتعلمين.يتم تحقيق الجانب الديناميكي من خلال الاستفادة من التنبؤ والميزات على نتائج خوارزمية NER التي حددت التي أجريت بشكل أفضل على مهمة محددة في الوقت الفعلي.نقوم بتقييم نهجنا ضد أحدث أساليب النيران العربية والثابتة من أساليب الفرقة الثابتة عبر مهمة تاريخية تاريخية جديدة التي أنشأناها.تظهر نتائجنا أن نهجنا يحسن على أحدث ويودر من 0.8 درجة مئوية بشأن هذه المهمة الصعبة.
على الرغم من أن النماذج الكبيرة المدربة مسبقا (E.G.، Bert، Ernie، Xlnet، GPT3 وما إلى ذلك) قدمت أداء أعلى في النمذجة SEQ2SEQ، وغالبا ما تعوق عمليات نشرها في تطبيقات العالم الحقيقي بواسطة الحسابات المفرطة وطلب الذاكرة المعنية. بالنسبة للعديد من التطبي قات، بما في ذلك التعرف على الكيان المسمى (NER)، فإن مطابقة النتيجة الحديثة تحت الميزانية قد جذبت اهتماما كبيرا. رسم الطاقة من التقدم الأخير في تقطير المعرفة (دينار كويتي)، يعرض هذا العمل مخطط تقطير جديد لنقل المعرفة بكفاءة المستفادة من النماذج الكبيرة إلى نظيرها أكثر بأسعار معقولة. يسلط حلنا الضوء على بناء الملصقات البديلة من خلال خوارزمية K-Best Viterbi إلى معرفة تقطر من طراز المعلم. لإحداث المعرفة إلى حد ما في نموذج الطالب، نقترح خطة تقطير متعددة الحبيبات، التي تدمج عبر الانتروبي الصليب المشارك في مجال عشوائي مشروط (CRF) والتعلم الغامض. للتحقق من صحة فعالية اقتراحنا، أجرينا تقييم شامل على خمسة نير معايير، الإبلاغ عن مكاسب أداء المجلس عبر المجلس بالنسبة للفنون السابقة المتنافسة. نناقش نتائج الآراء بشكل أكبر لتشريح مكاسبنا.
تم دراسة التعرف على الكيان المسمى Nestate (NNER) على نطاق واسع، تهدف إلى تحديد جميع الكيانات المتداخلة من تمديدات محتملة (I.E.، واحد أو أكثر من الرموز المستمرة). ومع ذلك، فإن الدراسات الحديثة لأي نانر إما التركيز على مخططات العلامات الشاقة أو الاستفا دة من الهياكل المعقدة، والتي تفشل في تعلم تمثيلات فعالة من جملة المدخلات مع كيانات متداخلة للغاية. بمعنى حدسي، ستساهم تمثيلات صريحة في نانر بسبب معلومات السياق الغنية التي تحتوي عليها. في هذه الدراسة، نقترح شبكة محول هرمية (HITRANS) للمهمة NNER، والتي تتحلل جملة الإدخال إلى تمثال متعدد الحبوب وتعزز التعلم التمثيل بطريقة هرمية. على وجه التحديد، نستخدم أول وحدة من المرحلة الأولى لتوليد تمثيلات تمتد عن طريق معلومات السياق التجميعية بناء على شبكة محول من أسفل إلى أعلى وهبوطا. ثم تم تصميم طبقة التنبؤ الملصق للتعرف على الكيانات المتداخلة هرمية، والتي تستكشف بشكل طبيعي التبعيات الدلالية بين تمديد مختلفة. تثبت تجارب مجموعات بيانات Genia و ACE-2004 و ACE-2005 و NNE أن طريقةنا المقترحة تحقق أداء أفضل بكثير من النهج التي من بين الفني.
لتكون قادرا على مشاركة المعلومات القيمة في سجلات المرضى الإلكترونية (EPR)، يلزم تحديدها أولا لحماية خصوصية مواضيعهم. التعرف على الكيان المسمى والتصنيف (NERC) هو جزء مهم من هذه العملية. في السنوات الأخيرة، قامت نماذج اللغة للأغراض العامة المدربة مسبقا على كميات كبيرة من البيانات، ولا سيما بيرت، حققت حالة من النتائج الفنية في NERC، من بين مهام NLP الأخرى. ومع ذلك، حتى الآن، لم يتم إجراء أي محاولات في تطبيق Bert for Nerc على بيانات EPR السويدية. تحاول الدراسة أن تتلقى نماذج برت سويدية ونموذج واحد متعدد اللغات لنموذج NERC على كوربوس EPR السويدية. الهدف من ذلك هو تقييم قابلية تطبيق نماذج بيرت لهذه المهمة وكذلك مقارنة النموذجين في مهمة لغة سويدية خاصة بالمجال. مع النموذج السويدي، يتم استدعاء 0.9220 ودقة 0.9226. هذا تحسن للنتائج السابقة على نفس الكائنات منذ الاستدعاء العالي لا تضحي الدقة. نظرا لأن النماذج تؤدي أيضا بشكل جيد نسبيا عندما يتم ضبطها بشكل جيد مع بيانات مشكرة، فستكون هناك إمكانات جيدة في استخدام هذه الطريقة في نظام قابل للإزالة القابلة للإزالة للنص السريري السويدي.
نتيجة للجمل غير المنظمة وبعض أخطاء أخطاء وإجراء أخطاء، فإن العثور على كيانات اسمه في بيئة صاخبة مثل وسائل التواصل الاجتماعي يستغرق المزيد من الجهد.يحتوي Parstwiner على أكثر من 250k Tokens، بناء على تعليمات قياسية مثل MUC-6 أو Conll 2003، تجمع من Twit ter الفارسي.باستخدام معامل كابا في كوهين، فإن اتساق المعلقين هو 0.95، درجة عالية.في هذه الدراسة، نوضح أن بعض النماذج الحديثة تتحلل على هذه الشركات، وتدريب نموذج جديد باستخدام تعلم التحويل الموازي بناء على بنية بيرت.تظهر النتائج التجريبية أن النموذج يعمل بشكل جيد في الفارسية غير الرسمية وكذلك في الفارسية الرسمية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا