ترغب بنشر مسار تعليمي؟ اضغط هنا

تجميع اللغة للاعتراف الكيثي المسمى متعدد اللغات

Language Clustering for Multilingual Named Entity Recognition

163   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أظهر العمل الحديث في معالجة اللغة الطبيعية متعددة اللغات تقدما في مهام مختلفة مثل الاستدلال اللغوي الطبيعي والترجمة المشتركة متعددة اللغات. على الرغم من النجاح في تعلم العديد من اللغات، تنشأ التحديات حيث غالبا ما تعزز أنظمة التدريب المتعدد اللغات الأداء على بعض اللغات على حساب الآخرين. بالنسبة للاعتراف الكوكي المسمى متعدد اللغات (NER)، نقترح تقنية بسيطة تفرق لغات مماثلة من خلال استخدام Agddings من نموذج لغة ملثم مسبقا مسبقا، واكتشاف مجموعات اللغة تلقائيا في مساحة التضمين هذه. على وجه التحديد، نحن نغلق نموذج XLM-Roberta بمهمة تحديد اللغة، واستخدام المدينات من هذا النموذج للتجميع. نقوم بإجراء تجارب في 15 لغة متنوعة في مجموعة بيانات ويكيانز وتظهر تقنياتنا إلى حد كبير ثلاثة خطوط الأساس: (1) تدريب نموذج متعدد اللغات بالاشتراك على جميع اللغات المتاحة، (2) تدريب طراز أحادي لكل لغة، و (3) لغات تجميع لغات الأسرة اللغوية. نقوم أيضا بإجراء التحليلات التي تظهر تحويلا مهدا متعدد اللغات لغات الموارد المنخفضة (Swahili و Yoruba)، على الرغم من تجمعها تلقائيا مع لغات أخرى متباينة على ما يبدو.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدمت نماذج اللغة المحددة مثل بيرت حالة الفن للعديد من مهام NLP. لغات غنية بالموارد، لدى المرء الاختيار بين عدد من النماذج الخاصة باللغة، في حين أن النماذج متعددة اللغات تستحق الدراسة أيضا. هذه النماذج معروفة جيدا لأدائها Croadlingual، لكنها أظهرت أي ضا أداء تنافسي في اللغة في بعض المهام. نحن نعتبر نماذج أحادية اللغات متعددة اللغات من منظور النصوص التاريخية، وعلى وجه الخصوص للنصوص المخصبة بالملاحظات الافتتاحية: كيف تتعامل نماذج اللغة مع المحتوى التاريخي والتحرير في هذه النصوص؟ نقدم مجموعة بيانات جديدة للتعرف على كيان جدد للهولندية بناء على تقارير الشركة الشرقية في الهند التابعة للشرحة في القرن 17 و 18th والتي تمتد مع الملاحظات التحريرية الحديثة. تؤكد تجاربنا مع نماذج اللغة المحددة مسبقا متعددة اللغات والهولندية القدرات crosslingual من النماذج متعددة اللغات مع إظهار أن جميع النماذج اللغوية يمكنها الاستفادة من البيانات المختلطة المختلطة. على وجه الخصوص، تدمج نماذج اللغة بنجاح ملاحظات لتنبؤ الكيانات في النصوص التاريخية. نجد أيضا أن النماذج متعددة اللغات تتفوق على نماذج أحادية الألوان على بياناتنا، ولكن هذا التفوق مرتبط بالمهمة في متناول اليد: تفقد النماذج متعددة اللغات مصلحتها عند مواجهتها بمهام أكثر دلالة.
وقد ثبت أن التعرف على الكيان المسمى (NER) قد يستفيد من دمج المعلومات المهيكلة لمسافات طويلة التي تم التقاطها بواسطة أشجار التبعية. نعتقد أن هذا هو أن كلا النوعين من الميزات - المعلومات السياقية التي تم التقاطها من خلال التسلسلات الخطية والمعلومات الم هيكلة التي تم الاستيلاء عليها أشجار التبعية قد تكمل بعضها البعض. ومع ذلك، تركز النهج الحالية إلى حد كبير على تكديس الشبكات العصبية LSTM والرسم البيانية مثل الشبكات التنافسية الرسم البيانية (GCNS) لبناء نماذج NER محسنة، حيث لا تكون آلية التفاعل الدقيقة بين النوعين من الميزات واضحة للغاية، وتكسب الأداء يبدو أن تكون كبيرة. في هذا العمل، نقترح حلا بسيطا وقويا لدمج كلا النوعين من الميزات مع تآزرنا - LSTM (SYN-LSTM)، والذي يلتقط بوضوح كيف يتفاعل نوعان الميزات. نقوم بإجراء تجارب مكثفة على العديد من البيانات القياسية عبر أربع لغات. تظهر النتائج أن النموذج المقترح يحقق أداء أفضل من الأساليب السابقة مع مطالبة معلمات أقل. يوضح تحليلنا الإضافي أن نموذجنا يمكنه التقاط تبعيات أطول مقارنة مع خطوط الأساس القوية.
الملخص نتخذ خطوة نحو معالجة تمثيل القارة الأفريقية في أبحاث NLP من خلال جلب مختلف أصحاب المصلحة من أصحاب المصلحة في إنشاء بيانات كبيرة متاحة للجمهور وعالية الجودة للتعرف على الكيان المسمى (NER) في عشرة لغات أفريقية.إننا نقوم بالتفصيل خصائص هذه اللغات لمساعدة الباحثين والممارسين على فهم التحديات التي يفرضونها على مهام NER.نقوم بتحليل مجموعات البيانات لدينا وإجراء تقييم تجريبي واسع النطاق للطرق الحكومية في جميع إعدادات التعلم الإشراف والنقل.أخيرا، نطلق سراح البيانات والرمز والنماذج لإلهام البحوث المستقبلية على الأفريقية NLP.1
يعد التعرف على الكيان المسمى مهمة أساسية في معالجة اللغة الطبيعية للكشف عن الكيانات وتصنيفها إلى فئات محددة سلفا. كيان هو كلمة ذات معنى، أو عبارة تشير إلى الأسماء المناسبة. تلعب الكيانات المسماة دورا مهما في مهام NLP المختلفة مثل استخراج المعلومات، و الرد على الأسئلة والترجمة الآلية. في الترجمة الآلية، غالبا ما تسبب الكيانات المسماة فشل الترجمة بغض النظر عن السياق المحلي، مما يؤثر على جودة الإخراج للترجمة. التعليق الكيانات المسماة هي عملية تستغرق وقتا طويلا ومكلفة خاصة لغات الموارد المنخفضة. أحد الحلول لهذه المشكلة هو استخدام طرق محاذاة Word في شركة موازية ثنائية اللغة تم تفاحها جانب واحد فقط. الهدف هو استخراج الكيانات المسماة في اللغة المستهدفة باستخدام Corpus المشرف من لغة المصدر. في هذه الورقة، قارنا أداء اثنين من أساليب المحاذاة، واللبسائع التناظرية المتناثرة-Diag-Final-Final وتقاطع التناظر، لاستغلال الإسقاط التوضيحي للبرتغالية البرتغالية الإنجليزية البرازيلية للكشف عن الكيانات المسماة في البرتغالية البرازيلية. يتم استخدام نموذج NER الذي تم تدريبه على البيانات المشروحة المستخرجة من أساليب المحاذاة، لتقييم أداء المحاذاين. تظهر النتائج التجريبية أن التعايدة بين التقاطعات قادرة على تحقيق درجات أداء فائقة مقارنة مع النمو - النهائي والنهائي والمشي في البرتغالية البرازيلية.
يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا العمل، نأخذ هذا الاتجاه البحثي إلى المعاكس ودراسة تكبير بيانات المجال عبر المجال لمهمة NER.نحن نبحث في إمكانية الاستفادة من البيانات من مجالات الموارد العالية من خلال إسقاطها في مجالات الموارد المنخفضة.على وجه التحديد، نقترح بنية عصبية رواية لتحويل تمثيل البيانات من الموارد العالية إلى مجال موارد منخفضة من خلال تعلم الأنماط (مثل الأناقة والضوضاء والاختصارات، وما إلى ذلك) في النص الذي يميزها ومساحة ميزة مشتركةحيث يتماشى كلا المجالين.نقوم بتجربة مجموعات بيانات متنوعة وإظهار أن تحويل البيانات إلى تمثيل مجال الموارد المنخفض يحقق تحسينات كبيرة على استخدام البيانات فقط من مجالات الموارد العالية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا