ترغب بنشر مسار تعليمي؟ اضغط هنا

توحيد الدور الدلالي عبر اللغات مع الموارد اللغوية غير المتجانسة

Unifying Cross-Lingual Semantic Role Labeling with Heterogeneous Linguistic Resources

238   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في حين أن تقنيات التبغيات المتبقية تجد نجاحا متزايدا في مجموعة واسعة من مهام معالجة اللغة الطبيعية، فإن تطبيقها على الدورات الدلالية (SRL) كان محدودا بقوة من خلال حقيقة أن كل لغة تعتمد شكليها اللغوي الخاص بها، من Propbank من أجل أنظمة إنجليكزي للإسبانية و PDT-VALLEX لتشيك، في جملة أمور. في هذا العمل، نتعلم هذه المشكلة وتقديم نموذج موحد لأداء SRL عبر اللغات عبر الموارد اللغوية غير المتجانسة. يتعلم نموذجنا ضمنيا تعيين عالي الجودة من أجل الشكليات المختلفة عبر لغات متنوعة دون اللجوء إلى محاذاة Word وتقنيات الترجمة. نجد ذلك، ليس فقط نظامنا المتبادل لدينا تنافس مع الحالة الحالية للفن ولكنها قوية أيضا على سيناريوهات البيانات المنخفضة. من المثير للاهتمام، من المثير للاهتمام، نموذجنا الموحد قادر على التعليق الجملة في تمريرة واحدة إلى الأمام مع جميع المخزونات التي تم تدريبها عليها، وتوفير أداة لتحليل ومقارنة النظريات اللغوية عبر لغات مختلفة. نطلق سردنا ونموذجنا في https://github.com/sapienzanlp/unify-srl.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تهدف التحليل الدلالي القائم على الرسم البياني إلى تمثيل معنى نصي من خلال الرسوم البيانية الموجهة. باعتبارها واحدة من أكثر تمثيلات المعنى الواعدة في مجال الأغراض العامة، اكتسبت هذه الهياكل وتحليلها زخما فائدة كبير خلال السنوات الأخيرة، مع اقتراح عدة ش كليات متنوعة. ومع ذلك، بسبب هذا التجانس للغاية، ركز معظم الجهود البحثية بشكل أساسي على الحلول الخاصة بإشعاج معين. في هذا العمل، بدلا من ذلك، نقوم بإعادة صياغة التحليل الدلالي نحو شكليات متعددة لأن الترجمة الآلية العصبية متعددة اللغات (MNMT)، واقتراح SGL، وهي عبارة عن هندسة SCL، وهي عبارة عن مورد SEQ2SEQ متعدد الاستخدامات تدربت بهدف MNMT. مدعومة بالعديد من التجارب، نظير على أن هذا الإطار فعال بالفعل بمجرد تعزيز إجراءات التعلم مع شركة فورانيا المتوازية الكبيرة القادمة من الترجمة الآلية: نحن نبلغ عن عروض تنافسية على تحليل AMR و UCCA، خاصة بمجرد إقرانها مع الهندسة المعمارية المدربة مسبقا. علاوة على ذلك، نجد أن النماذج المدربة تحت مقياس التكوين جيدا بشكل ملحوظ إلى مهام مثل تحليل AMR عبر اللغات: تفوق SGL على جميع منافسها الهامش الكبير دون رؤية أمثلة غير الإنجليزية غير الإنجليزية في وقت التدريب في وقت التدريب، وبمجرد هذه الأمثلة يتم تضمين أيضا، يحدد حالة غير مسبوقة من الفن في هذه المهمة. نطلق سردنا ونماذجنا لأغراض البحث في https://github.com/sapienzanlp/sgl.
في تصنيف النص عبر اللغات، يطلب من أن البيانات التدريبية الخاصة بمهام المهام في لغات مصدر عالية الموارد متوفرة، حيث تكون المهمة مطابقة لتلك لغة مستهدفة منخفضة الموارد. ومع ذلك، يمكن أن يكون جمع هذه البيانات التدريبية غير ممكنة بسبب تكلفة العلامات وخصا ئص المهام ومخاوف الخصوصية. تقترح هذه الورقة حل بديل يستخدم فقط تضييق كلمة مهمة من المهام لغات الموارد عالية الموارد وقواميس ثنائية اللغة. أولا، نبني رسم بياني غير متجانس (DHG) من القواميس ثنائية اللغة. هذا يفتح إمكانية استخدام الشبكات العصبية الرسم البيانية للتحويل عبر اللغات. التحدي المتبقي هو عدم تجانس DHG لأنه يتم النظر في لغات متعددة. لمعالجة هذا التحدي، نقترح شبكة عصبية غير متجانسة مقرها القاموس (Dhgnet) التي تعالج بفعالية عدم تجانس DHG بشكل فعال بمقدار تجميعتين، وهي مجامعات على مستوى الكلمة ومستوى اللغة. توضح النتائج التجريبية أن أسلوبنا تفوق النماذج المحددة على الرغم من أنها لا تصل إلى كورسا كبيرة. علاوة على ذلك، يمكن أن يؤدي ذلك بشكل جيد على الرغم من أن القواميس تحتوي على العديد من الترجمات غير الصحيحة. تتيح قوتها لاستخدام مجموعة واسعة من القواميس مثل القاموس المصنوع تلقائيا وقاموس التعيد الجماعي، وهو أمر مناسب لتطبيقات العالم الحقيقي.
تقدير أنظمة التشابه الدلالي النصي (STS) درجة تشابه معنى بين جملتين.تقدر أنظمة STS عبر اللغات درجة تشابه معنى بين جملتين، كل منها بلغة مختلفة.عادة ما تستخدم الخوارزميات الحديثة عادة نهجا بالغضب بشدة، يصعب استخدامه لغات ضعف الموارد.ومع ذلك، يحتاج أي نه ج للحصول على بيانات التقييم لتأكيد النتائج.من أجل تبسيط عملية التقييم لغات ضعف الموارد (من حيث مجموعات بيانات تقييم STS)، نقدم مجموعات بيانات جديدة ل STS عبر اللغات والأحمر غير المباشر لغات دون بيانات التقييم هذه.نقدم أيضا نتائج العديد من الطرق الحديثة على هذه البيانات التي يمكن استخدامها كأساس للحصول على مزيد من البحث.نعتقد أن هذه المقالة لن تمد فقط أبحاث STS الحالية فقط إلى لغات أخرى، ولكنها ستشجع أيضا المنافسة على هذه بيانات التقييم الجديدة.
على الرغم من أن التطورات الأخيرة في الهندسة العصبية والتمثيلات المدربة مسبقا قد زادت بشكل كبير من الأداء النموذجي للحدث على وضع العلامات الدلالية الخاضعة للإشراف بالكامل (SRL)، فإن المهمة تظل تحديا لغات حيث تكون بيانات تدريب SRL الإشرافية غير وفيرة.ي مكن للتعلم عبر اللغات تحسين الأداء في هذا الإعداد عن طريق نقل المعرفة من لغات الموارد عالية الموارد إلى الموارد المنخفضة.علاوة على ذلك، فإننا نفترض أن شرطية التبعيات النحوية يمكن أن يتم الاستفادة منها لتسهيل نقل عبر اللغات.في هذا العمل، نقوم بإجراء عملية استكشاف تجريبي لمساعدة الإشراف النحوي عن Crosslingual SRL ضمن مخطط تعليمي بسيط متعدد الأيتاح.مع التقييمات الشاملة عبر عشرة لغات (بالإضافة إلى اللغة الإنجليزية) وثلاثة بيانات معيار SRL، بما في ذلك SRL على حد سواء SRL المستندة إلى التبعية والمقرها، فإننا نعرض فعالية الإشراف النحامي في سيناريوهات منخفضة الموارد.
ويعتقد أن وضع العلامات الدلالية الدلالية للمحادثة (CSRL) هي خطوة حاسمة نحو فهم الحوار.ومع ذلك، لا يزال يمثل تحديا كبيرا لمحلل CSRL الحالي للتعامل مع المعلومات الهيكلية للمحادثة.في هذه الورقة، نقدم بنية بسيطة وفعالة ل CSRL التي تهدف إلى معالجة هذه الم شكلة.يعتمد نموذجنا على شبكة الرسم البياني على بنية المحادثة التي تشفصها بشكل صريح لمعلومات مكبر الصوت.نقترح أيضا طريقة تعليمية متعددة المهام لمواصلة تحسين النموذج.تظهر النتائج التجريبية على مجموعات البيانات القياسية أن نموذجنا مع أهداف التدريب المقترحة لدينا تتفوق بشكل كبير على الأساس السابقة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا