ترغب بنشر مسار تعليمي؟ اضغط هنا

أحكام مقبولية أحادية وطني ومقابلة مع كولا إيطالية كولبا

Monolingual and Cross-Lingual Acceptability Judgments with the Italian CoLA corpus

227   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تم تعزيز تطوير النهج الآلي للمقبولة اللغوية بشكل كبير من خلال توافر كولا كولا الإنجليزية، والذي تم إدراجه أيضا في معيار الغراء المستخدم على نطاق واسع. ومع ذلك، فقد أعاق هذا النوع من الأبحاث للغات بخلاف اللغة الإنجليزية، وكذلك تحليل الأساليب عبر اللغات، من خلال عدم وجود موارد بحجم مماثل بلغات أخرى. لذلك قمنا بتطوير Eatacola Corpus، الذي يحتوي على ما يقرب من 10000 جمل بأحكام مقبولية، والتي تم إنشاؤها بعد النهج نفسه ونفس الخطوات مثل اللغة الإنجليزية. في هذه الورقة، نصف إنشاء Corpus Credion، ونحن نقدم محتواها، ونقدم التجارب الأولى على هذا المورد الجديد. نقارن تصنيف النطاق والخروج من النطاق، وإجراء تقييم محدد لتسع ظواهر لغوية. نقدم أيضا أول تجارب متبردة عبر اللغات، والتي تهدف إلى تقييم ما إذا كان يمكن أن تستفيد النهج القائمة متعددة اللغات القائمة على المحولات من استخدام الجمل بلغتين أثناء ضبط الرصيف.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

التلخصات المتبقية هي مهمة صعبة لا توجد موارد علمية عبر اللغات المتاحة حاليا. للتغلب على عدم وجود مورد عالي الجودة، نقدم مجموعة بيانات جديدة لتلخيص أحادي اللغة وتبادر بالنظر إلى الزوج الإنجليزي الألماني. نقوم بجمع بيانات عالية الجودة العالية والعالمية من SPEKTRUM DER WISSENSCHAFT، والتي تنشر ملخصات علمية ألمانية مكتوب بشرية من مقالات علمية باللغة الإنجليزية حول مختلف الموضوعات. مجموعة بيانات Spektrum التي تم إنشاؤها صغيرة؛ لذلك، نحث مجموعة بيانات مماثلة من بوابة علوم ويكيبيديا لاستكمالها. تتكون DataSet Wikipedia من مقالات باللغة الإنجليزية والألمانية، والتي يمكن استخدامها في تلخيص أحادي ومقاطع. علاوة على ذلك، نقدم تحليلا كميا لمجموعات البيانات ونتائج التجارب التجريبية مع العديد من نماذج تلخيص الاستخراجية والمخفية القائمة. تشير النتائج إلى جدوى وفيد بيانات البيانات المقترحة لتلخيص أحادي وطني وتبادل اللغات.
تحديد القروض المعجمية، ونقل الكلمات بين اللغات، هي ممارسة أساسية لللغويات التاريخية وأداة حيوية في تحليل اتصال اللغة والأحداث الثقافية بشكل عام.نسعى لتحسين الأدوات للكشف التلقائي للقروض المعجمية، مع التركيز هنا على الكشف عن الكلمات المقترضة من نصوص ا لكلمات أحادية الأحادية.بدءا من نموذج اللغة المعجمية العصبية المتكررة ونهج انتروبيات المنافسة، فإننا ندمج نموذجا أكثر قائما على المحولات القائمة على المحولات.من هناك، نقوم بتجربة العديد من النماذج والنهج المختلفة بما في ذلك نموذج الجهات المانحة المعجمية مع قائمة الكلمات المعززة.يقلل نموذج المحول وقت التنفيذ ويحسن الحد الأدنى للكشف عن الاقتراض.نموذج المانحين المعزز يظهر بعض الوعد.هناك حاجة إلى تغيير موضوعي في النهج أو النموذج لإجراء مكاسب كبيرة في تحديد القروض المعجمية.
أظهرت الدراسات الحديثة أن النماذج المتبادلة المدربة مسبقا تحقق أداء مثير للإعجاب في المهام المتقاطعة المتبادلة. يستفيد هذا التحسن من تعلم كمية كبيرة من مونوللقي والموازيات. على الرغم من أنه من المعترف به عموما أن شركة فورانيا الموازية أمر بالغ الأهمي ة لتحسين الأداء النموذجي، فإن الأساليب الحالية غالبا ما تكون مقيدة بحجم Corpora المتوازي، خاصة لغات الموارد المنخفضة. في هذه الورقة، نقترح Ernie-M، وهي طريقة تدريب جديدة تشجع النموذج على محاذاة تمثيل لغات متعددة مع شركة أحادية الأحادية، للتغلب على القيد أن أماكن حجم Corpus الموازي على الأداء النموذجي. إن رؤيتنا الرئيسية هي دمج الترجمة الخلفي في عملية التدريب المسبق. نحن نولد أزواج جملة زائفة بالموازاة على كائن أحادي مونولينغ لتمكين تعلم المحاذاات الدلالية بين لغات مختلفة، وبالتالي تعزيز النمذجة الدلالية للنماذج المتبقية. تظهر النتائج التجريبية أن Ernie-M يتفوق على النماذج الحالية عبر اللغات الحالية ويوفر نتائج حالة جديدة من بين الفنين في مختلف مهام المصب عبر اللغات. سيتم إجراء الرموز والنماذج المدربة مسبقا متاحة للجمهور.
نقترح إطارا جديدا لتدريب النماذج لتصنيف مقبولية الردود الناتجة عن نماذج توليد اللغة الطبيعية (NLG)، وتحسين تحويل الجملة الحالية والنهج القائمة على النماذج. يعتبر استجابة NLG مقبولة إذا كانت كل من صحيحة وتجميعها. نحن لا نستخدم أي مراجع بشرية مما يجعل المصنفين مناسبين لنشر وقت التشغيل. يتم الحصول على بيانات التدريب للصفوف المصنفة باستخدام نهج من 2 مراحل من أول توليد البيانات الاصطناعية باستخدام مزيج من النهج القائمة والجديدة القائمة على النموذج متبوعا بإطار التحقق من صحة جديدة لتصفية وفرز البيانات الاصطناعية في فئات مقبولة وغير مقبولة. يتكيف نهجنا ذو المرحلتين لدينا بمجموعة واسعة من تمثيل البيانات ولا يتطلب بيانات إضافية تتجاوز ما يتم تدريب نماذج NLG عليها. وهي أيضا مستقلة عن الهندسة المعمارية النموذجية NLG الأساسية، وقادرة على توليد عينات أكثر واقعية قريبة من توزيع الردود الناتجة عن النموذج NLG. نقدم النتائج على 5 مجموعات بيانات (Webnlg، وتنظيفها E2E، Viggo، والتنبيه، والطقس) بتمثيلات بيانات متفاوتة. قارن إطار عملنا مع التقنيات الحالية التي تنطوي على توليد بيانات الاصطناعية باستخدام تحويلات جملة بسيطة و / أو تقنيات قائمة على الطراز، وإظهار أن بناء مصنف مقبولية يستخدمون البيانات التي تشبه مخرجات طراز الجيل تتبع إطار التحقق من الصحة تتفوق على التقنيات الحالية، وتحقيق الدولة النتائج من الفن. نظهر أيضا أن تقنياتنا يمكن استخدامها في إعدادات قليلة عند استخدام التدريب الذاتي.
تعرض نماذج اللغة متعددة اللغات أداء أفضل لبعض اللغات مقارنة بالآخرين (Singh et al.، 2019)، وعدد العديد من اللغات لا تستفيد من تقاسم متعدد اللغات على الإطلاق، من المفترض أن تكون نتيجة تجزئة متعددة اللغات (بيزال O وآخرون)2020).يستكشف هذا العمل فكرة تعل م نماذج اللغة متعددة اللغات بناء على تجميع شرائح أحادية الأونلينغ.نعرض تحسينات كبيرة على تجزئة وتدريب وتعدد اللغات القياسية عبر تسعة لغات بشأن مهمة الإجابة على سؤال، سواء في نظام نموذج صغير ونموذج حجم قاعدة بيرت.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا