ترغب بنشر مسار تعليمي؟ اضغط هنا

معظم العمل في NLP يجعل الافتراض أنه من المرغوب فيه تطوير حلول باللغة الأم المعنية. وبالتالي هناك اتجاه قوي نحو بناء نماذج لغات أصلية حتى لغات الموارد المنخفضة. تساهم هذه الورقة في هذا التطور، واستكشف فكرة ترجمة البيانات ببساطة إلى اللغة الإنجليزية، م ما يتيح استخدام نماذج اللغة الإنجليزية ذات الاحترام، واسعة النطاق. نوضح تجريبيا أن نموذج اللغة الإنجليزية الكبير إلى جانب الترجمة الآلية الحديثة يتفوقون على نماذج لغة أصلية في معظم اللغات الاسكندنافية. الاستثناء لهذه الفنلندية، والتي نفترض أنها بسبب جودة الترجمة الأدنى. تشير نتائجنا إلى أن الترجمة الآلية هي تقنية ناضجة، تثير حجة مضادة خطيرة لتدريب نماذج اللغة الأم لغات الموارد المنخفضة. لذلك تسعى هذه الورقة إلى اتخاذ نقطة استفزازية ولكنها مهمة. نظرا لأن نماذج اللغة الإنجليزية تتحسن بوتيرة غير مسبوقة، والتي تعمل بدورها على تحسين الترجمة الآلية، فهي من نقطة حاملة تجريبية وبيئية أكثر فعالية لترجمة البيانات من لغات الموارد المنخفضة إلى اللغة الإنجليزية، بدلا من بناء نماذج لغة لهذه اللغات.
تفتقر الأبحاث الحديثة باستخدام نماذج اللغة المدربة مسبقا لمهمة تلخيص المستندات متعددة الوثائق إلى تحقيق عميق في الحالات الخاطئة المحتملة وتطبيقها المحتمل على اللغات الأخرى.في هذا العمل، نطبق نموذج لغة مدرب مسبقا (BART) لمهمة تلخيص متعدد الوثائق (MDS) باستخدام كل من الضبط الدقيق ودون ضبط جيد.نحن نستخدم مجموعات بيانات اللغة الإنجليزية ومجموعة بيانات ألمانية واحدة لهذه الدراسة.أولا، نقوم بإعادة إنتاج ملخصات متعددة الوثائق باللغة الإنجليزية باتباع إحدى الدراسات الحديثة.بعد ذلك، نعرض لقابلية تطبيق النموذج إلى اللغة الألمانية من خلال تحقيق أداء حديثة على MDS الألمانية.نقوم بإجراء تحليل خطأ متعمق للنهج التالي لكلتا اللغتين، مما يؤدي إلى تحديد معظم الأخطاء البارزة، من الحقائق الصادقة وتعليم الموضوع، وقياس مقدار الاستقصاء.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا