ترغب بنشر مسار تعليمي؟ اضغط هنا

يجب أن نتوقف عن تدريب المزيد من نماذج أحادية الأونلينغ، وبما هو استخدام الترجمة الآلية بدلا من ذلك؟

Should we Stop Training More Monolingual Models, and Simply Use Machine Translation Instead?

136   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

معظم العمل في NLP يجعل الافتراض أنه من المرغوب فيه تطوير حلول باللغة الأم المعنية. وبالتالي هناك اتجاه قوي نحو بناء نماذج لغات أصلية حتى لغات الموارد المنخفضة. تساهم هذه الورقة في هذا التطور، واستكشف فكرة ترجمة البيانات ببساطة إلى اللغة الإنجليزية، مما يتيح استخدام نماذج اللغة الإنجليزية ذات الاحترام، واسعة النطاق. نوضح تجريبيا أن نموذج اللغة الإنجليزية الكبير إلى جانب الترجمة الآلية الحديثة يتفوقون على نماذج لغة أصلية في معظم اللغات الاسكندنافية. الاستثناء لهذه الفنلندية، والتي نفترض أنها بسبب جودة الترجمة الأدنى. تشير نتائجنا إلى أن الترجمة الآلية هي تقنية ناضجة، تثير حجة مضادة خطيرة لتدريب نماذج اللغة الأم لغات الموارد المنخفضة. لذلك تسعى هذه الورقة إلى اتخاذ نقطة استفزازية ولكنها مهمة. نظرا لأن نماذج اللغة الإنجليزية تتحسن بوتيرة غير مسبوقة، والتي تعمل بدورها على تحسين الترجمة الآلية، فهي من نقطة حاملة تجريبية وبيئية أكثر فعالية لترجمة البيانات من لغات الموارد المنخفضة إلى اللغة الإنجليزية، بدلا من بناء نماذج لغة لهذه اللغات.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

عادة ما يتم تدريب نماذج الترجمة الآلية العصبية (NMT) باستخدام فقدان انتروبيا Softmax حيث يتم مقارنة توزيع SoftMax بالملصقات الذهبية. في سيناريوهات منخفضة الموارد ونماذج NMT تميل إلى الأداء بشكل سيئ لأن التدريب النموذجي يتقارن بسرعة إلى نقطة حيث يتجاه ل توزيع SoftMax باستخدام تسجيل الدخول إلى توزيع تسمية الذهب. على الرغم من أن تجانس الملصقات هو حل مشهور لمعالجة هذه المشكلة، فإننا نقترح مزيد من اقتراح تقسيم السجلات بواسطة معامل درجة الحرارة أكبر من واحد وإجبار توزيع SoftMax على أن يكون أكثر سلاسة أثناء التدريب. هذا يجعل من الصعب على النموذج بسرعة أكثر من اللازم. في تجاربنا على 11 أزواج لغوية في مجموعة بيانات Treebank الآسيوية المنخفضة الموارد، لاحظنا تحسينات كبيرة في جودة الترجمة. يركز تحليلنا على إيجاد التوازن الصحيح من تجانس الملصقات و SoftMax STIVING والتي تشير إلى أنها طرق متعامدة. وأخيرا، تكشف دراسة الانترشيات والتجميلات SoftMax عن تأثير طريقتنا على السلوك الداخلي لنماذج NMT الخاصة بنا.
تعتمد معظم دراسات معالجة اللغة الطبيعية الأخيرة (NLP) على النهج الضميني - PFA (PFA)، ولكن في المؤسسات أو الشركات الصغيرة والمتوسطة مع الأجهزة غير الكافية، هناك العديد من القيود لخدمة برنامج تطبيق NLP باستخدام هذه التكنولوجيا بسبب هذه التكنولوجيا سرعة بطيئة وذاكرة غير كافية. تتطلب أحدث تقنيات PFA كميات كبيرة من البيانات، خاصة لغات الموارد المنخفضة، مما يجعلها أكثر صعوبة في العمل معها. نقترح طريقة جديدة للتكامل، قطعة واحدة، لمعالجة هذا القيد الذي يجمع بين طريقة تشغيل الكلمات الفرعية التي تعتبر الكلمات الفرعية التي تعتبرها المورفولوجيا وطريقة المفردات المستخدمة بعد التحقيق في طريقة حالية لم تعتبر بعناية من قبل. يمكن أيضا استخدام طريقةنا المقترحة دون تعديل هيكل النموذج. نقوم بتجربة تطبيق قطعة واحدة إلى اللغة الكورية والغنية بالموراطية والموارد المنخفضة. ونحن نستمد نتيجة تكييف الكلمات الفرعية المثلى للترجمة الآلية الكورية والإنجليزية من خلال إجراء دراسة حالة تجمع بين طريقة تكتيح الكلمات الفرعية، والتجزئة المورفولوجية، وطريقة المفردات. من خلال التجارب المقارنة مع جميع أساليب التكامل المستخدمة حاليا في بحث NLP، تحقق قطعة واحدة أداء قابلة للمقارنة مع النموذج الحالي للترجمة الآلية الكورية والإنجليزية الحالية.
يهدف مشروع Multitrainmt Erasmus + + إلى تطوير منهج مبتكر مفتوح في الترجمة الآلية العصبية (NMT) للمتعلمين اللغوي والمترجمين كمواطنين متعدد اللغات.ينظر إلى الترجمة الآلية كمورد يمكن أن يدعم المواطنين في محاولتهم للحصول على المهارات اللغوية وتطويرها إذا تم تدريبهم بطريقة مستنيرة وحاسمة.وبالتالي يمكن أن تساعد الترجمة الآلية في معالجة عدم التطابق بين الاتحاد الأوروبي المطلوب من وجود مواطنين متعدد اللغات الذين يتحدثان لغتين أجنبية على الأقل والوضع الحالي الذي يسقط المواطنون بشكل عام هذا الهدف عموما.تتكون المواد التدريبية من كتاب سيارات مفتوح، وهو تطبيق ويب مفتوح المصدر يسمى Mutnmt لأغراض التدريب، والأنشطة المقابلة.
أهداف المحاذاة الكامنة مثل CTC والفأس تحسن بشكل كبير نماذج الترجمة الآلية غير التلقائي.هل يمكنهم تحسين النماذج التلقائية أيضا؟نستكشف إمكانية تدريب نماذج الترجمة الآلية ذات الجهاز التلقائي بأهداف محاذاة كامنة، ومراقبة ذلك، في الممارسة العملية، ينتج هذ ا النهج نماذج التدهور.نحن نقدم شرحا نظريا لهذه النتائج التجريبية، وأثبت أن أهداف المحاذاة الكامنة غير متوافقة مع إجبار المعلم.
تحديد القروض المعجمية، ونقل الكلمات بين اللغات، هي ممارسة أساسية لللغويات التاريخية وأداة حيوية في تحليل اتصال اللغة والأحداث الثقافية بشكل عام.نسعى لتحسين الأدوات للكشف التلقائي للقروض المعجمية، مع التركيز هنا على الكشف عن الكلمات المقترضة من نصوص ا لكلمات أحادية الأحادية.بدءا من نموذج اللغة المعجمية العصبية المتكررة ونهج انتروبيات المنافسة، فإننا ندمج نموذجا أكثر قائما على المحولات القائمة على المحولات.من هناك، نقوم بتجربة العديد من النماذج والنهج المختلفة بما في ذلك نموذج الجهات المانحة المعجمية مع قائمة الكلمات المعززة.يقلل نموذج المحول وقت التنفيذ ويحسن الحد الأدنى للكشف عن الاقتراض.نموذج المانحين المعزز يظهر بعض الوعد.هناك حاجة إلى تغيير موضوعي في النهج أو النموذج لإجراء مكاسب كبيرة في تحديد القروض المعجمية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا