معظم العمل في NLP يجعل الافتراض أنه من المرغوب فيه تطوير حلول باللغة الأم المعنية. وبالتالي هناك اتجاه قوي نحو بناء نماذج لغات أصلية حتى لغات الموارد المنخفضة. تساهم هذه الورقة في هذا التطور، واستكشف فكرة ترجمة البيانات ببساطة إلى اللغة الإنجليزية، مما يتيح استخدام نماذج اللغة الإنجليزية ذات الاحترام، واسعة النطاق. نوضح تجريبيا أن نموذج اللغة الإنجليزية الكبير إلى جانب الترجمة الآلية الحديثة يتفوقون على نماذج لغة أصلية في معظم اللغات الاسكندنافية. الاستثناء لهذه الفنلندية، والتي نفترض أنها بسبب جودة الترجمة الأدنى. تشير نتائجنا إلى أن الترجمة الآلية هي تقنية ناضجة، تثير حجة مضادة خطيرة لتدريب نماذج اللغة الأم لغات الموارد المنخفضة. لذلك تسعى هذه الورقة إلى اتخاذ نقطة استفزازية ولكنها مهمة. نظرا لأن نماذج اللغة الإنجليزية تتحسن بوتيرة غير مسبوقة، والتي تعمل بدورها على تحسين الترجمة الآلية، فهي من نقطة حاملة تجريبية وبيئية أكثر فعالية لترجمة البيانات من لغات الموارد المنخفضة إلى اللغة الإنجليزية، بدلا من بناء نماذج لغة لهذه اللغات.
Most work in NLP makes the assumption that it is desirable to develop solutions in the native language in question. There is consequently a strong trend towards building native language models even for low-resource languages. This paper questions this development, and explores the idea of simply translating the data into English, thereby enabling the use of pretrained, and large-scale, English language models. We demonstrate empirically that a large English language model coupled with modern machine translation outperforms native language models in most Scandinavian languages. The exception to this is Finnish, which we assume is due to inferior translation quality. Our results suggest that machine translation is a mature technology, which raises a serious counter-argument for training native language models for low-resource languages. This paper therefore strives to make a provocative but important point. As English language models are improving at an unprecedented pace, which in turn improves machine translation, it is from an empirical and environmental stand-point more effective to translate data from low-resource languages into English, than to build language models for such languages.
المراجع المستخدمة
https://aclanthology.org/
عادة ما يتم تدريب نماذج الترجمة الآلية العصبية (NMT) باستخدام فقدان انتروبيا Softmax حيث يتم مقارنة توزيع SoftMax بالملصقات الذهبية. في سيناريوهات منخفضة الموارد ونماذج NMT تميل إلى الأداء بشكل سيئ لأن التدريب النموذجي يتقارن بسرعة إلى نقطة حيث يتجاه
تعتمد معظم دراسات معالجة اللغة الطبيعية الأخيرة (NLP) على النهج الضميني - PFA (PFA)، ولكن في المؤسسات أو الشركات الصغيرة والمتوسطة مع الأجهزة غير الكافية، هناك العديد من القيود لخدمة برنامج تطبيق NLP باستخدام هذه التكنولوجيا بسبب هذه التكنولوجيا سرعة
يهدف مشروع Multitrainmt Erasmus + + إلى تطوير منهج مبتكر مفتوح في الترجمة الآلية العصبية (NMT) للمتعلمين اللغوي والمترجمين كمواطنين متعدد اللغات.ينظر إلى الترجمة الآلية كمورد يمكن أن يدعم المواطنين في محاولتهم للحصول على المهارات اللغوية وتطويرها إذا
أهداف المحاذاة الكامنة مثل CTC والفأس تحسن بشكل كبير نماذج الترجمة الآلية غير التلقائي.هل يمكنهم تحسين النماذج التلقائية أيضا؟نستكشف إمكانية تدريب نماذج الترجمة الآلية ذات الجهاز التلقائي بأهداف محاذاة كامنة، ومراقبة ذلك، في الممارسة العملية، ينتج هذ
تحديد القروض المعجمية، ونقل الكلمات بين اللغات، هي ممارسة أساسية لللغويات التاريخية وأداة حيوية في تحليل اتصال اللغة والأحداث الثقافية بشكل عام.نسعى لتحسين الأدوات للكشف التلقائي للقروض المعجمية، مع التركيز هنا على الكشف عن الكلمات المقترضة من نصوص ا