في تقدير الجودة (QE)، يمكن التنبؤ بجودة الترجمة بالرجوع إلى الجملة المصدر وإخراج الترجمة الآلية (MT) دون الوصول إلى الجملة المرجعية. ومع ذلك، هناك مفارقة في أن بناء مجموعة بيانات لإنشاء نموذج QE يتطلب عمالة إنسانية غير تافهة ووقت، وقد يتطلب جهدا إضافيا مقارنة بتكلفة بناء كائن موازي. في هذه الدراسة، لمعالجة هذه المفارقة واستخدام تطبيقات QE المختلفة، حتى في لغات الموارد المنخفضة (LRLS)، نقترح طريقة لإنشاء مجموعة بيانات Pseudo-QE الخاصة دون استخدام العمل البشري. نقوم بإجراء تحليل مقارن على مجموعة بيانات الزائفة QE باستخدام نماذج لغة متعددة اللغات مسبقا. نظرا لأننا نولد مجموعة بيانات الزائفة، فإننا نقوم بإجراء تجارب باستخدام مختلف المترجمين الأجهزة الخارجية كمجموعات اختبار للتحقق من دقة النتائج بموضوعية. أيضا، تظهر النتائج التجريبية أن البارت المتعدد اللغات يوضح أفضل أداء، ونؤكد تطبيق QE في LRLS باستخدام طرق البناء Pseudo-QE DataSet.
In quality estimation (QE), the quality of translation can be predicted by referencing the source sentence and the machine translation (MT) output without access to the reference sentence. However, there exists a paradox in that constructing a dataset for creating a QE model requires non-trivial human labor and time, and it may even requires additional effort compared to the cost of constructing a parallel corpus. In this study, to address this paradox and utilize the various applications of QE, even in low-resource languages (LRLs), we propose a method for automatically constructing a pseudo-QE dataset without using human labor. We perform a comparative analysis on the pseudo-QE dataset using multilingual pre-trained language models. As we generate the pseudo dataset, we conduct experiments using various external machine translators as test sets to verify the accuracy of the results objectively. Also, the experimental results show that multilingual BART demonstrates the best performance, and we confirm the applicability of QE in LRLs using pseudo-QE dataset construction methods.
المراجع المستخدمة
https://aclanthology.org/
توضح هذه الورقة أنظمة تقدير الجودة من Postech المقدمة إلى المهمة 2 من تقدير جودة WMT 2021 المهمة المشتركة: جهود ما بعد التحرير على مستوى الكلمة والجمل. نلاحظ أنه من الممكن تحسين استقرار أحدث نماذج تقدير الجودة التي لها تشفير واحد فقط استنادا إلى آلية
يهدف تصحيح الخطأ النحوي (GEC) إلى تصحيح أخطاء الكتابة ومساعدة المتعلمين في اللغة على تحسين مهاراتهم في الكتابة. ومع ذلك، تميل نماذج GEC الحالية إلى إنتاج تصحيحات زائفة أو تفشل في اكتشاف الكثير من الأخطاء. يعد نموذج تقدير الجودة ضروريا لضمان أن يحصل ا
نبلغ عن نتائج المهمة المشتركة WMT 2021 بشأن تقدير الجودة، حيث يتحدى التحدي هو التنبؤ بجودة إخراج أنظمة الترجمة الآلية العصبية على مستوى الكلمة ومستويات الجملة.ركزت هذه الطبعة على إضافات رواية رئيسيتين: (1) التنبؤ باللغات غير المرئية، أي إعدادات صفرية
يقوم هذا البحث على دراسة مفهوم اللهجات عند القدماء و المُحَدثين , فموضوع اللهجات في النحو العربي موضوعٌ أصابه الخلط و الاضطراب عند التقعيد للغة العربيَّة , و ذلك عندما قاموا باستخدام مصطلح ( اللهجة ) و (اللغة) في تعبيرهم عن الاختلافات اللهجية بين الق
تهدف تقدير الجودة (QE) من الترجمة الآلية (MT) إلى تقييم جودة الجمل التي ترجمتها الجهاز دون مراجع وهي مهمة في التطبيقات العملية ل MT.تتطلب Training Models QE بيانات موازية ضخمة بأشرفة توضيحية ذات جودة يدوية، وهي تستغرق وقتا طويلا ومكثفة العمالة للحصول