شركات وسائل التواصل الاجتماعي وكذلك سلطات الرقابة تجعل الاستخدام المكثف للأدوات الذكاء الاصطناعي (AI) لمراقبة منشورات خطاب الكراهية أو الاحتفالات بالعنف أو الألفاظ النابية. نظرا لأن برنامج AI يتطلب كميات كبيرة من البيانات لتدريب أجهزة الكمبيوتر، يتم تنفيذ الترجمة التلقائية للمحتوى عبر الإنترنت عادة للتعويض عن ندرة النص في بعض اللغات. ومع ذلك، فإن أخطاء الترجمة الآلية (MT) هي حدوث منتظم عند ترجمة المحتوى الذي تم إنشاؤه الموجه نحو المستخدم (UGC)، خاصة عند مشاركة لغة الموارد المنخفضة. في مثل هذه السيناريوهات، تعتمد كفاية العملية برمتها على افتراض أن الترجمة يمكن تقييمها بشكل صحيح. في هذه الورقة، نقوم بتقييم قدرة مقاييس الجودة التلقائية على اكتشاف أخطاء ترجمة الآلات الحرجة التي يمكن أن تسبب سوء فهم خطير في رسالة التأثير. نقارن أداء ثلاثة مقاييس قانوني على الترجمات التي لا معنى لها بالمقارنة مع الترجمات ذات مغزى مع وجود خطأ حاسم يشوه المعنويات الإجمالية للنص المصدر. نوضح الحاجة إلى ضبط القيود التلقائي لجعلها أكثر قوة في اكتشاف أخطاء المعنويات الحرجة.
Social media companies as well as censorship authorities make extensive use of artificial intelligence (AI) tools to monitor postings of hate speech, celebrations of violence or profanity. Since AI software requires massive volumes of data to train computers, automatic-translation of the online content is usually implemented to compensate for the scarcity of text in some languages. However, machine translation (MT) mistakes are a regular occurrence when translating sentiment-oriented user-generated content (UGC), especially when a low-resource language is involved. In such scenarios, the adequacy of the whole process relies on the assumption that the translation can be evaluated correctly. In this paper, we assess the ability of automatic quality metrics to detect critical machine translation errors which can cause serious misunderstanding of the affect message. We compare the performance of three canonical metrics on meaningless translations as compared to meaningful translations with a critical error that distorts the overall sentiment of the source text. We demonstrate the need for the fine-tuning of automatic metrics to make them more robust in detecting sentiment critical errors.
المراجع المستخدمة
https://aclanthology.org/
تناقش هذه الورقة نهجا قائما على التصنيف لتقييم الترجمة الآلي، بدلا من نهج قائم على الانحدار المشترك في مهمة مقاييس WMT.تعمل الترجمة الآلية الحديثة عادة بشكل جيد ولكن في بعض الأحيان تجعل الأخطاء الحرجة بسبب بعض خيارات كلمة خاطئة فقط.يركز نهجنا القائم
تعتمد العديد من مقاييس تقييم الترجمة الآلية الحديثة مثل Bertscore، Bleurt، Comet، Monotransquest أو xmovercore على نماذج لغة Black-Box.وبالتالي، من الصعب شرح سبب إرجاع هذه المقاييس درجات معينة.تعالج المهمة المشتركة Eval4NLP لهذا العام هذا التحدي من خ
التقييم الخالي من المرجع لديه القدرة على جعل تقييم الترجمة الآلية أكثر قابلية للتطوير بشكل كبير، مما يتيح لنا المحور بسهولة لغات أو مجالات جديدة.لقد أظهر مؤخرا أن الاحتمالات التي قدمتها نموذج كبير متعدد اللغات يمكن أن تحقق حالة من النتائج الفنية عند
تلخيص شفرة المصدر الآلي هي موضوع أبحاث هندسة برامج شهيرة حيث يتم استخدام نماذج الترجمة الآلية لترجمة مقتطفات التعليمات البرمجية إلى أوصاف اللغة الطبيعية ذات الصلة. تتم معظم تقييمات هذه النماذج باستخدام مقاييس تلقائية قائمة على المرجع. ومع ذلك، بالنظر
تعد عملية تحديد موقع عقد الحساسات اللاسلكية المنتشرة في الوسط ضرورية من أجل التطبيقات التي تعد فيها المعلومات المتعلقة بموقع التحسس معلومات مهمة كتطبيقات الأمن و الحماية و تتبع الأهداف و غيرها من التطبيقات. تصنف خوارزميات تحديد الموقع إلى نوعين: المع