ترغب بنشر مسار تعليمي؟ اضغط هنا

بلو، نيزك، Bertscore: تقييم أداء المقاييس في تقييم أخطاء الترجمة الهامة في النص الموجه نحو المعنويات

BLEU, METEOR, BERTScore: Evaluation of Metrics Performance in Assessing Critical Translation Errors in Sentiment-Oriented Text

327   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

شركات وسائل التواصل الاجتماعي وكذلك سلطات الرقابة تجعل الاستخدام المكثف للأدوات الذكاء الاصطناعي (AI) لمراقبة منشورات خطاب الكراهية أو الاحتفالات بالعنف أو الألفاظ النابية. نظرا لأن برنامج AI يتطلب كميات كبيرة من البيانات لتدريب أجهزة الكمبيوتر، يتم تنفيذ الترجمة التلقائية للمحتوى عبر الإنترنت عادة للتعويض عن ندرة النص في بعض اللغات. ومع ذلك، فإن أخطاء الترجمة الآلية (MT) هي حدوث منتظم عند ترجمة المحتوى الذي تم إنشاؤه الموجه نحو المستخدم (UGC)، خاصة عند مشاركة لغة الموارد المنخفضة. في مثل هذه السيناريوهات، تعتمد كفاية العملية برمتها على افتراض أن الترجمة يمكن تقييمها بشكل صحيح. في هذه الورقة، نقوم بتقييم قدرة مقاييس الجودة التلقائية على اكتشاف أخطاء ترجمة الآلات الحرجة التي يمكن أن تسبب سوء فهم خطير في رسالة التأثير. نقارن أداء ثلاثة مقاييس قانوني على الترجمات التي لا معنى لها بالمقارنة مع الترجمات ذات مغزى مع وجود خطأ حاسم يشوه المعنويات الإجمالية للنص المصدر. نوضح الحاجة إلى ضبط القيود التلقائي لجعلها أكثر قوة في اكتشاف أخطاء المعنويات الحرجة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تناقش هذه الورقة نهجا قائما على التصنيف لتقييم الترجمة الآلي، بدلا من نهج قائم على الانحدار المشترك في مهمة مقاييس WMT.تعمل الترجمة الآلية الحديثة عادة بشكل جيد ولكن في بعض الأحيان تجعل الأخطاء الحرجة بسبب بعض خيارات كلمة خاطئة فقط.يركز نهجنا القائم على التصنيف على هذه الأخطاء باستخدام العديد من ملصقات نوع الخطأ، لتقييم ترجمة الآلات العملي في عصر الترجمة الآلية العصبية.لقد بذلنا شرحا إضافيا على مجموعات بيانات المقاييس 2015-2017 مع ملصقات الطلاقة والكفاية لتمييز أنواع مختلفة من أخطاء الترجمة من نقاط العرض النحوية والدلسة.نقدم معايير التقييم البشرية لدينا لتطوير Corpus وتجارب التقييم التلقائي باستخدام Corpus.سيتم إتاحة كوربوس التقييم البشري علنا عند النشر.
تعتمد العديد من مقاييس تقييم الترجمة الآلية الحديثة مثل Bertscore، Bleurt، Comet، Monotransquest أو xmovercore على نماذج لغة Black-Box.وبالتالي، من الصعب شرح سبب إرجاع هذه المقاييس درجات معينة.تعالج المهمة المشتركة Eval4NLP لهذا العام هذا التحدي من خ لال البحث عن طرق يمكن استخراجها من الدرجات ذات الأهمية التي ترتبط بشكل جيد مع التعليقات التوضيحية خطأ على مستوى الكلمات البشرية.في هذه الورقة نظهر أن المقاييس غير المزدئة التي تستند إلى TokenMatching يمكن أن توفر جوهرية مثل هذه الدرجات.يفسر النظام المقدم على أوجه التشابه في تضمين الكلمات السياقية المستخدمة لحساب (x) BertScore كأهمية ذات أهمية على مستوى الكلمة.
التقييم الخالي من المرجع لديه القدرة على جعل تقييم الترجمة الآلية أكثر قابلية للتطوير بشكل كبير، مما يتيح لنا المحور بسهولة لغات أو مجالات جديدة.لقد أظهر مؤخرا أن الاحتمالات التي قدمتها نموذج كبير متعدد اللغات يمكن أن تحقق حالة من النتائج الفنية عند استخدامها كتقسيط مجاني مرجعي.نقوم بتجربة تعديلات مختلفة لهذا النموذج، وإظهار ذلك من خلال تحجيمه، يمكننا مطابقة أداء بلو.نقوم بتحليل نقاط الضعف المحتملة المختلفة للنهج، وتجد أنه قوي بشكل مدهش ومن المرجح أن تقدم أداء معقول عبر مجموعة واسعة من المجالات وصفات النظام المختلفة.
تلخيص شفرة المصدر الآلي هي موضوع أبحاث هندسة برامج شهيرة حيث يتم استخدام نماذج الترجمة الآلية لترجمة مقتطفات التعليمات البرمجية إلى أوصاف اللغة الطبيعية ذات الصلة. تتم معظم تقييمات هذه النماذج باستخدام مقاييس تلقائية قائمة على المرجع. ومع ذلك، بالنظر إلى الفجوة الدلالية الكبيرة نسبيا بين لغات البرمجة واللغة الطبيعية، فإننا نقول أن هذا الخط من الأبحاث سيستفيد من التحقيق النوعي في أوضاع الخطأ المختلفة لنماذج الحالة الحالية. لذلك، في هذا العمل، نقوم بإجراء مقارنة كمية ونوعية من ثلاثة نماذج تلخيص شفرة المصدر المقترحة مؤخرا. في تقييمنا الكمي، قارن النماذج المستندة إلى مقاييس الترجمة من BLEU-4 و Noteor و Rouge-L، وفي تقييمنا النوعي، نقوم بإجراء ترميز مفتوح يدوي لأخطاء الأكثر شيوعا التي ارتكبتها النماذج مقارنة مع تسميات الحقيقة الأرضية. يكشف تحقيقنا عن رؤى جديدة في العلاقة بين الأداء المستند إلى الأداء المتري وأخطاء التنبؤ بالنماذج التي تستند إلى تصنيف خطأ يمكن استخدامها لدفع جهود البحث في المستقبل.
تعد عملية تحديد موقع عقد الحساسات اللاسلكية المنتشرة في الوسط ضرورية من أجل التطبيقات التي تعد فيها المعلومات المتعلقة بموقع التحسس معلومات مهمة كتطبيقات الأمن و الحماية و تتبع الأهداف و غيرها من التطبيقات. تصنف خوارزميات تحديد الموقع إلى نوعين: المع تمدة على المدى Range-based و غير المعتمدة على المدى (Range-free). ركزت الدراسة على الخوارزميات غير المعتمدة على المدى لأنها أقل كلفة من حيث متطلبات أجهزة العتاد الصلب المستخدمة. استخدم الماتلاب في محاكاة الخوارزميات، حيثُ جرى تقييم أدائها في ظل تغيير عدد العقد الشبكية، عدد العقد المرجعية، إضافة الى مجال اتصال العقد بغيةَ توضيحِ اختلافات الأداء من ناحية خطأ الموقع. أظهرت النتائج تفوق خوارزمية عدم الانتظام (Amorphous)، محققة دقة عالية في تحديد الموقع، و كلفة أقل بالنسبة الى عدد العقد المرجعية المطلوبة لتحقيق خطأ موقع صغير.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا