انفجار المحتوى الذي أنشأه المستخدم (UGC) --- E.G. وظائف وتعليقات وسائل التواصل الاجتماعي والتعليقات والمراجعات --- تحفز تطوير تطبيقات NLP مصممة على هذه الأنواع من النصوص غير الرسمية. السائدة بين هذه التطبيقات كانت تحليل المعنويات والترجمة الآلية (MT). حول الملاحظة التي تتميز بها UGC لغة مشحونة بالثريات والمعنوية للغاية ونقترح نهج من جانب فك الترميز الذي يشتمل على الثقة التلقائية التي يتم تسجيلها في عملية اختيار مرشح MT. نحن ندرب مصنف المعنويات أحادية الأنتجة باللغة الإنجليزية والإسبانية بالإضافة إلى نموذج معنويات متعددة اللغات وثقل Berting Berting Bert و XLM-Roberta. باستخدام N-Best المرشحين الناتج عن نموذج خط الأساس MT مع البحث الشعاع ونختار المرشح الذي يقلل من الفرق المطلق بين درجة المعنويات من جملة المصدر والترجمة وأداء تقييمين بشري لتقييم الترجمات المنتجة. على عكس العمل السابق ونحن نقوم بتحديد هذا الترجمة المتباينة على الحد الأدنى من خلال النظر في درجات المعنويات من جملة المصدر والترجمة على الفاصل الزمني المستمر وبدون استخدام E.G. التصنيف الثنائي والسماح باختيار أكثر غرامة من مرشحي الترجمة. تظهر نتائج التقييمات البشرية أنه وبالمقارنة مع نموذج خط الأساس MT مفتوح المصدر على رأسه مبني أن خط أنابيب القائم على المعنويات مبنية وينتج خط أنابيبنا ترجمة أكثر دقة للنصوص المصدر الثقيلة العامية والمعنويات.
The explosion of user-generated content (UGC)---e.g. social media posts and comments and and reviews---has motivated the development of NLP applications tailored to these types of informal texts. Prevalent among these applications have been sentiment analysis and machine translation (MT). Grounded in the observation that UGC features highly idiomatic and sentiment-charged language and we propose a decoder-side approach that incorporates automatic sentiment scoring into the MT candidate selection process. We train monolingual sentiment classifiers in English and Spanish and in addition to a multilingual sentiment model and by fine-tuning BERT and XLM-RoBERTa. Using n-best candidates generated by a baseline MT model with beam search and we select the candidate that minimizes the absolute difference between the sentiment score of the source sentence and that of the translation and and perform two human evaluations to assess the produced translations. Unlike previous work and we select this minimally divergent translation by considering the sentiment scores of the source sentence and translation on a continuous interval and rather than using e.g. binary classification and allowing for more fine-grained selection of translation candidates. The results of human evaluations show that and in comparison to the open-source MT baseline model on top of which our sentiment-based pipeline is built and our pipeline produces more accurate translations of colloquial and sentiment-heavy source texts.
المراجع المستخدمة
https://aclanthology.org/
تراجع الجملة هي تقنية تكييف مجال بسيطة وقوية.نقوم بإجراء تصنيف النطاق لحساب الحوسبة أوزان مع 1) نموذج اللغة Cross Entropy الفرق 2) شبكة عصبية تشفيرية 3) شبكة توتور العصبية العودية.قارنا هذه الأساليب فيما يتعلق بدقة تصنيف المجال ودراسة توزيع الاحتمالا
ثبت أن أداء أنظمة NMT يعتمد على جودة بيانات التدريب.في هذه الورقة، نستكشف أدوات مختلفة مفتوحة المصدر التي يمكن استخدامها لتسجيل جودة أزواج الترجمة، بهدف الحصول على كورسا نظيفة لتدريب نماذج NMT.نقيس أداء هذه الأدوات من خلال ربط درجاتهم بالدرجات البشري
تحليل المعنويات المستندة إلى جانب الجسيم (ABASA)، تهدف إلى التنبؤ بأقطاب الجوانب، هي مهمة جيدة المحبوس في مجال تحليل المعنويات. وأظهر العمل السابق معلومات النحوية، على سبيل المثال أشجار التبعية، يمكن أن تحسن بشكل فعال أداء ABSA. في الآونة الأخيرة، أظ
تصف هذه الورقة مساهمة Sebamat بمهمة مشتركة بين 2021 WMT Translation.باستخدام مجموعة أدوات الترجمة الآلية العصبية Marian، تم بناء أنظمة الترجمة القائمة على بنية محولات Google في كلا الاتجاهين في الكاتالونية - الإسبانية والبرتغالية - الإسبانية.تم تدريب
طبقات محول خفيفة الوزن، وحدات يمكن إدراجها بين طبقات المحولات. يستكشف العمل الأخير باستخدام مثل هذه الطبقات للترجمة الآلية العصبية (NMT)، لتكييف النماذج المدربة مسبقا إلى مجالات جديدة أو أزواج لغة، والتدريب فقط مجموعة صغيرة من المعلمات لكل إعداد جديد