في هذا العمل، نصف جهودنا في تحسين مجموعة متنوعة من اللغات الناتجة عن نظام NLG القائم على القواعد للصحافة الآلية.نقدم اقترابين: واحد استنادا إلى إدراج كلمات جديدة تماما في جمل تم إنشاؤها من القوالب، وآخر بناء على استبدال الكلمات بالمرادفات.تشير نتائجنا الأولية من التقييم البشري الذي أجري باللغة الإنجليزية إلى أن هذه الأساليب تحسن بنجاح من مجموعة متنوعة من اللغة دون تعديل معنى الجملة.ونحن نقدم أيضا اختلافات في الأساليب المطبقة على لغات الموارد المنخفضة، محاكاة هنا باستخدام الفنلندية، حيث يتم تسخير شركات التفاوية المحاذاة عبر اللغات للاستفادة من الموارد اللغوية بلغة عالية الموارد.يشير التقييم البشري إلى أنه بينما تظهر الأساليب المقترحة إمكانية في حالة الموارد المنخفضة، هناك حاجة إلى عمل إضافي لتحسين أدائها.
In this work, we describe our efforts in improving the variety of language generated from a rule-based NLG system for automated journalism. We present two approaches: one based on inserting completely new words into sentences generated from templates, and another based on replacing words with synonyms. Our initial results from a human evaluation conducted in English indicate that these approaches successfully improve the variety of the language without significantly modifying sentence meaning. We also present variations of the methods applicable to low-resource languages, simulated here using Finnish, where cross-lingual aligned embeddings are harnessed to make use of linguistic resources in a high-resource language. A human evaluation indicates that while proposed methods show potential in the low-resource case, additional work is needed to improve their performance.
المراجع المستخدمة
https://aclanthology.org/
تصف تصفية البيانات للترجمة الآلية (MT) مهمة تحديد مجموعة فرعية من Corpus المعطى، ربما صاخبة مع الهدف لزيادة أداء نظام MT الذي تم تدريبه على هذه البيانات المحددة. على مر السنين، تم اقتراح العديد من نهج الترشيح المختلفة. ومع ذلك، فإن تعريفات المهام الم
في هذا العمل، نقدم طريقة لاختيار المحتوى وتخطيط المستندات للأخبار الآلية وتوليد التقارير من البيانات الإحصائية المهيكلة مثل تلك التي تقدمها الوكالة الإحصائية للاتحاد الأوروبي، يوروستات.هذه الطريقة مدفوعة بالبيانات وهي موضوع كبير مستقلة داخل مجال مجمو
نجحت شبكات الخصومة الإندنية (GANS) في تحفيز Adgeddings Word عبر اللغات - خرائط من الكلمات المتطابقة عبر اللغات - دون إشراف.على الرغم من هذه النجاحات، فإن أداء GANS الخاص بالحالة الصعبة للغات البعيدة لا يزال غير مرض.تم تفسير هذه القيود من قبل قوات الق
اكتشاف التغيير الدلالي المعجمي في مجموعات بيانات أصغر، على سبيل المثالفي اللغويات التاريخية والعلوم الإنسانية الرقمية، تحديا بسبب نقص القوة الإحصائية.يتم تفاقم هذه المشكلة عن طريق نماذج التضمين غير السياقية التي تنتج واحدة من التضمين لكل كلمة، وبالتا
تعرض نماذج اللغة متعددة اللغات أداء أفضل لبعض اللغات مقارنة بالآخرين (Singh et al.، 2019)، وعدد العديد من اللغات لا تستفيد من تقاسم متعدد اللغات على الإطلاق، من المفترض أن تكون نتيجة تجزئة متعددة اللغات (بيزال O وآخرون)2020).يستكشف هذا العمل فكرة تعل