ترغب بنشر مسار تعليمي؟ اضغط هنا

باستخدام Attractual Word Tembeddings لتحسين مجموعة متنوعة في NLG القائم على القالب للصحافة الآلية

Using contextual and cross-lingual word embeddings to improve variety in template-based NLG for automated journalism

460   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذا العمل، نصف جهودنا في تحسين مجموعة متنوعة من اللغات الناتجة عن نظام NLG القائم على القواعد للصحافة الآلية.نقدم اقترابين: واحد استنادا إلى إدراج كلمات جديدة تماما في جمل تم إنشاؤها من القوالب، وآخر بناء على استبدال الكلمات بالمرادفات.تشير نتائجنا الأولية من التقييم البشري الذي أجري باللغة الإنجليزية إلى أن هذه الأساليب تحسن بنجاح من مجموعة متنوعة من اللغة دون تعديل معنى الجملة.ونحن نقدم أيضا اختلافات في الأساليب المطبقة على لغات الموارد المنخفضة، محاكاة هنا باستخدام الفنلندية، حيث يتم تسخير شركات التفاوية المحاذاة عبر اللغات للاستفادة من الموارد اللغوية بلغة عالية الموارد.يشير التقييم البشري إلى أنه بينما تظهر الأساليب المقترحة إمكانية في حالة الموارد المنخفضة، هناك حاجة إلى عمل إضافي لتحسين أدائها.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف تصفية البيانات للترجمة الآلية (MT) مهمة تحديد مجموعة فرعية من Corpus المعطى، ربما صاخبة مع الهدف لزيادة أداء نظام MT الذي تم تدريبه على هذه البيانات المحددة. على مر السنين، تم اقتراح العديد من نهج الترشيح المختلفة. ومع ذلك، فإن تعريفات المهام الم ختلفة وظروف البيانات تجعل من الصعب رسم مقارنة ذات مغزى. في العمل الحالي، نهدف إلى نهج أكثر منهجية للمهمة في متناول اليد. أولا، نقوم بتحليل أداء تحديد اللغة، وهي أداة تستخدم عادة لتصفية البيانات في مجتمع MT وتحديد نقاط الضعف المحددة. بناء على النتائج التي توصلنا إليها، نقترح بعد ذلك العديد من أساليب رواية لتصفية البيانات، استنادا إلى Argeddings Word عبر اللغات. قارنا مناهجنا إلى إحدى الطرق الفائزة من المهمة المشتركة ل WMT 2018 على تصفية Corpus الموازية على ثلاث مهام حقيقية عالية الموارد MT. نجد الطريقة المذكورة المذكورة، والتي كانت تؤدي قوية للغاية في المهمة المشتركة WMT، لا تؤدي بشكل جيد خلال ظروف مهمتنا الأكثر واقعية. بينما نجد أن نهجنا تخرج في الجزء العلوي من المهام الثلاثة، فإن المتغيرات المختلفة تؤدي أفضل مهام مختلفة. تشير تجارب أخرى على المهمة المشتركة لعاملة WMT 2020 للتصفية الشديدة الموازية أن أساليبنا تحقق نتائج مماثلة لأقوى التقديمات لهذه الحملة.
في هذا العمل، نقدم طريقة لاختيار المحتوى وتخطيط المستندات للأخبار الآلية وتوليد التقارير من البيانات الإحصائية المهيكلة مثل تلك التي تقدمها الوكالة الإحصائية للاتحاد الأوروبي، يوروستات.هذه الطريقة مدفوعة بالبيانات وهي موضوع كبير مستقلة داخل مجال مجمو عة البيانات الإحصائية.نظرا لأن نهجنا لا يعتمد على التعلم الآلي، فهو مناسب لإدخال أتمتة الأخبار إلى مجموعة واسعة من المجالات حيث لا توجد بيانات تدريبية متاحة.على هذا النحو، فإنه مناسب كتكلفة منخفضة (من حيث جهود التنفيذ) خط الأساس له هيكلة المستند قبل إدخال المعرفة الخاصة بالمجال.
نجحت شبكات الخصومة الإندنية (GANS) في تحفيز Adgeddings Word عبر اللغات - خرائط من الكلمات المتطابقة عبر اللغات - دون إشراف.على الرغم من هذه النجاحات، فإن أداء GANS الخاص بالحالة الصعبة للغات البعيدة لا يزال غير مرض.تم تفسير هذه القيود من قبل قوات الق يم "افتراض غير صحيح" أن المصدر والمساحات المستهدفة تضم ذات الصلة من خلال تعيين خطي واحد ويقبل Isomorphic تقريبا.ونحن نفترض بدلا من ذلك، خاصة عبر اللغات البعيدة، فإن التعيين هو مجرد خطي بقطعة حكيمة، ويقترح طريقة التعلم المتعددة الخصوم.هذه الطريقة الرواية تحفز القاموس البذور عبر اللغات من خلال تعيينات متعددة، كل منها مستحث لتناسب التعيين مقابل مساحة فرعية واحدة.تجاربنا على تحريض المعجم الثنائي الثنائي الثنائي البغي وتصنيف المستندات عبر اللغات تظهر أن هذه الطريقة تعمل على تحسين الأداء على أساليب رسم الخرائط الفردية السابقة، خاصة للغات البعيدة.
اكتشاف التغيير الدلالي المعجمي في مجموعات بيانات أصغر، على سبيل المثالفي اللغويات التاريخية والعلوم الإنسانية الرقمية، تحديا بسبب نقص القوة الإحصائية.يتم تفاقم هذه المشكلة عن طريق نماذج التضمين غير السياقية التي تنتج واحدة من التضمين لكل كلمة، وبالتا لي، قم بإخفاء التباين الحاضر في البيانات.في هذه المقالة، نقترح نهجا لتقدير التحول الدلالي من خلال الجمع بين تضمين الكلمات السياقية مع الاختبارات الإحصائية القائمة على التقاطات.نحن نستخدم إجراء معدل الاكتشاف الخاطئ لمعالجة العدد الكبير من اختبارات الفرضيات التي يجري تنفيذها في وقت واحد.نوضح أداء هذا النهج في المحاكاة حيث تحقق بدقة عالية باستمرار عن طريق قمع إيجابيات كاذبة.كلفنا تحليل بيانات العالم الحقيقي من مهمة Semeval-2020 1 و Liverpool FC SubRedDit Corpus.نظرا لأنه من خلال أخذ التباين العينة في الاعتبار، يمكننا تحسين متانة تقديرات التحول الدلالي الفردي دون مهينة الأداء العام.
تعرض نماذج اللغة متعددة اللغات أداء أفضل لبعض اللغات مقارنة بالآخرين (Singh et al.، 2019)، وعدد العديد من اللغات لا تستفيد من تقاسم متعدد اللغات على الإطلاق، من المفترض أن تكون نتيجة تجزئة متعددة اللغات (بيزال O وآخرون)2020).يستكشف هذا العمل فكرة تعل م نماذج اللغة متعددة اللغات بناء على تجميع شرائح أحادية الأونلينغ.نعرض تحسينات كبيرة على تجزئة وتدريب وتعدد اللغات القياسية عبر تسعة لغات بشأن مهمة الإجابة على سؤال، سواء في نظام نموذج صغير ونموذج حجم قاعدة بيرت.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا