ترغب بنشر مسار تعليمي؟ اضغط هنا

Mipe: خط أنابيب مستقلة متري لتقييم NLG غير ذي البيانات الفعالة

MIPE: A Metric Independent Pipeline for Effective Code-Mixed NLG Evaluation

561   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعتبر خلط التعليمات البرمجية ظاهرة خلط الكلمات والعبارات من لغتين أو أكثر في كلام واحد من الكلام والنص.نظرا للتنوع اللغوي العالي، يعرض خلط التعليمات البرمجية العديد من التحديات في تقييم مهام توليد اللغة الطبيعية القياسية (NLG).تعمل العديد من المقاييس الشعبية على نطاق واسع بشكل سيء بمهام NLG المختلطة من التعليمات البرمجية.لمعالجة هذا التحدي، نقدم حصة خط أنابيب التقييم المعتمدة بشكل كبير يحسن ارتباطا كبيرا بين مقاييس التقييم والأحكام البشرية على النص المزج العام الذي تم إنشاؤه.كحالة للاستخدام، نوضح أداء الفحص على جمل Hinglish التي تم إنشاؤها بواسطة الماكينات (خلط الكود باللغات الهندية والإنجليزية) من The Hinge Corpus.يمكننا تمديد استراتيجية التقييم المقترحة إلى أزواج لغة مختلطة من التعليمات البرمجية، ومهام NLG، ومقاييس التقييم مع الحد الأدنى من أي جهد.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يعد تقييم جيل اللغة الطبيعي (NLG) مهمة متعددة الأوجه تتطلب تقييم معايير متعددة المرغوبة، على سبيل المثال، الطلاقة، والاستماس، والتغطية، والأهمية، والكفاية، والجودة الكلية، وما إلى ذلك عبر مجموعات البيانات الحالية لمدة 6 مهام NLG، نلاحظ أن درجات التقي يم البشري في هذه المعايير المتعددة غالبا ما لا يرتبط. على سبيل المثال، هناك ارتباط منخفض للغاية بين الدرجات البشرية على تغطية الطلاقة والبيانات لمهمة البيانات المنظمة إلى جيل النص. يشير هذا إلى أن الوصفة الحالية لاقتراح مقاييس تقييم تلقائية جديدة ل NLG من خلال إظهار أنها ترتبط بشكل جيد مع الدرجات التي حددها البشر لمعايير واحدة (الجودة الشاملة) وحدها غير كافية. في الواقع، فإن دراستنا الواسعة التي تنطوي على 25 مقيط تقييم تلقائي عبر 6 مهام مختلفة و 18 معايير تقييم مختلفة تظهر أنه لا يوجد متري واحد يرتبط جيدا بدرجات بشرية على جميع المعايير المرغوبة، لمعظم مهام NLG. بالنظر إلى هذا الوضع، نقترح قوائم المراجعة لتحسين تصميم وتقييم المقاييس التلقائية. نقوم بتصميم قوالب تستهدف معايير محددة (مثل التغطية) وإشراض الإنتاج بحيث تتأثر الجودة فقط على طول هذه المعايير المحددة (على سبيل المثال، قطرات التغطية). نظهر أن مقاييس التقييم الحالية ليست قوية ضد هذه الاضطرابات البسيطة ويعارضها في الدرجات المعينة من قبل البشر إلى الإخراج المضطرب. وبالتالي فإن القوالب المقترحة تسمح بتقييم جيد المحبوس لمقاييس التقييم التلقائي تعريض قيودها وسيسهل تصميم وتحليل وتقييم أفضل لهذه المقاييس. تتوفر قوالب ورمز لدينا في https://iitmnlp.github.io/evaleval/
تقدم الصابغة فرصة كمصدر بيانات للبحث في NLP والتعليم والعلوم الاجتماعية.ومع ذلك، فإن الإجابة على أسئلة بحثية محددة مع هذه البيانات صعبة، حيث تحتوي الصخور على أساليب كتابة أكثر تنوعا من الخيال الرسمي.نقدم خط أنابيب معالجة النصوص للقصص، مع التركيز على تحديد النص المرتبط بالأحرف.يتضمن خط الأنابيب وحدات لتحديد الأحرف وكور المعلومات، وكذلك إسناد الاقتباس والسرد إلى تلك الشخصيات.بالإضافة إلى ذلك، يحتوي خط الأنابيب على نهج رواية في Conment Coreence الذي يستخدم المعرفة من إسناد Quote لحل الضمائر داخل علامات الاقتباس.لكل وحدة، نقوم بتقييم فعالية النهج المختلفة على 10 قصص صانفة مشروحة.هذا خط أنابيب تتفوق الأدوات المتقدمة للخيال الرسمي على مهام Aquerence Aquer Aquare و Quote
نقدم EventPlus، وهو الحدث الزمني لفهم خط أنابيب يدمج عن مكونات فهم الحدث المختلفة بما في ذلك مشغل الحدث والكشف عن اكتب، والكشف عن وسيطة الأحداث، ومدة الأحداث واستخراج العلاقات الزمنية.معلومات الحدث، وخاصة المعرفة الزمنية الحدث، هي نوع من المعرفة الحس ية الشائعة التي تساعد الناس على فهم كيفية تطور القصص وتوفير تلميحات تنبؤية للأحداث المستقبلية.EventPlus كأول Sommenive Accleal Event Sommending يوفر خط الأنابيب أداة مريحة للمستخدمين للحصول بسرعة على التعليقات التوضيحية حول الأحداث ومعلوماتهم الزمنية لأي مستند قدم المستخدم.علاوة على ذلك، نعرض EventPlus يمكن تكييفها بسهولة مع مجالات أخرى (مثل المجال الطبي الحيوي).نجعل EventPlus متاحا للجمهور لتسهيل استخراج المعلومات المتعلقة بالحدث وتطبيقات المصب.
QuestEval هو مقياس مرجع أقل استخداما في مهام النص إلى النص، مما يقارن الملخصات التي تم إنشاؤها مباشرة إلى النص المصدر، من خلال طرح الأسئلة والرد عليها تلقائيا.إن التكيف مع مهام البيانات إلى النص ليس واضحا، لأنه يتطلب جيل سؤال متعدد الوسائط وأنظمة الر د على المهام المدروسة، والتي نادرا ما تكون متاحة.لهذا الغرض، نقترح طريقة لبناء كورسيا متعددة الوسائط الاصطناعية تمكين لتدريب مكونات متعددة الوسائط لمكيانية بيانات Questeval.المقياس الناتج هو المرجع أقل و multimodal؛يحصل على ارتباطات حديثة مع حكم بشري على معايير Webnlg ويكيبيو.نجعل رمز ونماذج بيانات Questeval للبيانات المتاحة لغرض الاستيلاء، كجزء من مشروع Questeval.
تعد صياغة صياغة Reprrase مهمة صعبة تعزز تحويل جملة مدخلية معقدة معينة إلى جمل متعددة أقصر معاداة معنى معادل. نهج إعادة كتابة هذا تصور أن الجمل الأقصر تستفيد من القراء البشري وتحسين مهام الخبراء اللامبرية التي تحضرها كخطوة مسبقة مسبقة. يقدم هذا العمل خط أنابيب كامل قادر على أداء طريقة تقسيم وإعادة الصياغة بطريقة تبادلة. لقد قمنا بتدريب نماذج عصبية التسلسلية من أجل اللغة الإنجليزية وتطبقها على التنبؤ بالتحولات باللغة الإنجليزية والأحكام البرتغالية البرازيلية بالاشتراك مع نمذجة لغة بيرت الملثمين. على عكس الأساليب التقليدية التي تطلب من النماذج التدريبية بالمواد التدريبية المكثفة، نقدم طريقة غير تافهة لبناء تلك الرسومات المعممة فقط عن طريق الطبقات النحوية (علامات نقاط البيع) وتكرار كل منها، مما يقلل من مقدار البيانات التدريبية اللازمة. أظهرت مساهمة خط الأنابيب هذا نتائج تنافسية تشجيع التوسع في الأسلوب لغات أخرى غير الإنجليزية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا