ترغب بنشر مسار تعليمي؟ اضغط هنا

الإجابة الدلالية التشابه لتقييم نماذج الإجابة على الإجابة

Semantic Answer Similarity for Evaluating Question Answering Models

228   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يقارن تقييم نماذج الرد على الأسئلة التوضيحية حول التوقعات النموذجية. ومع ذلك، اعتبارا من اليوم، فإن هذه المقارنة تعتمد في الغالب معجمية، وبالتالي تفتقد الإجابات التي لا تحتوي على تداخل جذري ولكن لا تزال مماثلة متشابهة دلالة، وبالتالي علاج الإجابات الصحيحة على أنها خاطئة. يعيق هذا التقليل من الأداء الحقيقي للنماذج قبول المستخدم في التطبيقات ويعقد مقارنة عادلة من النماذج المختلفة. لذلك، هناك حاجة إلى متري تقييم يعتمد على دلالات بدلا من تشابه السلسلة الخالصة. في هذه الورقة القصيرة، نقدم SAS، وهي متري مقرها في التشفير لتقدير تشابه الإجابة الدلالية، ومقارنتها بسبعة مقاييس موجودة. تحقيقا لهذه الغاية، نقوم بإنشاء مجموعة بيانات تقييم اللغة الإنجليزية ثلاثية وألمانية تحتوي على أزواج من الإجابات جنبا إلى جنب مع الحكم البشري من التشابه الدلالي، والتي نصرح لها جنبا إلى جنب مع تنفيذ Metric SAS والتجارب. نجد أن مقاييس التشابه الدلالي القائم على نماذج المحولات الأخيرة ترتبط بشكل أفضل بكثير مع الحكم البشري من مقاييس التشابه المعجمية التقليدية على مجموعات بياناتنا التي أنشأت حديثا ومجموعة بيانات واحدة من العمل ذي الصلة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في التعليم، أصبحت أسئلة الاختبار أداة مهمة لتقييم معرفة الطلاب.ومع ذلك، فإن إعداد هذه الأسئلة يدويا هو مهمة مملة، وبالتالي تم اقتراح توليد السؤال التلقائي كديل ممكن.حتى الآن، ركزت الغالبية العظمى من الأبحاث على توليد نص الأسئلة، والاعتماد على سؤال حو ل مجموعات البيانات مع الإجابات التي اختارها بسهولة، ومشكلة كيفية التوصل إلى إجابة المرشحين في المقام الأول تم تجاهلها إلى حد كبير.هنا، نحن نهدف إلى سد هذه الفجوة.على وجه الخصوص، نقترح نموذجا يمكن أن ينشئ عددا محددا من المرشحين للإجابة لمرق معين من النص، والذي يمكن بعد ذلك استخدامه من قبل المدربين لكتابة الأسئلة يدويا أو يمكن تمريرهم كمدخل لمولدات السؤال التلقائي للإجابة.تشير تجاربنا إلى أن نموذج جيل الرد الخاص بنا اقترح ينفأ على العديد من خطوط الأساس.
مجردة ملكية مرغوبة لمتري التقييم المرجعي تقيس جودة محتوى الملخص هو أنه ينبغي أن يقدر مقدار المعلومات التي لدى الملخص مشتركا مع مرجع. لا يتداخل النص التقليدي المقاييس المستندة إلى النص مثل Rouge لتحقيق ذلك لأنهم يقتصرون على مطابقة الرموز، إما متعمدة أ و عبر Embeddings. في هذا العمل، نقترح متريا لتقييم جودة المحتوى الخاص بملخص باستخدام الإجابة على الأسئلة (QA). تقيس الأساليب المستندة إلى ضمان الجودة مباشرة معلومات الملخص تتداخل مع مرجع، مما يجعلها مختلفة بشكل أساسي عن مقاييس تداخل النص. نوضح الفوائد التجريبية للمقاييس القائم على ضمان الجودة من خلال تحليل لميبري مقترح، Qaeval. تتفوق Qaeval على مقاييس حديثة حديثة على معظم التقييمات باستخدام مجموعات البيانات القياسية، في حين أن تكون قادرة على المنافسة على الآخرين بسبب قيود النماذج الحديثة. من خلال تحليل دقيق لكل مكون من مكونات Qaeval، نحدد اختناقات أدائها وتقدير أن أدائها المحتمل للأعلى من المحتمل يفوق جميع المقاييس التلقائية الأخرى، مما يقترب من طريقة الهرم الذهبي القياسي
نقدم نظام إجابة استدعاء الاسترجاع على المعلومات للإجابة على الأسئلة القانونية.لا يقتصر النظام على مجموعة محددة مسبقا من الأسئلة أو الأنماط ويستخدم كلا من البحث المتساقط والشركات التجريبية للمدخلات لنظام إعادة الإجابة القائمة على برت.يتم استخدام مجموع ة من المجال العام والبيانات القانونية للتدريب.نظام الإجابة على السؤال الطبيعي في الإنتاج ويستخدم تجاريا.
حققت نماذج الإجابة على الجدول (TableQa) ضعيفا (TableQA) أداء حديثة من خلال استخدام محول بيرت المدرب مسبقا إلى ترميز سؤال وجداول لإنتاج استعلام منظم للسؤال. ومع ذلك، في الإعدادات العملية يتم نشر أنظمة Tableqa عبر جدول كوربورا وجود توزيعات موضوعية وتوز يعات كلمة متميزة تماما من Bertraining Corpus. في هذا العمل، نحاكي سيناريو التحول العملي من خلال تصميم معايير التحدي الجديدة Wikisql-TS و WiKiTe-TS، وتتألف من تقسيم اختبار قطار Dev في خمس مجموعات موضوع مميزة، استنادا إلى مجموعات بيانات Wikisql والأسئلة الشائعة. نوضح تجريبيا أنه على الرغم من التدريب المسبق على نص واسع النطاق، يتحلل أداء النماذج بشكل كبير عندما يتم تقييمها على مواضيع غير مرئية. ردا على ذلك، نقترح T3QA (موضوع الإجابة على الجدول القابل للتحويل) إطار التكيف العملي ل TableQA يتألف من: (1) حقن المفردات المحددة للموضوع في بيرت، (2) مولد محول نص إلى نص جديد (مثل T5، GPT2) يركز خط أنابيب توليد السؤال الطبيعي المستندة إلى اللغة الطبيعية على توليد بيانات التدريب الخاصة بالموضوع، و (3) Reveer نموذج منطقي. نظهر أن T3QA يوفر خط الأساس الجيد بشكل معقول لمعايير تحول الموضوع لدينا. نعتقد أن معاييرنا المنفصلة لدينا ستؤدي إلى حلول طاولة قوية مناسبة للنشر العملي
ركزت أبحاث NLP باللغة العبرية إلى حد كبير على التورفولوجيا وبناء جملة، حيث تتوفر مجموعات البيانات المشروحة الغنية بروح التبعيات العالمية.ومع ذلك، تعد مجموعات البيانات الدلالية في العرض القصير، مما يعوق السلف الحاسم في تطوير تكنولوجيا NLP باللغة العبر ية.في هذا العمل، نقدم البسجة، والسؤال الأول يجيب على DataSet في العبرية الحديثة.تتبع DataSet التنسيق والتعبئة المنهجية من المنهجية من التدقيق، وتحتوي على ما يقرب من 3000 من الأمثلة المشروحة، مماثلة لمجموعات بيانات الإجابة على الأسئلة الأخرى بلغات الموارد المنخفضة.نحن نقدم نتائج خط الأساس الأولى باستخدام نماذج مصممة على طراز برت صدر مؤخرا للعبرية، مما يدل على أن هناك مجالا مهما للتحسين في هذه المهمة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا