ترغب بنشر مسار تعليمي؟ اضغط هنا

الظواهر الضمنية في بيانات تسجيل الإجابة قصيرة الإجابة

Implicit Phenomena in Short-answer Scoring Data

174   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعد تسجيل الإجابة القصيرة مهمة تقييم صحة نص قصير معين كاستجابة للسؤال الذي يمكن أن يأتي من مجموعة متنوعة من السيناريوهات التعليمية.كما هو المحتوى الوحيد، وليس النموذج، أمر مهم، يجب ألا يهم الصياغة الدقيقة بما في ذلك صريح الإجابة.ومع ذلك، فإن العديد من نماذج التسجيل الحديثة تعتمد بشدة على المعلومات المعجمية، سواء كانت تضمين كلمة في شبكة عصبية أو غرام N في SVM.وبالتالي، فإن الصياغة الدقيقة للإجابة قد تحدث فرقا كبيرا.لذلك نحن نحدد إلى أي مدى تحدث ظاهرة اللغة الضمنية في مجموعات بيانات الإجابة القصيرة وفحص التأثير لديهم على أداء التسجيل التلقائي.نجد أن مستوى الضمنية يعتمد على السؤال الفردي، وأن بعض الظواهر متكررة للغاية.حل الصياغة الضمنية للتركيز الصريح تميل بالفعل إلى تحسين أداء التسجيل التلقائي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يتم تدريب أنظمة توليد البيانات إلى النص على مجموعات البيانات الكبيرة، مثل Webnlg أو RO-Towire أو E2E أو DART. ما وراء مقاييس تقييم الرمز المميز التقليدي (بلو أو نيزك)، فإن القلق الرئيسي الذي يواجهه المولدات الأخيرة هو السيطرة على واقعية النص الذي تم إنشاؤه فيما يتعلق بمواصفات بيانات الإدخال. نبلغ عن تجربتنا عند تطوير نظام تقييم واقعي للوصول التوظيف لتوليد البيانات إلى النص الذي نختبره على بيانات Webnlg و E2E. نحن نهدف إلى إعداد بيانات ذهبية تفوحية يدويا لتحديد الحالات التي ينقل فيها النص معلومات أكثر مما يبرره على أساس البيانات قيد التشغيل (إضافي) أو فشل في توصيل البيانات التي تعد جزءا من الإدخال (مفقود). أثناء تحليل العينات المرجعية (البيانات والنص)، واجهنا مجموعة من عدم اليقين المنهجي المرتبط بالحالات المتعلقة بالظواهر الضمنية في النص، وطبيعة المعرفة غير اللغوية نتوقع أن نشارك عند تقييم الواقعية. ونحن نستمد من خبرتنا مجموعة من المبادئ التوجيهية التقييم للوصول إلى اتفاق مرتفع فيما يتعلق بالمعقيقات بشأن هذه الحالات.
يقارن تقييم نماذج الرد على الأسئلة التوضيحية حول التوقعات النموذجية. ومع ذلك، اعتبارا من اليوم، فإن هذه المقارنة تعتمد في الغالب معجمية، وبالتالي تفتقد الإجابات التي لا تحتوي على تداخل جذري ولكن لا تزال مماثلة متشابهة دلالة، وبالتالي علاج الإجابات ال صحيحة على أنها خاطئة. يعيق هذا التقليل من الأداء الحقيقي للنماذج قبول المستخدم في التطبيقات ويعقد مقارنة عادلة من النماذج المختلفة. لذلك، هناك حاجة إلى متري تقييم يعتمد على دلالات بدلا من تشابه السلسلة الخالصة. في هذه الورقة القصيرة، نقدم SAS، وهي متري مقرها في التشفير لتقدير تشابه الإجابة الدلالية، ومقارنتها بسبعة مقاييس موجودة. تحقيقا لهذه الغاية، نقوم بإنشاء مجموعة بيانات تقييم اللغة الإنجليزية ثلاثية وألمانية تحتوي على أزواج من الإجابات جنبا إلى جنب مع الحكم البشري من التشابه الدلالي، والتي نصرح لها جنبا إلى جنب مع تنفيذ Metric SAS والتجارب. نجد أن مقاييس التشابه الدلالي القائم على نماذج المحولات الأخيرة ترتبط بشكل أفضل بكثير مع الحكم البشري من مقاييس التشابه المعجمية التقليدية على مجموعات بياناتنا التي أنشأت حديثا ومجموعة بيانات واحدة من العمل ذي الصلة.
في التعليم، أصبحت أسئلة الاختبار أداة مهمة لتقييم معرفة الطلاب.ومع ذلك، فإن إعداد هذه الأسئلة يدويا هو مهمة مملة، وبالتالي تم اقتراح توليد السؤال التلقائي كديل ممكن.حتى الآن، ركزت الغالبية العظمى من الأبحاث على توليد نص الأسئلة، والاعتماد على سؤال حو ل مجموعات البيانات مع الإجابات التي اختارها بسهولة، ومشكلة كيفية التوصل إلى إجابة المرشحين في المقام الأول تم تجاهلها إلى حد كبير.هنا، نحن نهدف إلى سد هذه الفجوة.على وجه الخصوص، نقترح نموذجا يمكن أن ينشئ عددا محددا من المرشحين للإجابة لمرق معين من النص، والذي يمكن بعد ذلك استخدامه من قبل المدربين لكتابة الأسئلة يدويا أو يمكن تمريرهم كمدخل لمولدات السؤال التلقائي للإجابة.تشير تجاربنا إلى أن نموذج جيل الرد الخاص بنا اقترح ينفأ على العديد من خطوط الأساس.
توليد أزواج الإجابة ذات الجودة العالية هي مهمة صلبة ولكنها ذات مغزى. على الرغم من أن الأعمال السابقة قد حققت نتائج رائعة حول توليد الأسئلة على دراية بالإجابة، فمن الصعب تطبيقها في تطبيق عملي في مجال التعليم. تتناول هذه الورقة لأول مرة مهمة توليد زوج الإجابة السؤال في بيانات الفحص العالمي الحقيقي، وتقترح إطارا جديدا جديدا في العرق. لالتقاط المعلومات المهمة لمقطع الإدخال، نقوم أولا بإنشاء أجهزة iTPhragrases (بدلا من استخراج)، وبالتالي يتم تقليل هذه المهمة إلى توليد مشترك مسدد السؤال عن السؤال المجاني. تبعا لذلك، نقترح نموذج اتصالات متعددة الوكيل لتوليد واستفسار الأسئلة والمجاسات القصيرة بشكل متكرر، ثم قم بتطبيق السؤال والمجاسيات المتولدة لتوجيه جيل الإجابات. لإنشاء معيار قوي، نبني نموذجنا على نموذج ما قبل التدريب الجيل القوي. تظهر النتائج التجريبية أن نموذجنا يجعل اختراقات كبيرة في مهمة جيل الإجابة عن السؤال. علاوة على ذلك، فإننا نصنع تحليلا شاملا على طرازنا، مما يشير إلى اتجاهات جديدة لهذه المهمة الصعبة.
تعتمد أبحاث الكشف عن الشخصية القائمة على النصوص الموجودة في الغالب على النهج التي يحركها البيانات لالتقاط إشارات شخصية ضمنيا في الوظائف عبر الإنترنت، تفتقر إلى إرشادات المعرفة النفسية. يلعب الاستبيان النفسي، الذي يحتوي على سلسلة من الأسئلة المخصصة ال مرتبطة بشدة إلى سمات الشخصية، دورا حاسما في تقييم شخصية التقرير الذاتي. نقول أن المشاركات التي أنشأها المستخدم تحتوي على محتويات مهمة يمكن أن تساعد في الإجابة على الأسئلة في استبيان، مما أدى إلى تقييم لشخصيته من خلال ربط النصوص والاستبيان. تحقيقا لهذه الغاية، نقترح نموذجا جديدا باسم شبكة الاستبيان النفسي المحسن (PQ-NET) لتوجيه اكتشاف الشخصية عن طريق تتبع المعلومات الهامة في النصوص مع استبيان. على وجه التحديد، يحتوي PQ-NET على جاريان: دفق سياق لتشفير كل جزء من النص في تمثيل نص سياقي، وتيار استبيان لالتقاط المعلومات ذات الصلة في تمثيل النص السياقي لإنشاء تمثيلات إجابات محتملة للاستبيان. يتم استخدام تمثيل الإجابات المحتملة لتعزيز تمثيل النص السياقي وفائدة التنبؤ بالشخصية. تظهر النتائج التجريبية على مجموعة بيانات اثنين من تفوق PQ-NET في التقاط إشارات مفيدة من المشاركات للكشف عن الشخصية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا