ترغب بنشر مسار تعليمي؟ اضغط هنا

توليد العينات السلبية عن طريق معالجة الاستجابات الذهبية للتعلم غير المعدل لنموذج تقييم الاستجابة

Generating Negative Samples by Manipulating Golden Responses for Unsupervised Learning of a Response Evaluation Model

223   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقييم جودة الردود الناتجة عن أنظمة محادثة المجال المفتوحة هي مهمة صعبة. هذا جزئيا لأنه يمكن أن يكون هناك العديد من الردود المناسبة لتاريخ حوار معين. غالبا ما تفشل المقاييس المرجعية التي تعتمد على مقارنات إلى مجموعة من الاستجابات الصحيحة المعروفة في حساب هذا التنوع، وبالتالي ربط سيئة مع الحكم البشري. لمعالجة هذه المشكلة، قام الباحثون بالتحقيق في إمكانية تقييم جودة الاستجابة دون استخدام مجموعة من الردود الصحيحة المعروفة. أظهر روبر أنه يمكن إجراء نموذج تقييم الاستجابة التلقائي باستخدام التعلم غير المزعوم لمهمة التنبؤ بالكلام التالي (NUP). بالنسبة للتعلم غير المقترح لهذا النموذج، نقترح طريقة التلاعب بالاستجابة الذهبية لإنشاء استجابة سلبية جديدة تم تصميمها لتكون غير مناسب في السياق مع الحفاظ على التشابه العالي مع الاستجابة الذهبية الأصلية. نجد، من تجاربنا في مجموعات البيانات الإنجليزية، التي تستخدم العينات السلبية التي تم إنشاؤها بواسطة طريقتنا إلى جانب العينات السلبية العشوائية يمكن أن تزيد من ارتباط النموذج بالتقييمات البشرية. عملية توليد هذه العينات السلبية مؤتمتة ولا تعتمد على شرح الإنسان.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يقدم البشر ردود مناسبة لا يستند فقط إلى كلام الحوار السابق ولكن أيضا على المعرفة الخلفية الضمنية مثل الحس السليم. على الرغم من أن نماذج توليد الاستجابة العصبية تنتج ردود تشبه الإنسان، إلا أنها في الغالب من طرفا ولا تولد أسباب وسيطة بين تاريخ الحوار و الردود. يهدف هذا العمل إلى الدراسة إذا وكيف يمكننا تدريب نموذج RG الذي يتحدث عن نفسه لتوليد معرفة ضمنية قبل تقديم ردود. نحن نحقق مزيد من التحقيق في هذه النماذج عندما تولد معرفة خلفية ضمنية وعندما لا يكون ذلك ضروريا. تظهر النتائج التجريبية مقارنة بالنماذج التي تولد الردود مباشرة بالنظر إلى تاريخ الحوار، وتنتج نماذج الحديث الذاتي استجابات أفضل بجودة وفقا للتقييم البشري على الحكم النحوي والتماسك والعمل. والنماذج التي يتم تدريبها على تحديد متى يتحدث التحدث الذاتي إلى تحسين جودة الاستجابة. تبين تحليل المعرفة الضمنية الناتجة أن الطرز تستخدم معظمها المعرفة بشكل مناسب في الردود.
التعاطف هو قدرات معرفية معقدة تستند إلى منطق الدول العاطفية الأخرى. من أجل فهم الآخرين بشكل أفضل والتعبير عن التعاطف الأقوى في الحوارات، نجادل بأننا يجب معالجة قضيتين في الوقت نفسه: (1) تحديد أي كلمة هي سبب عاطفة الآخر من كلامه و (2) تعكس تلك كلمات م حددة في توليد الاستجابة. ومع ذلك، فإن النهج السابقة للتعرف على العاطفة تسبب الكلمات في النص تتطلب شرحا مستوى الكلامة الفرعية، والتي يمكن أن تكون مطالبة. من خلال الإلهام من الإدراك الاجتماعي، فإننا نستفيد من مقدر إجمالي لاستنتاج العاطفة تسبب كلمات من كلام مع عدم وجود تسمية على مستوى الكلمات. أيضا، نقدم طريقة جديدة بناء على البراغماتية لجعل نماذج الحوار تركز على الكلمات المستهدفة في المدخلات أثناء التوليد. تنطبق طريقنا على أي نماذج حوار بدون تدريب إضافي على الطيران. نظهر أن نهجنا يحسن العديد من وكلاء حوار أفضل أداء في توليد الاستجابات التعاطفية الأكثر تركيزا من حيث التقييم التلقائي والبشري.
يلتقط التفضيلات التجريبية (SP) إلى ميل كلمة لإجراء كلمات أخرى بشكل صحيح لتكون في العلاقة النحوية المباشرة معها، وبالتالي تبلغنا عن تكوينات الكلمات الأساسية التي هي ذات معنى. لذلك SP هو مورد قيمة لأنظمة معالجة اللغة الطبيعية (NLP) ولتكل الأسلاك. تعتبر التعلم SP عموما بمثابة مهمة خاضعة للإشراف، لأنها تتطلب جثة محاطة كمصدر لأزواج الكلمات ذات الصلة بمجرد. في هذه الورقة نظهر أن التحليل التوزيعي البسيط يمكن أن يتعلم كمية جيدة من SP دون الحاجة إلى كائن مشروح. نحن نقوم بتوسيع تقنية تضمين الكلمة العامة مع ويندوز سياق كلمة الاتجاهات لإعطاء تمثيلات الكلمات التي تلتقط العلاقات التجميعية بشكل أفضل. نقوم باختبار مجموعة بيانات SP-10K وإظهار أن تضمين التضمين الجزيئي تتفوق على الأدوات النموذجية. نقوم أيضا بتقييم النسخة الخاضعة للإشراف من هذه المدينات وإظهار أن المدينات التجميعية غير الخاضعة للكشف يمكن أن تكون جيدة مثل المضبوطات الخاضعة للإشراف. نحن نوفر أيضا شفرة المصدر لتنفيذنا.
أظهرت نماذج اختيار الاستجابة متعددة الدوران مؤخرا أداء مماثل للبشر في العديد من البيانات القياسية.ومع ذلك، في البيئة الحقيقية، غالبا ما تحتوي هذه النماذج على نقاط ضعف، مثل اتباع تنبؤات غير صحيحة تستند بشكل كبير على الأنماط السطحية دون فهم شامل للسياق .على سبيل المثال، غالبا ما تعطي هذه النماذج درجات عالية مرشحة للاستجابة الخاطئة التي تحتوي على العديد من الكلمات الرئيسية المتعلقة بالسياق ولكن باستخدام المضارع غير المتناقص.في هذه الدراسة، نقوم بتحليل نقاط الضعف في نماذج اختيار استجابة الاستجابة الكورية من هذا المجال ونشر مجموعة بيانات الخصومة لتقييم هذه نقاط الضعف.نقترح أيضا استراتيجية لبناء نموذج قوي في هذه البيئة الخصومة.
بدافع من جيل السؤال المقترح في أنظمة توصية أخبار المحادلات، نقترح نموذجا لتوليد أزواج الإجابات السؤال (أزواج ضمان الجودة) مع أسئلة ذاتية التركيز ذاتي ومقيد الطول، إجابات تلخص المادة.نبدأ بجمع مجموعة بيانات جديدة من المقالات الإخبارية مع أسئلة كعناوين واقترانها مع ملخصات طول متفاوتة.يتم استخدام هذه البيانات هذه البيانات لتعلم ملخصات إنتاج نموذج توليد QA للزوج كجابات توازن الرصيد بالإيجاز مع الاكتفاء بالاشتراك مع أسئلتها المقابلة.ثم نعزز عملية توليد زوج ضمان الجودة مع وظيفة مكافأة مختلفة لتخفيف تحيز التعرض، وهي مشكلة شائعة في توليد اللغة الطبيعية.يظهر كل من المقاييس التلقائية والتقييم البشري هذه أزواج ضمان الجودة بنجاح التقاط القابس المركزي للمقالات وتحقيق دقة عالية للإجابة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا