ترغب بنشر مسار تعليمي؟ اضغط هنا

التعزيز غير متصل التعلم من ردود فعل إنسانية في مهام تسلسل العالم الحقيقي

Offline Reinforcement Learning from Human Feedback in Real-World Sequence-to-Sequence Tasks

368   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يمكن جمع كميات كبيرة من سجلات التفاعل من أنظمة NLP التي يتم نشرها في العالم الحقيقي.كيف يمكن الاستفادة من هذه الثروة من المعلومات؟يعد استخدام سجلات التفاعل هذه في إعداد تعليم التعزيز (RL) غير متصل نهجا واعدا.ومع ذلك، نظرا لطبيعة مهام NLP وقيود أنظمة الإنتاج، تنشأ سلسلة من التحديات.نقدم نظرة عامة موجزة عن هذه التحديات ومناقشة الحلول الممكنة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن نحقق في تعلم اللغة الأساسية من خلال بيانات عالمية حقيقية، من خلال نمذجة ديناميات متعلم المعلم من خلال التفاعلات الطبيعية التي تحدث بين المستخدمين ومحركات البحث؛على وجه الخصوص، نستكشف ظهور التعميم الدلالي من تمثيلات كثيفة غير مخالفة خارج البيئات ا لاصطناعية.يتم تعلم مجال التأريض وظيفة دلالة ودالة تكوين من بيانات المستخدم فقط.نظهر كيف تظهر الدلالات الناتجة عن عبارات الاسم خصائصا تتراكم بينما تكون مائيا تماما دون أي وضع علامات واضحة.نحن نقسم لدينا دلالاتنا المتطرفة على التركيبية ومهام الاستدلال صفرية، ونرى أنها توفر نتائج أفضل وتعميمات أفضل من نماذج SOTA غير المدرجة، مثل Word2VEC و BERT.
تطبيقات اللغة الطبيعية المعقدة مثل ترجمة الكلام أو الترجمة المحورية تعتمد تقليديا على النماذج المتتالية. ومع ذلك، من المعروف أن النماذج المتتالية عرضة لتوسيع الأخطاء ومشاكل التناقض النموذجي. علاوة على ذلك، لا توجد إمكانية لاستخدام بيانات التدريب المن اسبة في النظم المتتالية التقليدية، مما يعني أن البيانات التدريبية الأكثر ملاءمة للمهمة لا يمكن استخدامها. اقترحت الدراسات الفقيرة عدة طرق تدريبية للتدريب المنتهي المتكاملة للتغلب عليها مشاكل، ومع ذلك، فإنهم يعتمدون في الغالب على بيانات ثلاثية الاتجاه (الاصطناعية أو الطبيعية). نقترح نموذجا متماثلا يعتمد على المحول غير التلقائي الذي يتيح التدريب المنتهي دون الحاجة إلى تمثيل واضح وسيط. تتجنب هذه الهندسة المعمارية الجديدة (I) القرارات المبكرة غير الضرورية التي يمكن أن تسبب أخطاء يتم نشرها بعد ذلك في جميع النماذج المتتالية (II) باستخدام بيانات التدريب المناسبة مباشرة. نحن نقوم بإجراء تقييم على مهام ترجمة من الآلة المحورية، وهي الفرنسية → الألمانية والألمانية → جمهورية التشيك. تظهر نتائجنا التجريبية أن الهندسة المعمارية المقترحة تعطي تحسنا أكثر من 2 بلو للفرنسية → الألمانية على خط الأساس المتتالي.
نحن نبحث عن مسألة كيف تؤثر ردود الفعل التكيفية من عامل الظاهري على المدخلات اللغوية للمستخدم في بيئة ألعاب عالمية مشتركة. للقيام بذلك، نقوم بإجراء دراسة تجريبية استكشافية لمراقبة كيفية تأثير ردود الفعل اللغوية الفردية على إدخال خطاب المستخدم. نقدم لع بة تسيطر على الكلام، وإخلاء Apple الأساسية، حيث يتعلم الوكيل المهام المعقدة باستخدام معرفة قاعدة بأعمال بسيطة. تم تجهيز الوكيل بآلية تعليمية لرسم الأوامر الجديدة بتسلسل الإجراءات البسيطة، وكذلك القدرة على دمج إدخال المستخدم في ردود مكتوبة. يشارك الوكيل مرارا وتكرارا حالته المعرفة الداخلية من خلال الاستجابة لما يعرفه ولا يعرفه عن معنى اللغة والبيئة المشتركة. تركز ورقتنا على حلقة الملاحظات اللغوية من أجل تحليل طبيعة إدخال المستخدم. يتم توفير ردود الفعل من الوكيل في شكل حركة مرئية وردود لغوية مكتوبة. يتم إيلاء اهتمام خاص لإدماج مدخلات المستخدم في استجابات الوكيل وتحديث تعيينات الكلام إلى العمل بناء على الأوامر التي يقدمها المستخدم. من خلال دراستنا التجريبية، نقوم بتحليل نجاح المهمة ومقارنة الميزات المعجمية لإدخال المستخدم. تظهر النتائج الاختلاف في طول المدخلات والتنوع المعجمي عبر المستخدمين، مما يشير إلى ارتباط بين الاثنين يمكن دراستهما كذلك.
تحتوي المهام القياسية الحالية لمعالجة اللغة الطبيعية على نص مختلف عن النص المستخدم في اليومي غير الرسمي إلى الاتصال الرقمي اليومي. أدى هذا التناقض إلى تدهور الأداء الشديد لنماذج NLP الحديثة عندما يتم ضبطها بشكل جيد على بيانات العالم الحقيقي. طريقة وا حدة لحل هذه المشكلة هي من خلال التطبيع المعجمي، وهي عملية تحويل النص غير القياسي، وعادة ما تكون من وسائل التواصل الاجتماعي، إلى نموذج أكثر موحدة. في هذا العمل، نقترح نموذج تسلسل تسلسل على مستوى الجملة بناء على MBART، مما يؤدي إلى إطارات المشكلة بمثابة مشكلة ترجمة آلية. نظرا لأن النص الصاخب يمثل مشكلة منتشرة عبر اللغات، وليس الإنجليزية فقط، فإننا نستفيد من التدريب المسبق متعدد اللغات ل MBART لضبطه إلى بياناتنا. في حين أن الأساليب الحالية تعمل بشكل رئيسي على مستوى الكلمة أو الكلمات الفرعية، فإننا نجادل بأن هذا النهج واضح واضح من وجهة نظر تقنية ويبني على شبكات المحولات الموجودة مسبقا. تظهر نتائجنا أنه في حين أن مستوى الكلمة، جوهري، فإن تقييم الأداء هو وراء الطرق الأخرى، فإن نموذجنا يحسن الأداء على مهام خارجية ومصمبة من خلال التطبيع مقارنة بالنماذج التي تعمل على نص وسائل التواصل الاجتماعي الخام وغير المجهزة.
تدرس هذه الورقة التعلم المستمر (CL) بتسلسل مهام تصنيف معنويات الجانب (ASC).على الرغم من اقتراح بعض تقنيات CL لتصنيف معنويات المستندات، إلا أننا لسنا على علم بأي عمل CL على ASC.يجب أن يتعلم نظام CL الذي يتعلم تدريجيا سلسلة من مهام ASC المشكلتين التالي ين: (1) نقل المعرفة المستفادة من المهام السابقة إلى المهمة الجديدة للمساعدة في تعلم نموذج أفضل، و (2) الحفاظ على أداء النماذجالمهام السابقة بحيث لا تنسى.تقترح هذه الورقة نموذجا قائم على شبكة كبسولة رواية يسمى B-CL لمعالجة هذه المشكلات.ب-CL يحسن بشكل ملحوظ أداء ASC على كل من المهمة الجديدة والمهام القديمة عبر نقل المعرفة للأمام والخلف.يتم إثبات فعالية B-CL من خلال تجارب واسعة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا