بحث متقدم مدعوم من الذكاء الصنعي

مساحة جديدة

اشترك بالحزمة الذهبية واحصل على وصول غير محدود شمرا أكاديميا

تسجيل مستخدم جديد

التعزيز غير متصل التعلم من ردود فعل إنسانية في مهام تسلسل العالم الحقيقي

Offline Reinforcement Learning from Human Feedback in Real-World Sequence-to-Sequence Tasks

735 0 0 0.0 ( 0 )

تحميل البحث استخدام كمرجع

نشر من قبل جمعية اللغويات الحاسوبية ACL مقالة

تاريخ النشر 2021

مجال البحث الذكاء الاصناعي

والبحث باللغة English

تمت اﻹضافة من قبل Shamra Editor

human feedback feedback in real-world offline reinforcement learning ردود الفعل الإنسانية ردود الفعل في العالم الحقيقي التعزيز التعزيز غير متصل صناعة حمض الفوسفور

قم بزيارة صفحتنا على فيسبوك

‎Shamra Academia - شمرا أكاديميا‎

اسأل ChatGPT حول البحث

الملخص بالعربية الملخص بالإنكليزية

يمكن جمع كميات كبيرة من سجلات التفاعل من أنظمة NLP التي يتم نشرها في العالم الحقيقي.كيف يمكن الاستفادة من هذه الثروة من المعلومات؟يعد استخدام سجلات التفاعل هذه في إعداد تعليم التعزيز (RL) غير متصل نهجا واعدا.ومع ذلك، نظرا لطبيعة مهام NLP وقيود أنظمة الإنتاج، تنشأ سلسلة من التحديات.نقدم نظرة عامة موجزة عن هذه التحديات ومناقشة الحلول الممكنة.

المراجع المستخدمة

https://aclanthology.org/

قيم البحث

919 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

نحن نحقق في تعلم اللغة الأساسية من خلال بيانات عالمية حقيقية، من خلال نمذجة ديناميات متعلم المعلم من خلال التفاعلات الطبيعية التي تحدث بين المستخدمين ومحركات البحث؛على وجه الخصوص، نستكشف ظهور التعميم الدلالي من تمثيلات كثيفة غير مخالفة خارج البيئات ا لاصطناعية.يتم تعلم مجال التأريض وظيفة دلالة ودالة تكوين من بيانات المستخدم فقط.نظهر كيف تظهر الدلالات الناتجة عن عبارات الاسم خصائصا تتراكم بينما تكون مائيا تماما دون أي وضع علامات واضحة.نحن نقسم لدينا دلالاتنا المتطرفة على التركيبية ومهام الاستدلال صفرية، ونرى أنها توفر نتائج أفضل وتعميمات أفضل من نماذج SOTA غير المدرجة، مثل Word2VEC و BERT.

grounding language learning real-world human-machine interaction language learning تعلم لغة التأريض العالم الحقيقي والتفاعل في الإنسان تعلم اللغة صناعة حمض الفوسفور المزيد..

التدريب المتكامل لنماذج تسلسل إلى تسلسل باستخدام محول غير تلقائي

713 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تطبيقات اللغة الطبيعية المعقدة مثل ترجمة الكلام أو الترجمة المحورية تعتمد تقليديا على النماذج المتتالية. ومع ذلك، من المعروف أن النماذج المتتالية عرضة لتوسيع الأخطاء ومشاكل التناقض النموذجي. علاوة على ذلك، لا توجد إمكانية لاستخدام بيانات التدريب المن اسبة في النظم المتتالية التقليدية، مما يعني أن البيانات التدريبية الأكثر ملاءمة للمهمة لا يمكن استخدامها. اقترحت الدراسات الفقيرة عدة طرق تدريبية للتدريب المنتهي المتكاملة للتغلب عليها مشاكل، ومع ذلك، فإنهم يعتمدون في الغالب على بيانات ثلاثية الاتجاه (الاصطناعية أو الطبيعية). نقترح نموذجا متماثلا يعتمد على المحول غير التلقائي الذي يتيح التدريب المنتهي دون الحاجة إلى تمثيل واضح وسيط. تتجنب هذه الهندسة المعمارية الجديدة (I) القرارات المبكرة غير الضرورية التي يمكن أن تسبب أخطاء يتم نشرها بعد ذلك في جميع النماذج المتتالية (II) باستخدام بيانات التدريب المناسبة مباشرة. نحن نقوم بإجراء تقييم على مهام ترجمة من الآلة المحورية، وهي الفرنسية → الألمانية والألمانية → جمهورية التشيك. تظهر نتائجنا التجريبية أن الهندسة المعمارية المقترحة تعطي تحسنا أكثر من 2 بلو للفرنسية → الألمانية على خط الأساس المتتالي.

non-autoregressive transformer محول غير تلقائي تمرين صناعة حمض الفوسفور

التفاح النواة التخلي عن: ردود الفعل اللغوية والتعلم في لعبة العالم المشتركة بين الكلام

660 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

نحن نبحث عن مسألة كيف تؤثر ردود الفعل التكيفية من عامل الظاهري على المدخلات اللغوية للمستخدم في بيئة ألعاب عالمية مشتركة. للقيام بذلك، نقوم بإجراء دراسة تجريبية استكشافية لمراقبة كيفية تأثير ردود الفعل اللغوية الفردية على إدخال خطاب المستخدم. نقدم لع بة تسيطر على الكلام، وإخلاء Apple الأساسية، حيث يتعلم الوكيل المهام المعقدة باستخدام معرفة قاعدة بأعمال بسيطة. تم تجهيز الوكيل بآلية تعليمية لرسم الأوامر الجديدة بتسلسل الإجراءات البسيطة، وكذلك القدرة على دمج إدخال المستخدم في ردود مكتوبة. يشارك الوكيل مرارا وتكرارا حالته المعرفة الداخلية من خلال الاستجابة لما يعرفه ولا يعرفه عن معنى اللغة والبيئة المشتركة. تركز ورقتنا على حلقة الملاحظات اللغوية من أجل تحليل طبيعة إدخال المستخدم. يتم توفير ردود الفعل من الوكيل في شكل حركة مرئية وردود لغوية مكتوبة. يتم إيلاء اهتمام خاص لإدماج مدخلات المستخدم في استجابات الوكيل وتحديث تعيينات الكلام إلى العمل بناء على الأوامر التي يقدمها المستخدم. من خلال دراستنا التجريبية، نقوم بتحليل نجاح المهمة ومقارنة الميزات المعجمية لإدخال المستخدم. تظهر النتائج الاختلاف في طول المدخلات والتنوع المعجمي عبر المستخدمين، مما يشير إلى ارتباط بين الاثنين يمكن دراستهما كذلك.

shared world game shared world world game لعبة العالم المشترك العالم المشترك لعبة العالم صناعة حمض الفوسفور المزيد..

تطبيع تسلسل إلى تسلسل مع محولات متعددة اللغات

715 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تحتوي المهام القياسية الحالية لمعالجة اللغة الطبيعية على نص مختلف عن النص المستخدم في اليومي غير الرسمي إلى الاتصال الرقمي اليومي. أدى هذا التناقض إلى تدهور الأداء الشديد لنماذج NLP الحديثة عندما يتم ضبطها بشكل جيد على بيانات العالم الحقيقي. طريقة وا حدة لحل هذه المشكلة هي من خلال التطبيع المعجمي، وهي عملية تحويل النص غير القياسي، وعادة ما تكون من وسائل التواصل الاجتماعي، إلى نموذج أكثر موحدة. في هذا العمل، نقترح نموذج تسلسل تسلسل على مستوى الجملة بناء على MBART، مما يؤدي إلى إطارات المشكلة بمثابة مشكلة ترجمة آلية. نظرا لأن النص الصاخب يمثل مشكلة منتشرة عبر اللغات، وليس الإنجليزية فقط، فإننا نستفيد من التدريب المسبق متعدد اللغات ل MBART لضبطه إلى بياناتنا. في حين أن الأساليب الحالية تعمل بشكل رئيسي على مستوى الكلمة أو الكلمات الفرعية، فإننا نجادل بأن هذا النهج واضح واضح من وجهة نظر تقنية ويبني على شبكات المحولات الموجودة مسبقا. تظهر نتائجنا أنه في حين أن مستوى الكلمة، جوهري، فإن تقييم الأداء هو وراء الطرق الأخرى، فإن نموذجنا يحسن الأداء على مهام خارجية ومصمبة من خلال التطبيع مقارنة بالنماذج التي تعمل على نص وسائل التواصل الاجتماعي الخام وغير المجهزة.

multilingual transformers multilingual محولات متعددة اللغات متعدد اللغات صناعة حمض الفوسفور

تكييف بيرت للتعلم المستمر لسلسلة من مهام تصنيف معنويات الجانب

596 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تدرس هذه الورقة التعلم المستمر (CL) بتسلسل مهام تصنيف معنويات الجانب (ASC).على الرغم من اقتراح بعض تقنيات CL لتصنيف معنويات المستندات، إلا أننا لسنا على علم بأي عمل CL على ASC.يجب أن يتعلم نظام CL الذي يتعلم تدريجيا سلسلة من مهام ASC المشكلتين التالي ين: (1) نقل المعرفة المستفادة من المهام السابقة إلى المهمة الجديدة للمساعدة في تعلم نموذج أفضل، و (2) الحفاظ على أداء النماذجالمهام السابقة بحيث لا تنسى.تقترح هذه الورقة نموذجا قائم على شبكة كبسولة رواية يسمى B-CL لمعالجة هذه المشكلات.ب-CL يحسن بشكل ملحوظ أداء ASC على كل من المهمة الجديدة والمهام القديمة عبر نقل المعرفة للأمام والخلف.يتم إثبات فعالية B-CL من خلال تجارب واسعة.

aspect sentiment classification adapting bert sequence of aspect تصنيف معنويات الجانب تكييف بيرت تسلسل الجانب صناعة حمض الفوسفور المزيد..

الأسئلة المقترحة

شرح تقنية التعرف على الصوت Voice Recognition

2119 - 0 - - تم طرحه بمساحة (الذكاء الاصناعي)

التعرف على الصوت التعرف على الكلام التعرف على الكلام التلقائي

سجل دخول لتتمكن من نشر تعليقات

التعليقات

جاري جلب التعليقات

سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها

المعهد العالي للعلوم التطبيقية والتكنولوجيا

تفاصيل إضافية المزيد من الجامعات

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد

التعزيز غير متصل التعلم من ردود فعل إنسانية في مهام تسلسل العالم الحقيقي

Offline Reinforcement Learning from Human Feedback in Real-World Sequence-to-Sequence Tasks

اسأل ChatGPT حول البحث

اقرأ أيضاً

الأسئلة المقترحة