عادة ما تعتمد نماذج المحادثة المعرضين على وحدة تحديد / استرجاع وحدة نمطية ووحدة جيل، تدربت بشكل منفصل أو في وقت واحد، مع أو دون الوصول إلى خيار معرفة ذهبي. مع إدخال النماذج الكبيرة المدربة مسبقا مسبقا، أصبح جزء الاختيار والجول أكثر وأكثر متشابكا، وتحول التركيز نحو تعزيز دمج المعرفة (من مصادر متعددة) بدلا من محاولة اختيار أفضل خيار المعرفة. ومع ذلك، تعتمد هذه الأساليب على ملصقات المعرفة و / أو المسترد الكثيف منفصل لأفضل أدائها. في هذا العمل، ندرس قدرات الاختيار غير المزروعة من النماذج الإدارية المدربة مسبقا (مثل BART) وإظهار أنه بإضافة وحدة نمطية للدرجات والكبر بين التشفير والكشف، فهي قادرة على تعلم اختيار المعرفة المناسبة من خلال تقليل اللغة فقدان النمذجة (أي دون الوصول إلى ملصقات المعرفة). تدربت على هذا النحو، نموذجنا - K-Mine - يظهر اختيار تنافسي وأداء جيل من النماذج التي تستفيد من ملصقات المعرفة و / أو المسترد الكثيف المنفصل.
Knowledge Grounded Conversation Models are usually based on a selection/retrieval module and a generation module, trained separately or simultaneously, with or without having access to a gold' knowledge option. With the introduction of large pre-trained generative models, the selection and generation part have become more and more entangled, shifting the focus towards enhancing knowledge incorporation (from multiple sources) instead of trying to pick the best knowledge option. These approaches however depend on knowledge labels and/or a separate dense retriever for their best performance. In this work we study the unsupervised selection abilities of pre-trained generative models (e.g. BART) and show that by adding a score-and-aggregate module between encoder and decoder, they are capable of learning to pick the proper knowledge through minimising the language modelling loss (i.e. without having access to knowledge labels). Trained as such, our model - K-Mine - shows competitive selection and generation performance against models that benefit from knowledge labels and/or separate dense retriever.
المراجع المستخدمة
https://aclanthology.org/
استفاد من إعادة صياغة الصياغة على نطاق واسع من التقدم الأخير في تصميم الأهداف التدريبية والبنية النموذجية. ومع ذلك، تركز الاستكشافات السابقة إلى حد كبير على الأساليب الخاضعة للإشراف، والتي تتطلب كمية كبيرة من البيانات المسمى ذات مكلفة لجمعها. لمعالجة
للحصول على تضمين الجملة ذات الجودة العالية من نماذج اللغة المحددة مسبقا (PLMS)، يجب أن تكون تؤدي إما بزيادة أهداف محالمنة إضافية أو Finetuned على مجموعة كبيرة من أزواج النص المسمى.في حين أن النهج الأخير يتفوق عادة على السابق، إلا أنه يتطلب جهد إنساني
في هذه الورقة، يمكننا التحقيق في أنواع المعلومات النمطية التي يتم التقاطها عن طريق نماذج اللغة المحددة مسبقا.نقدم بيانات البيانات الأولى التي تشمل السمات النمطية لمجموعة من المجموعات الاجتماعية واقتراح طريقة لاستزاز الصور النمطية المشفرة من قبل نماذج
تحظى طرازات اللغة واسعة النطاق (LMS) في كورسورا هائلة من النص، مثل GPT-2، هي مولدات نصية مفتوحة قوية. ومع ذلك، نظرا لأن الفحص المنهجي الخاص بنا يكشف، فمن لا يزال يمثل تحديا لهذه النماذج لتوليد ممرات طويلة طويلة متماسكة من النص (على سبيل المثال، 1000
التقييم للعديد من مهام فهم اللغة الطبيعية (NLU) مكسورة: النتيجة أنظمة غير موثوقة ومنحمة للغاية على المعايير القياسية التي توجد مساحة صغيرة للباحثين الذين يقومون بتطوير أنظمة أفضل لإظهار التحسينات الخاصة بهم.إن الاتجاه الأخير للتخلي عن معايير IID لصال