نستكشف استخدام مصنفات التدريب الذاتي والقبول مع النماذج المدربة مسبقا لتوليد اللغة الطبيعية في إعدادات هيكل إلى نص باستخدام ثلاث مجموعات بيانات GEM (E2E و WebNLG-EN و Schema-furdided).مع Dataset الحوار الموجهة للمخطط، نقوم أيضا بتجربة بما في ذلك المنعطفات المتعددة من السياق في المدخلات.نجد أن التدريب الذاتي مع مطابقة إعادة الإعمار مع تصفية مصنف القبول يمكن أن يحسن صحة دلالية، على الرغم من أن المكاسب محدودة في إعداد البيانات الكاملة.مع تكييف السياق، نجد أن بما في ذلك المنعطفات المتعددة في السياق يشجع النموذج على المحاذاة مع اختيارات كلمة المستخدم وصياغة وكذلك لتوليد المزيد من ردود متسقة ذاتية.في الإصدارات المستقبلية من تحدي GEM، نشجع إدراج مسارات قليلة لتشجيع البحث على كفاءة البيانات.
We explore the use of self-training and acceptability classifiers with pre-trained models for natural language generation in structure-to-text settings using three GEM datasets (E2E, WebNLG-en, Schema-Guided Dialog). With the Schema-Guided Dialog dataset, we also experiment with including multiple turns of context in the input. We find that self-training with reconstruction matching along with acceptability classifier filtering can improve semantic correctness, though gains are limited in the full-data setting. With context-conditioning, we find that including multiple turns in the context encourages the model to align with the user's word and phrasing choices as well as to generate more self-consistent responses. In future versions of the GEM challenge, we encourage the inclusion of few-shot tracks to encourage research on data efficiency.
المراجع المستخدمة
https://aclanthology.org/
المهمة المشتركة بشأن الميمات البغيضة هي تحدي يهدف إلى اكتشاف المحتوى البغيض في الميمات من خلال دعوة تنفيذ النظم التي تفهم الميمات، يحتمل أن تجمع بين الصورة والمعلومات النصية.يتكون التحدي من ثلاثة مهام اكتشاف: الكراهية، الفئة المحمية ونوع الهجوم.الأول
تبنت النهج الحديثة التجريدية لجيل النص إلى النص بنية فك التشفير الناجحة للغاية أو المتغيرات منها.تولد هذه النماذج نصا يجيد (ولكن في كثير من الأحيان غير دقيقة) وإجراء سيئة للغاية عند تحديد المحتوى المناسب وطلبه بشكل متماسك.للتغلب على بعض هذه القضايا،
تتطلب شبكات العصبية العميقة الحديثة من بين الفن بيانات تدريبية ذات صلة واسعة النطاق غالبا ما تكون مكلفة للحصول على أو غير متوفرة للعديد من المهام. لقد ثبت أن الإشراف ضعيف في شكل قواعد خاصة بالمجال مفيدا في مثل هذه الإعدادات لإنشاء بيانات التدريب المس
على الرغم من نجاحاتها الأخيرة في معالجة العديد من مهام NLP، لا تؤدي نماذج اللغة المدربة مسبقا على نطاق واسع وكذلك في إعدادات قليلة، حيث تتوفر حفنة من الأمثلة التدريبية فقط. لمعالجة هذا القصور، نقترح الطبقات، والتي تعني التدريب الذاتي مع تكبير المهمة،
تدرس هذه الورقة مهمة جيل تسييس الهدسة (KG) للسيناريوهات التي يلعب فيها الهيكل دورا مهما. على سبيل المثال، يتكون المنشور العلمي من عنوان قصير وجسم طويل، حيث يمكن استخدام العنوان لإلغاء التأكيد على التفاصيل غير المهمة في الجسم. وبالمثل، لوظائف وسائل ال