يتطلب الإجابة السؤال المنطوقة (SQA) فهما غريبا من الوثائق والأسئلة المنطوقة للتنبؤ بالأجواب المثلى. في هذه الورقة، نقترح خطط تدريبية جديدة للسؤال المستحضر الرد على مرحلة تدريب ذاتية الإشراف ومرحلة تعليم التمثيل المتعاقبة. في المرحلة الإشراف ذاتيا، نقترح ثلاث مهام إضافية للإشراف على الذات، بما في ذلك استعادة الكلام وإدراج الكلام، والتمييز على السؤال، وتدريب النموذج المشترك على التقاط الاتساق والتماسك بين وثائق الكلام دون أي بيانات أو شروح إضافية. بعد ذلك اقترحنا تعلم تمثيلات الكلام الثغري في الضوضاء في هدف مرتعيض من خلال اعتماد استراتيجيات تكبير متعددة، بما في ذلك حذف الأمان والإحلال. علاوة على ذلك، نقوم بتصميم اهتمام مؤقت للمحاذاة بمحاذاة أدلة نص الكلام في المساحة المشتركة المستفادة ويفيد مهام SQA. بهذه الطريقة، يمكن أن توجه مخططات التدريب بشكل أكثر فعالية نموذج الجيل للتنبؤ بأجوبة أكثر سليمة. تظهر النتائج التجريبية أن نموذجنا يحصل على نتائج أحدث النتائج على ثلاثة معايير SQA. سيتم توفير الكود الخاص بنا علنا بعد النشر.
Spoken question answering (SQA) requires fine-grained understanding of both spoken documents and questions for the optimal answer prediction. In this paper, we propose novel training schemes for spoken question answering with a self-supervised training stage and a contrastive representation learning stage. In the self-supervised stage, we propose three auxiliary self-supervised tasks, including utterance restoration, utterance insertion, and question discrimination, and jointly train the model to capture consistency and coherence among speech documents without any additional data or annotations. We then propose to learn noise-invariant utterance representations in a contrastive objective by adopting multiple augmentation strategies, including span deletion and span substitution. Besides, we design a Temporal-Alignment attention to semantically align the speech-text clues in the learned common space and benefit the SQA tasks. By this means, the training schemes can more effectively guide the generation model to predict more proper answers. Experimental results show that our model achieves state-of-the-art results on three SQA benchmarks. Our code will be publicly available after publication.
المراجع المستخدمة
https://aclanthology.org/
نقترح طريقة لتعلم تمثيلات الجملة المعممة والتعميم باستخدام التعلم المشروع للإشراف على الذات.في الطريقة المقترحة، يتم إعطاء نموذج نص يتكون من جمل متعددة.تم اختيار جملة واحدة بشكل عشوائي كجوزة مستهدفة.يتم تدريب النموذج على زيادة التشابه بين تمثيل الجمل
يتم تشفير المعرفة البشرية بشكل جماعي في حوالي 6500 لغة تحدثت في جميع أنحاء العالم، لكنها لا توزع بنفس القدر من اللغات.وبالتالي، بالنسبة لنظم الإجابة على الأسئلة التي تسعى للحصول على المعلومات (QA) لخدمة مكبرات الصوت بشكل كاف من جميع اللغات، فإنها تحت
حققت النماذج التراجعية التلقائية واسعة النطاق نجاحا كبيرا في توليد استجابة الحوار، بمساعدة طبقات المحولات. ومع ذلك، فإن هذه النماذج لا تتعلم مساحة كامنة تمثيلية لتوزيع الجملة، مما يجعل من الصعب التحكم في الجيل. لقد حاولت الأعمال الحديثة على تعلم تمثي
بدافع من جيل السؤال المقترح في أنظمة توصية أخبار المحادلات، نقترح نموذجا لتوليد أزواج الإجابات السؤال (أزواج ضمان الجودة) مع أسئلة ذاتية التركيز ذاتي ومقيد الطول، إجابات تلخص المادة.نبدأ بجمع مجموعة بيانات جديدة من المقالات الإخبارية مع أسئلة كعناوين
تهدف توليد الصياغة الموجهة إلى Exemplar (EGPG) إلى توليد جملة مستهدفة تتوافق مع أسلوب Exemplar المحدد أثناء توسيع نطاق معلومات المحتوى من الجملة المصدر. في هذه الورقة، نقترح طريقة جديدة بهدف تعلم تمثيل أفضل للنمط والمحتوى. تحفز هذه الطريقة بشكل أساسي