ترغب بنشر مسار تعليمي؟ اضغط هنا

من النمذجة اللغوية المعقدة إلى الترجمة: المهام الإضافية غير الإنجليزية تعمل على تحسين فهم اللغة المنطوقة صفرية

From Masked Language Modeling to Translation: Non-English Auxiliary Tasks Improve Zero-shot Spoken Language Understanding

332   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يعادل الافتقار إلى بيانات التقييم المتاحة للجمهور لغات الموارد المنخفضة التقدم المحرز في فهم اللغة المنطوقة (SLU).نظرا لأن المهام الرئيسية مثل تصنيف النوايا وملء الفتحات تتطلب بيانات تدريبية وفيرة، فمن المستحسن إعادة استخدام البيانات الحالية بلغات الموارد عالية الوزن لتطوير نماذج لسيناريوهات الموارد المنخفضة.نقدم XSID، معيار جديد للفتحة عبر اللغات (x) والكشف عن النوايا في 13 لغة من 6 أسر لغوية، بما في ذلك لهجة الموارد المنخفضة للغاية.لمعالجة التحدي، نقترح نهجا تعليميا مشتركا، مع بيانات تدريب Slu الإنجليزية والمهام المساعدة غير الإنجليزية من النص الخام، بناء الجملة والترجمة للنقل.نقوم بدراسة اثنين من الإعدادات التي تختلف عن طريق تغطية النوع واللغة من المبيعات المدربة مسبقا.تظهر نتائجنا أن تعلم المشترك التعلم بالمهام الرئيسية ذات النمذجة اللغوية المعقدة فعالة للفتحات، في حين أن تحويل الترجمة الآلية يعمل بشكل أفضل لتصنيف النية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

مجرر أن نقدم نمذجة اللغة المنطوقة الإندنية، ومهمة تعلم الخصائص الصوتية واللغوية للغة من الصوت الخام (لا توجد نص، لا ملصقات)، ومجموعة من المقاييس لتقييم التمثيلات المستفادة تلقائيا على المستويات الصوتية واللغوية لكلا الترميزوالجيل.أنشأنا أنظمة أساسية تتكون من تشفير خطاب منفصل (وحدات النص الزائفة العائدين)، وهي نموذج لغة تابعة له (تدرب على النص الزائف)، وحديد فك الكلام (توليد موجة موجلة من النص الزائف) جميعها مدربة دون إشراف والتحقق من صحةالمقاييس المقترحة مع التقييم البشري.عبر 3 تشفير الكلام (CPC، WAV2VEC 2.0، HUBERT)، نجد أن عدد الوحدات المنفصلة (50 أو 100 أو أو 200) مسائل في طريقة تعتمد على المهام والتشييد، وأن بعض المجموعات نهج النظم القائمة على النصوص.1.
مع النجاح المبكر لمساعدات الإجابة في الاستعلام مثل Alexa و Siri، فإن محاولات البحث لتوسيع إمكانات النظام من أتمتة خدمة التعامل هي الآن وفيرة. ومع ذلك، فقد عثرت الأنظمة الأولية بسرعة على عدم كفاية في الاعتماد على تقنيات التصنيف البسيطة لتحقيق مهمة الأ تمتة بشكل فعال. التحدي الرئيسي هو أن الحوار يتضمن في كثير من الأحيان التعقيد في نوايا المستخدم (أو أغراض) معتلقها، مع مراعاة التغيير التلقائي، ويصعب تتبعه. علاوة على ذلك، لم تعتبر مجموعات البيانات العامة هذه المضاعفات والشروح الدلالية العامة غير موجودة والتي قد تؤدي إلى مشكلة تسديدة صفرية. بدافع من ما ورد أعلاه، نقترح شبكة انتباه بيرت علم الملصقات (Laban) للكشف عن الصفر طلقة متعددة النوايا. نقوم أولا بتشفير كلمات الإدخال مع بيرت وبناء مساحة مضمنة تسمية من خلال النظر في دلالات مضمنة في ملصقات النوايا. ثم يتم تصنيف كلمة الإدخال بناء على أوزان الإسقاط على كل تضمين نية في هذه المساحة المضمنة. نظهر أنه تمتد بنجاح إلى عدد قليل من الإعدادات / الصفر، حيث يكون جزء من ملصقات النوايا غير مرئية في بيانات التدريب، من خلال مراعاة الدلالات أيضا في هذه الملصقات النية غير المرئية. تظهر النتائج التجريبية أن نهجنا قادر على اكتشاف العديد من الملصقات النية غير المرئية بشكل صحيح. كما أنه يحقق الأداء الحديثة في خمس مجموعات بيانات متعددة النوايا في الحالات العادية.
فهم اللغة المنطوقة، عادة بما في ذلك اكتشاف النوايا وملء الفتحات، هو مكون أساسي لبناء نظام حوار منطوق. تظهر الأبحاث الحديثة نتائج واعدة من خلال التعلم المشترك بين هذين المهامتين بناء على حقيقة أن ملء الفتحة والكشف عن النوايا تشارك المعرفة الدلالية. عل اوة على ذلك، فإن آلية الاهتمام تعزز التعلم المشترك لتحقيق نتائج أحدث من الفن. ومع ذلك، فإن نماذج التعلم المشتركة الحالية تتجاهل الحقائق المهمة التالية: 1. لا يتم تتبع سياق فتحة طويلة الأجل بشكل فعال، وهو أمر حاسم لملء الفتحات المستقبلية. 2. يمكن أن تكون الفتحة وعلامات الكشف عن النية مجزية بشكل متبادل، ولكن التفاعل ثنائي الاتجاه بين ملء الفتحات والكشف عن النوايا لا يزال نادرا ما تم استكشافه. في هذه الورقة، نقترح نهجا جديدا لنموذج سياق فتحة طويلة الأجل واستخدام العلاقة الدلالية بالكامل بين الفتحات والمحالة. نعتمد شبكة الذاكرة ذات القيمة الرئيسية لنموذج سياق الفتحة ديناميكيا وتتبع علامات فتحة أكثر أهمية فك شفرة من قبل، والتي يتم تغذيتها بعد ذلك في وحدة فك التشفير الخاصة بنا للحصول على علامات الفتحة. علاوة على ذلك، يتم استخدام معلومات الذاكرة الدائرية لأداء الكشف عن النية، وتحسين المهام المتبادلة من خلال التحسين العالمي. تظهر التجارب على معيار ATIS و SHITS DataSets أن نموذجنا يحقق أداء حديثة وتفوق على طرق أخرى، خاصة بالنسبة لمهمة ملء الفتحة.
يعرض عدم وجود بيانات تدريبية تحديا كبيرا لتحجيم فهم اللغة المنطوقة لغات الموارد المنخفضة.على الرغم من أن نهج تكبير البيانات المختلفة قد اقترحت توليف البيانات التدريبية في لغات مستهدفة منخفضة الموارد، فإن مجموعات البيانات المعززة غالبا ما تكون صاخبة، وبالتالي تعيق أداء نماذج SLU.في هذه الورقة نركز على تخفيف الضوضاء في البيانات المعززة.نقوم بتطوير نهج تدريب Denosising.يتم تدريب نماذج متعددة مع البيانات التي تنتجها الطرق المعززة المختلفة.توفر هذه النماذج إشارات الإشراف لبعضها البعض.تظهر النتائج التجريبية أن أسلوبنا تتفوق على الحالة القائمة من الفن الموجودة بمقدار 3.05 و 4.24 نقطة مئوية عن مجموعات بيانات قياسية على التوالي.سيتم تقديم الرمز مفتوح المصادر على جيثب.
ندرس كيف يمكن أن يؤدي اخفاء وتنبؤ الرموز في الأزياء غير المنشأة إلى الهياكل اللغوية ومكاسب أداء المصب. اقترحت النظريات الحديثة أن نماذج اللغة المحددة مسبقا تكتسب تحيزات حثي مفيدة من خلال الأقنعة التي تعمل ضمنيا كتخفيض كتفل لمهام المصب. في حين أننا نن ظر إلى أن نجاح استراتيجية الاخفاء العشوائية المستخدمة في الممارسة لا يمكن تفسيره بواسطة أقنعة مثل كلوزي وحدها. نحن نبني أقنعة تشبه الكتبة باستخدام المعجمات الخاصة بمهام المهام لثلاث مجموعات بيانات تصنيف مختلفة وإظهار أن غالبية مكاسب الأداء المسبدة مسبقا تأتي من أقنعة عامة لا ترتبط مع المعجم. لشرح النجاح التجريبي لهذه الأقنعة العامة هذه، نوضح مراسلات بين هدف اللغة المعقدة (MLM) والأساليب الموجودة لتعلم التبعيات الإحصائية في النماذج الرسومية. باستخدام هذا، نستمد طريقة لاستخراج هذه التبعيات الإحصائية المستفادة في MLMS وإظهار أن هذه التبعيات ترميز تحيزات حثي مفيدة في شكل هياكل النحوية. في تقييم تحليل غير مدفوع، ببساطة تشكيل شجرة ممتدة كحد أدنى على هيكل الاعتماد الإحصائي الضمني تتفوق على طريقة كلاسيكية لتحليل غير معروض (58.74 مقابل 55.91 Uuas).

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا