ترغب بنشر مسار تعليمي؟ اضغط هنا

التعلم من مجموعات بيانات معدنية صاخبة متعددة من أجل فهم اللغة المنطوقة عبر اللغات أفضل

Learning from Multiple Noisy Augmented Data Sets for Better Cross-Lingual Spoken Language Understanding

448   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يعرض عدم وجود بيانات تدريبية تحديا كبيرا لتحجيم فهم اللغة المنطوقة لغات الموارد المنخفضة.على الرغم من أن نهج تكبير البيانات المختلفة قد اقترحت توليف البيانات التدريبية في لغات مستهدفة منخفضة الموارد، فإن مجموعات البيانات المعززة غالبا ما تكون صاخبة، وبالتالي تعيق أداء نماذج SLU.في هذه الورقة نركز على تخفيف الضوضاء في البيانات المعززة.نقوم بتطوير نهج تدريب Denosising.يتم تدريب نماذج متعددة مع البيانات التي تنتجها الطرق المعززة المختلفة.توفر هذه النماذج إشارات الإشراف لبعضها البعض.تظهر النتائج التجريبية أن أسلوبنا تتفوق على الحالة القائمة من الفن الموجودة بمقدار 3.05 و 4.24 نقطة مئوية عن مجموعات بيانات قياسية على التوالي.سيتم تقديم الرمز مفتوح المصادر على جيثب.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم دراسة منهجية حول الكشف عن النية متعددة اللغات والتبلغة من البيانات المنطوقة.تنفد الدراسة على أن مورد جديد تم طرحه في هذا العمل، الذي يطلق عليه عقول -14، وهو موارد تدريب وتقييم أول مهمة معرف مع البيانات المنطوقة.ويغطي 14 حداثة مستخرجة من نظام تجا ري في مجال الخدمات المصرفية الإلكترونية، المرتبطة بالأمثلة المنطوقة في 14 نوعا متنوعا باللغة.تشير نتائجنا الرئيسية إلى أن الجمع بين نماذج الترجمة الآلية مع وجود ترميز جملة متعددة اللغات الحديثة (على سبيل المثال، LASSE) تسفر عن كاشفات نية قوية في غالبية اللغات المستهدفة المشمولة في العقول -14، وتقديم تحليلات مقارنة عبر محاور مختلفة: على سبيل المثال، اتجاه الترجمة، تأثير التعرف على الكلام، تكبير البيانات من مجال ذي صلة.نرى هذا العمل كخطوة مهمة نحو تطوير وتقييم أكثر شمولية لمعرف متعدد اللغات من البيانات المنطوقة، ونأمل في طيف أوسع بكثير من اللغات مقارنة بالعمل السابق.
مع التعلم Landit العديد المصنعة، يمكن تدريب النماذج بناء على ردود فعل إيجابية وسالبة وردت للتنبؤات التاريخية، دون الحاجة إلى البيانات المسمى.ومع ذلك، غالبا ما تكون هذه الملاحظات متوفرة في أنظمة الحوار في العالم الحقيقي، ومع ذلك، فإن الهندسة المعمارية المعيارية المستخدمة عادة في أنظمة واسعة النطاق يمنع التطبيق المباشر لهذه الخوارزميات.في هذه الورقة، ندرس مشكلة إريقات التغذية المرتدة التي تنشأ عند استخدام التعلم Landit Adderfactual لفهم اللغة المنطوقة متعددة المجالات.نقدم إعداد تجريبي لمحاكاة المشكلة في مجموعات البيانات العامة على نطاق صغير، اقترح طرق الإسناد المستوحاة من التعزيز التعزيز متعدد الوكلات وتقييمها ضد خطوط خطوط خطوط خطوط خطوط خطوط طويلة.نجد أنه أثناء استخدام الملاحظات الشاملة مباشرة يؤدي إلى أداء كارثي، يمكن أن تسمح طرقنا الإسناد المقترحة لدينا نماذج تنافسية للتدريب من ملاحظات المستخدم.
فهم اللغة المنطوقة، عادة بما في ذلك اكتشاف النوايا وملء الفتحات، هو مكون أساسي لبناء نظام حوار منطوق. تظهر الأبحاث الحديثة نتائج واعدة من خلال التعلم المشترك بين هذين المهامتين بناء على حقيقة أن ملء الفتحة والكشف عن النوايا تشارك المعرفة الدلالية. عل اوة على ذلك، فإن آلية الاهتمام تعزز التعلم المشترك لتحقيق نتائج أحدث من الفن. ومع ذلك، فإن نماذج التعلم المشتركة الحالية تتجاهل الحقائق المهمة التالية: 1. لا يتم تتبع سياق فتحة طويلة الأجل بشكل فعال، وهو أمر حاسم لملء الفتحات المستقبلية. 2. يمكن أن تكون الفتحة وعلامات الكشف عن النية مجزية بشكل متبادل، ولكن التفاعل ثنائي الاتجاه بين ملء الفتحات والكشف عن النوايا لا يزال نادرا ما تم استكشافه. في هذه الورقة، نقترح نهجا جديدا لنموذج سياق فتحة طويلة الأجل واستخدام العلاقة الدلالية بالكامل بين الفتحات والمحالة. نعتمد شبكة الذاكرة ذات القيمة الرئيسية لنموذج سياق الفتحة ديناميكيا وتتبع علامات فتحة أكثر أهمية فك شفرة من قبل، والتي يتم تغذيتها بعد ذلك في وحدة فك التشفير الخاصة بنا للحصول على علامات الفتحة. علاوة على ذلك، يتم استخدام معلومات الذاكرة الدائرية لأداء الكشف عن النية، وتحسين المهام المتبادلة من خلال التحسين العالمي. تظهر التجارب على معيار ATIS و SHITS DataSets أن نموذجنا يحقق أداء حديثة وتفوق على طرق أخرى، خاصة بالنسبة لمهمة ملء الفتحة.
تم الآن إنشاء أن نماذج اللغة العصبية الحديثة يمكن تدريبها بنجاح على لغات متعددة في وقت واحد دون تغييرات على الهندسة المعمارية الأساسية، وتوفير طريقة سهلة لتكييف مجموعة متنوعة من نماذج NLP لغات الموارد المنخفضة.ولكن ما نوع المعرفة المشتركة حقا بين الل غات داخل هذه النماذج؟هل يؤدي التدريب المتعدد اللغات في الغالب إلى محاذاة مساحات التمثيل المعجمية أو هل تمكن أيضا تقاسم المعرفة النحوية بحتة؟في هذه الورقة، نشرج أشكال مختلفة من التحويل المتبادل والبحث عن عواملها الأكثر تحديدا، باستخدام مجموعة متنوعة من النماذج والمهام التحقيق.نجد أن تعريض LMS لدينا بلغة ذات صلة لا تؤدي دائما إلى زيادة المعرفة النحوية في اللغة المستهدفة، وأن الظروف المثلى للنقل الدلالي المعجمي قد لا تكون الأمثل للتحويل النحوي.
تقدير أنظمة التشابه الدلالي النصي (STS) درجة تشابه معنى بين جملتين.تقدر أنظمة STS عبر اللغات درجة تشابه معنى بين جملتين، كل منها بلغة مختلفة.عادة ما تستخدم الخوارزميات الحديثة عادة نهجا بالغضب بشدة، يصعب استخدامه لغات ضعف الموارد.ومع ذلك، يحتاج أي نه ج للحصول على بيانات التقييم لتأكيد النتائج.من أجل تبسيط عملية التقييم لغات ضعف الموارد (من حيث مجموعات بيانات تقييم STS)، نقدم مجموعات بيانات جديدة ل STS عبر اللغات والأحمر غير المباشر لغات دون بيانات التقييم هذه.نقدم أيضا نتائج العديد من الطرق الحديثة على هذه البيانات التي يمكن استخدامها كأساس للحصول على مزيد من البحث.نعتقد أن هذه المقالة لن تمد فقط أبحاث STS الحالية فقط إلى لغات أخرى، ولكنها ستشجع أيضا المنافسة على هذه بيانات التقييم الجديدة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا