ترغب بنشر مسار تعليمي؟ اضغط هنا

الكشف عن النية متعددة اللغات والتبلغة من البيانات المنطوقة

Multilingual and Cross-Lingual Intent Detection from Spoken Data

542   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم دراسة منهجية حول الكشف عن النية متعددة اللغات والتبلغة من البيانات المنطوقة.تنفد الدراسة على أن مورد جديد تم طرحه في هذا العمل، الذي يطلق عليه عقول -14، وهو موارد تدريب وتقييم أول مهمة معرف مع البيانات المنطوقة.ويغطي 14 حداثة مستخرجة من نظام تجاري في مجال الخدمات المصرفية الإلكترونية، المرتبطة بالأمثلة المنطوقة في 14 نوعا متنوعا باللغة.تشير نتائجنا الرئيسية إلى أن الجمع بين نماذج الترجمة الآلية مع وجود ترميز جملة متعددة اللغات الحديثة (على سبيل المثال، LASSE) تسفر عن كاشفات نية قوية في غالبية اللغات المستهدفة المشمولة في العقول -14، وتقديم تحليلات مقارنة عبر محاور مختلفة: على سبيل المثال، اتجاه الترجمة، تأثير التعرف على الكلام، تكبير البيانات من مجال ذي صلة.نرى هذا العمل كخطوة مهمة نحو تطوير وتقييم أكثر شمولية لمعرف متعدد اللغات من البيانات المنطوقة، ونأمل في طيف أوسع بكثير من اللغات مقارنة بالعمل السابق.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يعرض عدم وجود بيانات تدريبية تحديا كبيرا لتحجيم فهم اللغة المنطوقة لغات الموارد المنخفضة.على الرغم من أن نهج تكبير البيانات المختلفة قد اقترحت توليف البيانات التدريبية في لغات مستهدفة منخفضة الموارد، فإن مجموعات البيانات المعززة غالبا ما تكون صاخبة، وبالتالي تعيق أداء نماذج SLU.في هذه الورقة نركز على تخفيف الضوضاء في البيانات المعززة.نقوم بتطوير نهج تدريب Denosising.يتم تدريب نماذج متعددة مع البيانات التي تنتجها الطرق المعززة المختلفة.توفر هذه النماذج إشارات الإشراف لبعضها البعض.تظهر النتائج التجريبية أن أسلوبنا تتفوق على الحالة القائمة من الفن الموجودة بمقدار 3.05 و 4.24 نقطة مئوية عن مجموعات بيانات قياسية على التوالي.سيتم تقديم الرمز مفتوح المصادر على جيثب.
في هذا العمل، نقدم نهجنا لحل المهمة Semeval 2021 2: الغموض المتعددة اللغات والتبلغة في السياق (MCL-WIC). المهمة هي مشكلة تصنيف زوج الجملة حيث يكون الهدف هو اكتشاف ما إذا كانت كلمة معينة مشتركة بين كل من الجمل تثير نفس المعنى. نقدم أنظمة لكلا الإعدادا ت - متعددة اللغات (جمل الزوج تنتمي إلى نفس اللغة) واللغة اللغوية (جمل الزوج تنتمي إلى لغات مختلفة). يتم توفير بيانات التدريب باللغة الإنجليزية فقط. وبالتالي، فإننا نوظف تقنيات النقل عبر اللغات. توظف نهجنا نماذج اللغة القائمة على المحولات التي تم تدريبها مسبقا، مثل Electra و Albert، للمهمة الإنجليزية و XLM-R لجميع المهام الأخرى. لتحسين أداء هذه الأنظمة، نقترح إضافة إشارة إلى الكلمة التي سيتم إزالتها وتزيد بياناتنا عن طريق انعكاس زوج الجملة. ونحن كذلك زيادة DataSet المقدمة إلينا مع WIC و XL-WIC و SEMCOR 3.0. باستخدام الكفر، نحقق أداء قويا في المهمة المتعددة اللغات، حيث وضعت أولا في المهام الفرعية EN-EN و FR-FR. بالنسبة للإعداد المتبادل، فإننا أعملنا بترجمة طرق اختبار وطريقة طلقة صفرية، باستخدام نماذجنا متعددة اللغات، مع الأداء الأخير بشكل أفضل قليلا.
في هذه الورقة، نقدم المهمة السامية الأولى على الغموض المتعددة اللغات والبلاية في السياق (MCL-WIC). تتيح هذه المهمة القدرة الكامنة التي تم التحقيق بها إلى حد كبير من القدرة المتأصلة إلى حد كبير في التمييز بين حواس الكلمات داخل وبصور اللغات المراد تقيي مها، مما أدى إلى تقييم متطلبات جرد ذات معنى ثابت. مؤطرة كتصنيف ثنائي، مهمتنا مقسمة إلى جزأين. في المهمة الفرعية متعددة اللغات، يتعين على النظم المشاركة تحديد ما إذا كانت كلمتين مستهدفتين، كل منهما يحدث في سياق مختلف داخل نفس اللغة، معبرا عن نفس المعنى أم لا. بدلا من ذلك، في الجزء اللغوي، يطلب من النظم إجراء المهمة في سيناريو عبر اللغات، حيث يتم توفير الكلمات المستهدفة والسياقتين المقابلين بلغتين مختلفتين. نوضح مهمتنا، وكذلك بناء مجموعة بياناتنا التي أنشأنا يدويا بما في ذلك خمس لغات، وهي العربية والصينية والإنجليزية والفرنسية والروسية، ونتائج النظم المشاركة. مجموعات البيانات والنتائج متوفرة في: https://github.com/sapienzanlp/mcl-wic.
نقوم بتجربة XLM Roberta for Word في سياق الغموض في الإعداد اللغوي متعدد اللغات والصليب لتطوير نموذج واحد لديه معرفة حول كلا الإعدادات.نحل المشكلة كمشكلة تصنيف ثنائية وكذلك تجربة تكبير البيانات وتقنيات التدريب الخصم.بالإضافة إلى ذلك، نقوم أيضا بتجربة تقنية تدريب مرتبة 2.تثبت أسالبتنا أنها مفيدة لأداء أفضل وأغاني.
مع النجاح المبكر لمساعدات الإجابة في الاستعلام مثل Alexa و Siri، فإن محاولات البحث لتوسيع إمكانات النظام من أتمتة خدمة التعامل هي الآن وفيرة. ومع ذلك، فقد عثرت الأنظمة الأولية بسرعة على عدم كفاية في الاعتماد على تقنيات التصنيف البسيطة لتحقيق مهمة الأ تمتة بشكل فعال. التحدي الرئيسي هو أن الحوار يتضمن في كثير من الأحيان التعقيد في نوايا المستخدم (أو أغراض) معتلقها، مع مراعاة التغيير التلقائي، ويصعب تتبعه. علاوة على ذلك، لم تعتبر مجموعات البيانات العامة هذه المضاعفات والشروح الدلالية العامة غير موجودة والتي قد تؤدي إلى مشكلة تسديدة صفرية. بدافع من ما ورد أعلاه، نقترح شبكة انتباه بيرت علم الملصقات (Laban) للكشف عن الصفر طلقة متعددة النوايا. نقوم أولا بتشفير كلمات الإدخال مع بيرت وبناء مساحة مضمنة تسمية من خلال النظر في دلالات مضمنة في ملصقات النوايا. ثم يتم تصنيف كلمة الإدخال بناء على أوزان الإسقاط على كل تضمين نية في هذه المساحة المضمنة. نظهر أنه تمتد بنجاح إلى عدد قليل من الإعدادات / الصفر، حيث يكون جزء من ملصقات النوايا غير مرئية في بيانات التدريب، من خلال مراعاة الدلالات أيضا في هذه الملصقات النية غير المرئية. تظهر النتائج التجريبية أن نهجنا قادر على اكتشاف العديد من الملصقات النية غير المرئية بشكل صحيح. كما أنه يحقق الأداء الحديثة في خمس مجموعات بيانات متعددة النوايا في الحالات العادية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا