ترغب بنشر مسار تعليمي؟ اضغط هنا

كلمات البذور تستند إلى اختيار البيانات للتكيف نموذج اللغة

Seed Words Based Data Selection for Language Model Adaptation

263   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نحن نتطلع إلى مشكلة تخصيص نموذج اللغة في التطبيقات التي يحتاجها مكون ASR إلى إدارة المصطلحات الخاصة بالمجال؛ على الرغم من أن تقنية التعرف على الكلام الحالية من أحدث توفر نتائج ممتازة للمجالات العامة، فإن التكيف مع القواميس أو المعانلات المتخصصة لا تزال مسألة مفتوحة. في هذا العمل، نقدم نهجا لتحسين الجمل تلقائيا، من كوربوس النص، والتي تطابق، كلاهما دلالة ومورفولوجية، مسرد المصطلحات (الكلمات أو الكلمات المركبة) المقدمة من قبل المستخدم. الهدف النهائي هو التكيف بسرعة نموذج اللغة لنظام ASR الهجين مع كمية محدودة من البيانات النصية داخل المجال من أجل التعامل بنجاح مع المجال اللغوي في متناول اليد؛ يتم توسيع مفردات النموذج الأساسي ومصممة خصيصا، مما يقلل من معدل OOV الناتج. يتم تقديم استراتيجيات اختيار البيانات القائمة على البذور المورفولوجية الضحلة والتوجيه الدلالي عبر Word2VEC ومناقشتها؛ يتكون الإعداد التجريبي في سيناريو تفسير في وقت واحد، حيث تم تصميم ASRS في ثلاث لغات للتعرف على شروط DomainSpecific (I.E. DENTITY). تظهر النتائج باستخدام مقاييس مختلفة (معدل OOV، WER، الدقة والتذكر) فعالية التقنيات المقترحة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

حققت المحولات التي تم تدريبها مسبقا على شركة متعددة اللغات، مثل MBERT و XLM-ROBERTA، قدرات نقل متبقية مثيرة للإعجاب. في إعداد نقل الطلقة الصفرية، يتم استخدام بيانات التدريب الإنجليزية فقط، ويتم تقييم النموذج الدقيق على لغة مستهدفة أخرى. على الرغم من أن هذا يعمل بشكل جيد بشكل مدهش، فقد تمت ملاحظة تباين كبير في الأداء اللغوي المستهدف بين مختلف عمليات التشغيل الدقيقة، وفي إعداد الطلقة الصفرية، لا توجد بيانات تطوير اللغة المستهدفة متاحة للتحديد بين نماذج متعددة ذات الضبط. اعتمد العمل المسبق على بيانات Dev الإنجليزية لتحديد بين النماذج التي تم ضبطها بشكل جيد مع معدلات التعلم المختلفة وعدد الخطوات وغيرها من أنواع التشعبات، والتي غالبا ما تؤدي إلى اختيارات فرعية نفسها. في هذه الورقة، نوضح أنه من الممكن تحديد نماذج أفضل باستمرار عند توفر كميات صغيرة من البيانات المشروحة بلغات محورية إضافية. نقترح نهجا للتعلم الآلي للاختيار النموذجي الذي يستخدم التمثيلات الداخلية للأنظمة ذات الطراز الدقيق للتنبؤ بقدراتها المتبادلة. في تجارب شاملة، نجد أن هذه الطريقة تختار باستمرار نماذج أفضل من بيانات التحقق من صحة اللغة الإنجليزية عبر عشرين لغة (بما في ذلك 8 لغات منخفضة الموارد)، وغالبا ما تحقق النتائج التي تتميز باختيار نموذج باستخدام بيانات تطوير اللغة المستهدفة.
يهدف تصنيف النص الخاضع للإشراف ضعيف إلى حثص نصوص النص من عدد قليل من كلمات البذور التي توفرها المستخدم. غالبية العمل العظمى من العمل السابق يفترض أن كلمات البذور عالية الجودة تعطى. ومع ذلك، فإن كلمات البذور المشروح للخبراء في بعض الأحيان غير تافهة لل توصل إلى ذلك. علاوة على ذلك، في إعداد التعلم الإشراف ضعيف، ليس لدينا أي وثيقة مسمى لقياس فعالية كلمات البذور، مما يجعل عملية اختيار كلمة البذور المشي في الظلام ". في هذا العمل، نقوم بإزالة الحاجة إلى كلمات البذور التي يديرها الخبراء من قبل كلمات البذور المرشحة الأولى (صاخبة) المرتبطة بأسماء الفئات. ثم تدريب نماذج مؤقتة بكلمات البذور المرشحة الفردية. أخيرا، نقدر معدل خطأ النماذج المؤقتة بطريقة غير منشأة. تتم إضافة كلمات البذور التي تسفر عن أدنى معدلات الخطأ المقدرة إلى مجموعة كلمات البذور النهائية. يوضح تقييم شامل لستة مهام التصنيف الثنائية على أربع مجموعات بيانات شائعة أن الطريقة المقترحة تتفوق على خط أساس باستخدام كلمات البذور اسم الفئة فقط والحصول على أداء مماثل كظرف باستخدام كلمات البذور المشروح من الخبراء.
تعتبر هذه الورقة مشكلة تكيف المجال غير المدعومة من أجل الترجمة الآلية العصبية (NMT)، حيث نفترض الوصول إلى نص أحادي فقط إما في المصدر أو اللغة المستهدفة في المجال الجديد. نقترح طريقة اختيار البيانات عبر اللغات لاستخراج الجمل داخل المجال في جانب اللغة المفقودة من كوربوس أحادية الأجل عام كبيرة. تقوم طريقةنا المقترحة بتدريب طبقة تكيفية على رأس بيرتف متعدد اللغات من خلال التعلم المتعرج عن تعايز التمثيل بين المصدر واللغة المستهدفة. ثم يتيح ذلك تحويل قابلية تحويل المجال بين اللغات بطريقة طلقة صفرية. بمجرد اكتشاف البيانات داخل المجال من قبل المصنف، يتم بعد ذلك تكييف نموذج NMT بالمجال الجديد من خلال مهام الترجمة التعلم المشتركة ومهام التمييز بين المجال. نقيم طريقة اختيار بياناتنا عبر اللغات لدينا على NMT عبر خمسة مجالات متنوعة في ثلاث أزواج لغوية، وكذلك سيناريو في العالم الحقيقي للترجمة Covid-19. تظهر النتائج أن أسلوبنا المقترح تتفوق على خطوط خطوط خطوط اختيار الاختيار الأخرى تصل إلى +1.5 درجة بلو.
تمكين السلوك التعرفي في وكلاء الحوار باللغة العربية هو جانب مهم في بناء نماذج المحادثة يشبه الإنسان. في حين أن معالجة اللغة العربية الطبيعية قد شهدت تطورات كبيرة في فهم اللغة الطبيعية (NLU) مع نماذج اللغة مثل أرابيرت، فإن توليد اللغة الطبيعية (NLG) ل ا تزال تحديا. تعد أوجه القصور النموذجية لنماذج فك تشفير NLG في المقام الأول إلى عدم وجود مجموعات البيانات العربية مناسبة لتدريب نماذج NLG مثل عوامل المحادثة. للتغلب على هذه المسألة، نقترح فك ترميز التركيب المستندة إلى المحولات مع معلمات أرابتير. من خلال تهيئة أوزان التشفير والكشف عن الأوزان المدربة مسبقا مسبقا، كان طرازنا قادرا على الاستفادة من نقل المعرفة وزيادة الأداء في توليد الاستجابة. لتمكين التعاطف في نموذج المحادثة لدينا، نربطها باستخدام مجموعة بيانات ArabithatheticTialogues وتحقيق الأداء العالي في توليد الاستجابة المتعاطفة. على وجه التحديد، حقق نموذجنا قيمة حيرة منخفضة تتراوح بين 17.0 وزيادة في 5 نقاط بلو مقارنة بالنموذج السابق للدولة السابقة. أيضا، تم تصنيف نموذجنا المقترح بشدة بنسبة 85 مقيم بشري، والتحقق من قادرته عالية في إظهار التعاطف مع توليد الاستجابات ذات الصلة والطلاقة في إعدادات المجال المفتوح.
تصف هذه الورقة النموذج المدمج للمهمة المشتركة SIGTYP 2021 التي تهدف إلى تحديد 18 لغة مختلفة عن تسجيلات الكلام.يتم تحويل معاملات CEPSTRAL Mel-تردد Mel المستمدة من الملفات الصوتية إلى طفرات، ثم تغذيها بعد ذلك في بنية CNN المستند إلى 50.حصل النموذج النه ائي على التحقق من الصحة واختبار بدلة 0.73 و 0.53، على التوالي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا