كلمات البذور تستند إلى اختيار البيانات للتكيف نموذج اللغة


الملخص بالعربية

نحن نتطلع إلى مشكلة تخصيص نموذج اللغة في التطبيقات التي يحتاجها مكون ASR إلى إدارة المصطلحات الخاصة بالمجال؛ على الرغم من أن تقنية التعرف على الكلام الحالية من أحدث توفر نتائج ممتازة للمجالات العامة، فإن التكيف مع القواميس أو المعانلات المتخصصة لا تزال مسألة مفتوحة. في هذا العمل، نقدم نهجا لتحسين الجمل تلقائيا، من كوربوس النص، والتي تطابق، كلاهما دلالة ومورفولوجية، مسرد المصطلحات (الكلمات أو الكلمات المركبة) المقدمة من قبل المستخدم. الهدف النهائي هو التكيف بسرعة نموذج اللغة لنظام ASR الهجين مع كمية محدودة من البيانات النصية داخل المجال من أجل التعامل بنجاح مع المجال اللغوي في متناول اليد؛ يتم توسيع مفردات النموذج الأساسي ومصممة خصيصا، مما يقلل من معدل OOV الناتج. يتم تقديم استراتيجيات اختيار البيانات القائمة على البذور المورفولوجية الضحلة والتوجيه الدلالي عبر Word2VEC ومناقشتها؛ يتكون الإعداد التجريبي في سيناريو تفسير في وقت واحد، حيث تم تصميم ASRS في ثلاث لغات للتعرف على شروط DomainSpecific (I.E. DENTITY). تظهر النتائج باستخدام مقاييس مختلفة (معدل OOV، WER، الدقة والتذكر) فعالية التقنيات المقترحة.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث