ترغب بنشر مسار تعليمي؟ اضغط هنا

نماذج الدلالات الدلالية التوزيعية دقيقة لغات ذات صلة عن كثب

Fine-tuning Distributional Semantic Models for Closely-Related Languages

242   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة مقارنة أداء ثلاث نماذج: SGNS (أخذ العينات السلبية Skip-Gram) والإصدارات المعززة من SVD (تحلل القيمة المفرد) و PPMI (معلومات متبادلة إيجابية) على مهمة تشابه كلمة.نحن نركز بشكل خاص على دور ضبط فرط التشعيم من أجل الهندية القائمة على التوصيات المقدمة في العمل السابق (على اللغة الإنجليزية).تظهر نتائجنا أن هناك تفضيلات محددة للغة لهذه الفرط.نحن نقدم أفضل إعدادات للهيكلية إلى مجموعة من اللغات ذات العلاقة: البنجابية، الغوجاراتية والمريثي مع نتائج مواتية.نجد أيضا أن نموذج SVD يتم ضبطه بشكل مناسب يتفوق على SGNS لمعظم لغاتنا وهو أيضا أكثر قوة في إعداد الموارد المنخفضة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم نسخة ممتدة من الأداة التي وضعت لحساب المسافات اللغوية وغير المتكافئة في التصور السمعي للغات ذات الصلة عن كثب.جنبا إلى جنب مع تقييم المقاييس المتاحة في الإصدار الأولي من الأداة، نقدم Word Adaptation Enterpy كمقيدي إضافي من عدم التماثل اللغوي.يتم التحقق من صحة المتنبئين المحتملين من الوضوح من الكلام مع الأداء البشري في تجارب التعرف على المعترف بها من غير المنطوقة في البلغارية والروسية.يتم إيلاء اهتمام خاص لمساهمات مختلفة من الحرث الحروفية والساوجة في التقويم الشفوي.باستخدام Incom.py 2.0 من الممكن حساب وتصور وصلاحية أساليب قياس ثلاث طرق للمسافات اللغوية والمسافات اللغوية وكذلك تنفيذ تحليلات الانحدار في الوضوء الكلام بين اللغات ذات الصلة.
تستند النجاح الأكثر نجاحا إلى الترجمة الآلية العصبية (NMT) عند توفر بيانات التدريب أحادية غير متوفرة فقط، تسمى الترجمة الآلية غير المدعية، على الترجمة الخلفية حيث يتم إنشاء ترجمات صاخبة لتحويل المهمة إلى واحدة تحت إشراف.ومع ذلك، فإن الترجمة الخلفية ه ي باهظة الثمن بشكل حسابي وغير فعال.يستكشف هذا العمل نهجا جديدا وفعالا ل NMT غير المدعوم.محول، تهيئته مع أوزان نموذج اللغة عبر اللغات، يتم ضبطه بشكل جيد على بيانات أحادية الأجل من اللغة المستهدفة من خلال التعلم المشترك على إعادة صياغة وإنهاء هدف AutoNCoder.تتم التجارب على مجموعات بيانات WMT للغة الألمانية والفرنسية والإنجليزية والرومانية الإنجليزية.النتائج تنافسية نماذج NMT الأساسية القوية غير الخاضعة للرقابة الوطنية، خاصة لغلا المصادر ذات الصلة عن كثب (الألمانية) مقارنة بأكثر اعتراضا (رومانية، فرنسية)، بينما تتطلب وقتا أقل من حجم التدريب.
تهدف أساس التأريض اللغوي (TLG) إلى توطين شريحة فيديو في فيديو غير جذاب بناء على وصف لغة طبيعية. لتخفيف التكلفة الباهظة الثمن التوضيحية للشروح اليدوية لملصقات الحدود الزمنية، نحن مخصصة للإعداد الإشراف ضعيف، حيث يتم توفير أوصاف على مستوى الفيديو فقط لل تدريب. تولد معظم الأساليب الإشرافية الأكثر إشرافا ضعفا مجموعة شريحة مرشحة وتعلم محاذاة متعددة الوسائط من خلال إطار مستمد من MIL. ومع ذلك، يتم فقد الهيكل الزمني للفيديو وكذلك الدلالات المعقدة في الجملة أثناء التعلم. في هذا العمل، نقترح إطار رواية خالية من المرشحين: شبكة محاذاة الدلالات الدلالية الجميلة (FSAN)، ل TLG الإشراف ضعيف. بدلا من عرض الجملة واللحظات المرشحة ككل، يتعلم FSAN محاذاة الدلالات المسلقة عبر الأقراص من قبل وحدة التفاعل عبر مشروط تكرارية، وتولد خريطة محاذاة من الدلالات القابلة للتكنولوجيا الراقية، وتشغيل التأريض مباشرة على أعلى الخريطة. يتم إجراء تجارب واسعة على معايير اثنين واستخدامها على نطاق واسع: تعويضات ActivityNet، و Didemo، حيث تحقق FSAN لدينا أداء حديثة من بين الفن.
يتعين على نماذج اللغة المدربة مسبقا (PRLM) لإدارة وحدات الإدخال بعناية عند التدريب على نص كبير جدا مع مفردات تتكون من ملايين الكلمات. أظهرت الأعمال السابقة أن دمج معلومات المسيح على مستوى الأمان بشأن الكلمات المتتالية في التدريب المسبق يمكن أن تحسن أ داء PRLMS. ومع ذلك، بالنظر إلى أن أدلة المسكنات المستفادة مقدمة وإثباتها في التدريب المسبق، فإن الطرق السابقة تستغرق وقتا طويلا ونقص المرونة. لتخفيف الإزعاج، تقدم هذه الورقة طريقة رواية تمتد دقيقة لضبط PRLMS، مما يسهل إعداد SPES يتم تحديده على تكيفه بواسطة مهام معينة من المصب أثناء مرحلة الضبط الجميلة. بالتفصيل، سيتم تجزئة أي جمل تتم معالجتها من قبل PRLM في تمديدات متعددة وفقا لقاموس ما قبل العينات. ثم سيتم إرسال معلومات التجزئة من خلال وحدة CNN الهرمية مع مخرجات التمثيل من PRLM وتولد في نهاية المطاف تمثيلا محسن. تشير التجارب على معيار الغراء إلى أن طريقة ضبط الدقيقة المقترحة تعزز بشكل كبير PRLM، وفي الوقت نفسه، تقدم المزيد من المرونة بطريقة فعالة.
تقارير هذه الورقة أنظمة الترجمة الآلية المقدمة من فريق IIITT للغة الإنجليزية → أزواج اللغة المهاراتية والإنجليزية أزواج LORESMT 2021 المشاركة المشتركة.تركز المهمة على الحصول على ترجمات استثنائية لغات منخفضة بالموارد منخفضة إلى حد ما مثل الأيرلندية وا لماراثية.نحن نايت Tune Endertrans، نموذج NMT متعدد اللغات مسبقا للغة الإنجليزية → Marathi، باستخدام Corpus الموازي الخارجي كمدخل للتدريب الإضافي.لقد استخدمنا نموذج English Helsinki-NLP Opus Mt للزواج باللغة الأخير.تؤدي نهجنا إلى نتائج واعدة نسبيا على مقاييس بلو.تحت اسم الفريق IIITT، تصنيف أنظمتنا في المرتبة 1، 1، و 2 باللغة الإنجليزية → الماراثي، الأيرلندية → الإنجليزية، والإنجليزية → الأيرلندية على التوالي.يتم نشر رموز أنظمتنا 1.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا