ترغب بنشر مسار تعليمي؟ اضغط هنا

تكبير البيانات للحصول على رسم الخرائط Grapheme-To-Vooneme منخفضة

Data augmentation for low-resource grapheme-to-phoneme mapping

572   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نستكشف مقاربة عصبية بسيطة للغاية لتعيين تقويم الإملاءات إلى النسخ الصوتي في سياق منخفض الموارد.الفكرة الأساسية هي البدء من نظام أساسي وتركيز جميع الجهود بشأن تكبير البيانات.سوف نرى أن بعض التقنيات تعمل، ولكن البعض الآخر لا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

غالبا ما يتحلل ترجمة لغة الإشارة (SLT) في التعرف على الفيديو إلى اللمعان والترجمة النصية إلى النص، حيث يكون اللمعان سلسلة من الكلمات اللغوية الموضحة باللغة المنطوقة بالترتيب الذي يتم فيه توقيعه.نحن نركز هنا على الترجمة اللامع إلى النص، والتي نعلمها ك مشكلة ترجمة آلية منخفضة الموارد (NMT).ومع ذلك، على عكس المورد المنخفض التقليدي NMT، تختلف الترجمة من اللمعان إلى النص لأن أزواج النص اللامع في كثير من الأحيان تحتوي على تداخل معجمي أعلى وانخفاض التداخل النحوي أقل من أزواج اللغات المنطوقة.نستفصل هذا التداخل المعجمي والتعامل مع الاختلاف النحوي عن طريق اقتراح اثنين من الاستدلال المستندة إلى القواعد التي تولد أزواج نصية متوازية من النصوص الزائفة من نص اللغة المنطوقة غير المنطوقة.من خلال التدريب المسبق على هذه البيانات الاصطناعية، نحسن الترجمة من لغة الإشارة الأمريكية (ASL) إلى لغة الإشارة الإنجليزية والألمانية إلى الألمانية بنسبة تصل إلى 3.14 و 2.20 بلو، على التوالي.
إلى جانب توفر مجموعات بيانات واسعة النطاق، مكنت هياكل التعلم العميق التقدم السريع في مهمة الإجابة على السؤال.ومع ذلك، فإن معظم مجموعات البيانات هذه باللغة الإنجليزية، وأدائيات النماذج متعددة اللغات الحديثة أقل بكثير عند تقييمها على البيانات غير الإنج ليزية.نظرا لتكاليف جمع البيانات العالية، فهي ليست واقعية للحصول على بيانات مشروحة لكل لغة رغبة واحدة لدعمها.نقترح طريقة لتحسين السؤال المتبادل الإجابة على الأداء دون الحاجة إلى بيانات مشروح إضافية، واستفادة نماذج توليد السؤال لإنتاج عينات اصطناعية في أزياء متصلة.نظهر أن الطريقة المقترحة تتيح التوفيق بشكل كبير على خطوط الأساس المدربين على بيانات اللغة الإنجليزية فقط.نبلغ عن أحدث طرف جديد في أربع مجموعات بيانات: MLQA و Xquad و Squad-It و PIAF (FR).
في هذه الورقة، نحقق في عوامل القيادة وراء التسلسل، وهي طريقة بسيطة ولكنها فعالة من البيانات للترجمة الآلية العصبية منخفضة الموارد.تشير تجاربنا إلى أن سياق الخطاب غير مرجح هو سبب تحسين تسلسل بلو من قبل حوالي +1 عبر أربع أزواج لغوية.بدلا من ذلك، نوضح أ ن التحسن يأتي من ثلاثة عوامل أخرى لا علاقة لها بالحبال: تنوع السياق، وتنوع الطول، و (إلى حد أقل) يتحول الموقف.
في حين أن Framenet تعتبر على نطاق واسع كمورد غني من الدلالات في معالجة اللغات الطبيعية، فإن النقد الرئيسي يتعلق بعدم وجود تغطية وندرة نسبية لبياناتها المسمدة مقارنة بالموارد المعمارية الأخرى المستخدمة مثل Propbank و Verbnet. تقارير الورقة هذه عن دراس ة تجريبية لمعالجة هذه الفجوات. نقترح نهج تكبير البيانات، والذي يستخدم التعليق التوضيحي الخاص بالإطار الحالي لإشراف الوحدات المعجمية الأخرى تلقائيا من نفس الإطار الذي يتم الكشف عنه. يحدد نهجنا القائم على القواعد فكرة الوحدة المعجمية الشقيقة ** وإنشاء بيانات معدنية خاصة بالإطار للتدريب. نقدم تجارب على وضع علامات الدور الدلالية الإطارية التي توضح أهمية تكبير البيانات هذا: نحصل على تحسن كبير في النتائج السابقة لتعريف الإطار وتحديد الوسيطة من أجل Framenet، والاستفادة من كل من النص التوضيحية والتعمادي بموجب Framenet. تسليط نتائج نتائجنا على زيادة البيانات بقيمة إنشاء الموارد التلقائي للنماذج المحسنة في تحليل الإطار الدلالي.
تصف هذه الورقة التقديم من قبل الفريق من قسم اللغويات الحاسوبية، جامعة زيوريخ، إلى مهمة تحويل Grapheme-To-PhoneMe متعددة اللغات 1 من تحدي Sigmorphon 2021 في الإعدادات المنخفضة والمتوسطة. التقديم هو اختلاف في نظامنا 2020 G2P، الذي يعمل كأساس لتحدي هذا العام. النظام عبارة عن محول عصبي يعمل على إجراءات تحرير صريحة ويتم تدريبه على التعلم التقليد. لهذا التحدي، جربنا التغييرات التالية: أ) شرائح صوتية تنبعث منها بدلا من صوتيات الشخصيات الفردية، ب) تسرب حرف الإدخال، ج) فك تشفير Mogrovifier LSTM (Melis et al.، 2019)، D) إثراء مدخلات وحدة فك الترميز حضر حاليا حرف الإدخال، ه) تشفير Bilstm الموازية، و) جدولة حجم الدفعة التكيفية. في الإعداد المنخفض، تحسن أفضل فرمنا على الأساس، ومع ذلك، في الإعداد المتوسطة، كان الأساس أقوى في المتوسط، على الرغم من أن تحسينات بعض اللغات يمكن ملاحظتها.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا