الترجمة الآلية للمدخلات المزدوجة التي تم إنشاؤها بواسطة المستخدمين إلى اللغة الإنجليزية ذات أهمية حاسمة في التطبيقات مثل البحث على شبكة الإنترنت والإعلانات المستهدفة.نحن نتطلع إلى ندرة البيانات التدريبية الموازية لتدريب هذه النماذج عن طريق تصميم استراتيجية لتحويل مصادر البيانات المتوازية الموجزة غير المزججة الحالية إلى البيانات الموازية المختلطة.نقدم إجراء يستند إلى M-Bert إلى مكونه الأساسي الذي يمكن أن يكون نموذج وضع العلامات ثلاثية التسلسلات، والتي يمكن تدريبها على Corpus محدود مختلط رمزيا وحدها.نعرض زيادة بنسبة 5.8 نقطة في بلو على الجمل المختلطة شفرة الشفرة من خلال تدريب نموذج الترجمة باستخدام استراتيجية تكبير البيانات الخاصة بنا حول مهمة الترجمة من اللغة الهندية-الإنجليزية المختلطة.
Machine translation of user-generated code-mixed inputs to English is of crucial importance in applications like web search and targeted advertising. We address the scarcity of parallel training data for training such models by designing a strategy of converting existing non-code-mixed parallel data sources to code-mixed parallel data. We present an m-BERT based procedure whose core learnable component is a ternary sequence labeling model, that can be trained with a limited code-mixed corpus alone. We show a 5.8 point increase in BLEU on heavily code-mixed sentences by training a translation model using our data augmentation strategy on an Hindi-English code-mixed translation task.
المراجع المستخدمة
https://aclanthology.org/
محول غير تلقائي هو نموذج توليد نص واعد.ومع ذلك، لا تزال النماذج الحالية غير التلقائية التي لا تزال تقف وراء نظرائها التلقائي في جودة الترجمة.نحن نعزو فجوة الدقة هذه إلى عدم وجود نمذجة التبعية بين مدخلات فك التشفير.في هذه الورقة، نقترح CNAT، والتي تتع
حققت الترجمة الآلية العصبية غير الخاضعة للرقابة (UNMT) التي تعتمد فقط على Glassive Monolingual Corpora نتائج ملحوظة في العديد من مهام الترجمة.ومع ذلك، في سيناريوهات العالم الواقعي، لا توجد سورانيا أحادية الأبعاد الضخمة لبعض لغات الموارد المنخفضة للغا
أصبح خلط التعليمات البرمجية طريقة متحركة للاتصال بين مكبرات الصوت متعددة اللغات. تتم كتابة معظم محتوى وسائل التواصل الاجتماعي للمجتمعات متعددة اللغات في النص المختلط من التعليمات البرمجية. ومع ذلك، فإن معظم أنظمة الترجمة الحالية إهمال تحويل النصوص ال
تعد استخراج أجهزة القياسات الرائعة التي تلخص النقاط الرئيسية الوثيقة مهمة أساسية في معالجة اللغة الطبيعية.الأساليب الخاضعة للإشراف لاستخراج الصوت (KPE) تم تطويرها إلى حد كبير بناء على افتراض أن البيانات التدريبية مشروحة بالكامل.ومع ذلك، نظرا لصعوبة ع
تصف هذه الورقة مشاركة فريق UOB-NLP في SubTask SubTask المشترك 7A.كانت المهمة تهدف إلى اكتشاف ذكر المهن في نص وسائل التواصل الاجتماعي.جرب فريقنا بطريقتين لتحسين أداء النماذج المدربة مسبقا: على وجه التحديد، جربنا مع زيادة البيانات من خلال الترجمة ودمج