الترجمة الآلية للمدخلات المزدوجة التي تم إنشاؤها بواسطة المستخدمين إلى اللغة الإنجليزية ذات أهمية حاسمة في التطبيقات مثل البحث على شبكة الإنترنت والإعلانات المستهدفة.نحن نتطلع إلى ندرة البيانات التدريبية الموازية لتدريب هذه النماذج عن طريق تصميم استراتيجية لتحويل مصادر البيانات المتوازية الموجزة غير المزججة الحالية إلى البيانات الموازية المختلطة.نقدم إجراء يستند إلى M-Bert إلى مكونه الأساسي الذي يمكن أن يكون نموذج وضع العلامات ثلاثية التسلسلات، والتي يمكن تدريبها على Corpus محدود مختلط رمزيا وحدها.نعرض زيادة بنسبة 5.8 نقطة في بلو على الجمل المختلطة شفرة الشفرة من خلال تدريب نموذج الترجمة باستخدام استراتيجية تكبير البيانات الخاصة بنا حول مهمة الترجمة من اللغة الهندية-الإنجليزية المختلطة.
Machine translation of user-generated code-mixed inputs to English is of crucial importance in applications like web search and targeted advertising. We address the scarcity of parallel training data for training such models by designing a strategy of converting existing non-code-mixed parallel data sources to code-mixed parallel data. We present an m-BERT based procedure whose core learnable component is a ternary sequence labeling model, that can be trained with a limited code-mixed corpus alone. We show a 5.8 point increase in BLEU on heavily code-mixed sentences by training a translation model using our data augmentation strategy on an Hindi-English code-mixed translation task.
References used
https://aclanthology.org/
Non-autoregressive Transformer is a promising text generation model. However, current non-autoregressive models still fall behind their autoregressive counterparts in translation quality. We attribute this accuracy gap to the lack of dependency model
Unsupervised neural machine translation (UNMT) that relies solely on massive monolingual corpora has achieved remarkable results in several translation tasks. However, in real-world scenarios, massive monolingual corpora do not exist for some extreme
Code-mixing has become a moving method of communication among multilingual speakers. Most of the social media content of the multilingual societies are written in code-mixed text. However, most of the current translation systems neglect to convert co
Extracting keyphrases that summarize the main points of a document is a fundamental task in natural language processing. Supervised approaches to keyphrase extraction(KPE) are largely developed based on the assumption that the training data is fully
This paper describes the participation of the UoB-NLP team in the ProfNER-ST shared subtask 7a. The task was aimed at detecting the mention of professions in social media text. Our team experimented with two methods of improving the performance of pr