تلعب اللغة المختلطة من التعليمات البرمجية دورا حاسما في الاتصالات في المجتمعات متعددة اللغات. على الرغم من أن النمو الأخير لمستخدمي الويب قد عززوا إلى حد كبير استخدام مثل هذه اللغات المختلطة، فإن الجيل الحالي لأنظمة الحوار مونولجة في المقام الأول. هذه الزيادة في استخدام اللغة المختلطة من التعليمات البرمجية قد دفعت أنظمة الحوار بلغة مماثلة. نقدم عملنا في توليد الحوار المختلط من التعليمات البرمجية، وهي مهمة غير مستكشفة في اللغات المختلطة من التعليمات البرمجية، وتوليد الكلام في اللغة المختلطة من التعليمات البرمجية بدلا من لغة واحدة في كثير من الأحيان الإنجليزية فقط. نقدم لجنة اصطناعية جديدة في مزيج التعليمات البرمجية للحوائط، CM-DAYAYDIALOG، عن طريق تحويل كوربوس حوار موجود باللغة الإنجليزية فقط إلى Corpus مختلطة باللغة الهندية. بعد ذلك اقترحنا نهجا أساسيا حيث نظهر فعالية استخدام MBART مثل محولات تسلسل تسلسل متعدد اللغات لتوليد الحوار المختلط. يمكن لأفضل طرازات الحوار الأداء لدينا إجراء محادثات متماسكة في اللغة المختلطة الهندية - الإنجليزية كما تم تقييمها بواسطة المقاييس البشرية والآلية التي تحدد معايير جديدة لمهمة توليد الحوار المختلط من التعليمات البرمجية.
Code-mixed language plays a crucial role in communication in multilingual societies. Though the recent growth of web users has greatly boosted the use of such mixed languages, the current generation of dialog systems is primarily monolingual. This increase in usage of code-mixed language has prompted dialog systems in a similar language. We present our work in Code-Mixed Dialog Generation, an unexplored task in code-mixed languages, generating utterances in code-mixed language rather than a single language that is more often just English. We present a new synthetic corpus in code-mix for dialogs, CM-DailyDialog, by converting an existing English-only dialog corpus to a mixed Hindi-English corpus. We then propose a baseline approach where we show the effectiveness of using mBART like multilingual sequence-to-sequence transformers for code-mixed dialog generation. Our best performing dialog models can conduct coherent conversations in Hindi-English mixed language as evaluated by human and automatic metrics setting new benchmarks for the Code-Mixed Dialog Generation task.
References used
https://aclanthology.org/
Endowing a task-oriented dialogue system with adaptiveness to user personality can greatly help improve the performance of a dialogue task. However, such a dialogue system can be practically challenging to implement, because it is unclear how user pe
Offensive language detection (OLD) has received increasing attention due to its societal impact. Recent work shows that bidirectional transformer based methods obtain impressive performance on OLD. However, such methods usually rely on large-scale we
Hate speech and profanity detection suffer from data sparsity, especially for languages other than English, due to the subjective nature of the tasks and the resulting annotation incompatibility of existing corpora. In this study, we identify profane
We introduce HateBERT, a re-trained BERT model for abusive language detection in English. The model was trained on RAL-E, a large-scale dataset of Reddit comments in English from communities banned for being offensive, abusive, or hateful that we hav
Hateful memes pose a unique challenge for current machine learning systems because their message is derived from both text- and visual-modalities. To this effect, Facebook released the Hateful Memes Challenge, a dataset of memes with pre-extracted te