تلعب اللغة المختلطة من التعليمات البرمجية دورا حاسما في الاتصالات في المجتمعات متعددة اللغات. على الرغم من أن النمو الأخير لمستخدمي الويب قد عززوا إلى حد كبير استخدام مثل هذه اللغات المختلطة، فإن الجيل الحالي لأنظمة الحوار مونولجة في المقام الأول. هذه الزيادة في استخدام اللغة المختلطة من التعليمات البرمجية قد دفعت أنظمة الحوار بلغة مماثلة. نقدم عملنا في توليد الحوار المختلط من التعليمات البرمجية، وهي مهمة غير مستكشفة في اللغات المختلطة من التعليمات البرمجية، وتوليد الكلام في اللغة المختلطة من التعليمات البرمجية بدلا من لغة واحدة في كثير من الأحيان الإنجليزية فقط. نقدم لجنة اصطناعية جديدة في مزيج التعليمات البرمجية للحوائط، CM-DAYAYDIALOG، عن طريق تحويل كوربوس حوار موجود باللغة الإنجليزية فقط إلى Corpus مختلطة باللغة الهندية. بعد ذلك اقترحنا نهجا أساسيا حيث نظهر فعالية استخدام MBART مثل محولات تسلسل تسلسل متعدد اللغات لتوليد الحوار المختلط. يمكن لأفضل طرازات الحوار الأداء لدينا إجراء محادثات متماسكة في اللغة المختلطة الهندية - الإنجليزية كما تم تقييمها بواسطة المقاييس البشرية والآلية التي تحدد معايير جديدة لمهمة توليد الحوار المختلط من التعليمات البرمجية.
Code-mixed language plays a crucial role in communication in multilingual societies. Though the recent growth of web users has greatly boosted the use of such mixed languages, the current generation of dialog systems is primarily monolingual. This increase in usage of code-mixed language has prompted dialog systems in a similar language. We present our work in Code-Mixed Dialog Generation, an unexplored task in code-mixed languages, generating utterances in code-mixed language rather than a single language that is more often just English. We present a new synthetic corpus in code-mix for dialogs, CM-DailyDialog, by converting an existing English-only dialog corpus to a mixed Hindi-English corpus. We then propose a baseline approach where we show the effectiveness of using mBART like multilingual sequence-to-sequence transformers for code-mixed dialog generation. Our best performing dialog models can conduct coherent conversations in Hindi-English mixed language as evaluated by human and automatic metrics setting new benchmarks for the Code-Mixed Dialog Generation task.
المراجع المستخدمة
https://aclanthology.org/
في هذه المهمة المشتركة، نسعى إلى الفرق المشاركة للتحقيق في العوامل التي تؤثر على جودة أنظمة توليد النص المختلط من التعليمات البرمجية.نقوم بتوليد جمل هينجليشقة مختلطة من التعليمات البرمجية باستخدام نهجين متميزين وتوظفوا النواحي البشري لتقييم جودة الجي
أدى الاستخدام المتزايد لمواقع وسائل التواصل الاجتماعي في بلدان مثل الهند إلى مجلدات كبيرة من البيانات المختلطة.يمكن أن يوفر تحليل المعنويات لهذه البيانات رؤى غير متكاملة في وجهات نظر الناس والآراء.غالبا ما تكون البيانات المختلطة من التعليمات البرمجية
جيل النص هو مجال نشط للغاية في البحث في المجتمع اللغوي الحسابي.يعد تقييم النص الذي تم إنشاؤه مهمة صعبة وتم اقتراح نظريات ومقاييس متعددة على مر السنين.لسوء الحظ، يتم إدراج توليد النص والتقييم نسبيا نسبيا بسبب ندرة الموارد عالية الجودة في اللغات المختل
يمثل تحديا كبيرا في تحليل بيانات Me-Dia الاجتماعية التي تنتمي إلى لغات تستخدم البرنامج النصي غير الإنجليزي هو طبيعتها المختلطة من التعليمات البرمجية.قدمت أثر الحدث الذي أحدث طرازات تضمين حديثة تضمين تضمين الحديث (كل من أحادي الأحادي S.A.bert و Multil
أظهرت نماذج الرؤية اللغوية المدربة مسبقا أداء رائعا حول مهمة الإجابة على السؤال المرئي (VQA). ومع ذلك، يتم تدريب معظم النماذج المدربة مسبقا من خلال النظر فقط في التعلم أحادي الأونلينغ، وخاصة اللغة الغنية بالموارد مثل اللغة الإنجليزية. تدريب هذه النما