جيل النص هو مجال نشط للغاية في البحث في المجتمع اللغوي الحسابي.يعد تقييم النص الذي تم إنشاؤه مهمة صعبة وتم اقتراح نظريات ومقاييس متعددة على مر السنين.لسوء الحظ، يتم إدراج توليد النص والتقييم نسبيا نسبيا بسبب ندرة الموارد عالية الجودة في اللغات المختلطة من التعليمات البرمجية حيث يتم خلط الكلمات والعبارات من لغات متعددة في كلام واحد للنص والكلام.لمعالجة هذا التحدي، نقدم كوربا (المفصلي) لغرض لغة مختلطة شائعة على نطاق واسع هينجليشيلي (مزيج من اللغات الهندية والإنجليزية).يحتوي المفصلات على جمل هنشية التي تم إنشاؤها من قبل البشر بالإضافة إلى خوارزميتين تعتمد على القواعد يتوافق مع الجمل الهندية والإنجليزية الموازية.بالإضافة إلى ذلك، نوضح فعالية مقاييس التقييم المستخدمة على نطاق واسع على البيانات المختلطة من التعليمات البرمجية.ستسهل مجموعة بيانات المفصلات التقدم المحرز في مجال أبحاث توليد اللغة الطبيعية في اللغات المختلطة التعليمات البرمجية.
Text generation is a highly active area of research in the computational linguistic community. The evaluation of the generated text is a challenging task and multiple theories and metrics have been proposed over the years. Unfortunately, text generation and evaluation are relatively understudied due to the scarcity of high-quality resources in code-mixed languages where the words and phrases from multiple languages are mixed in a single utterance of text and speech. To address this challenge, we present a corpus (HinGE) for a widely popular code-mixed language Hinglish (code-mixing of Hindi and English languages). HinGE has Hinglish sentences generated by humans as well as two rule-based algorithms corresponding to the parallel Hindi-English sentences. In addition, we demonstrate the in- efficacy of widely-used evaluation metrics on the code-mixed data. The HinGE dataset will facilitate the progress of natural language generation research in code-mixed languages.
المراجع المستخدمة
https://aclanthology.org/
يمثل تحديا كبيرا في تحليل بيانات Me-Dia الاجتماعية التي تنتمي إلى لغات تستخدم البرنامج النصي غير الإنجليزي هو طبيعتها المختلطة من التعليمات البرمجية.قدمت أثر الحدث الذي أحدث طرازات تضمين حديثة تضمين تضمين الحديث (كل من أحادي الأحادي S.A.bert و Multil
الوصف التحليلي للمخططات هو منطقة بحثية ومهمة ذات العديد من التطبيقات في الأوساط الأكاديمية والصناعة.ومع ذلك، فقد تلقت هذه المهمة الصعبة اهتماما محدودا من مجتمع أبحاث اللغويات الحاسوبية.تقترح هذه الورقة Autochart، مجموعة بيانات كبيرة للوصف التحليلي لل
يظهر التطوير الحديث في NLP اتجاها قويا نحو تكرير النماذج المدربة مسبقا مع مجموعة بيانات خاصة بالمجال. هذا هو الحال بشكل خاص لتوليد الاستجابة حيث تلعب العاطفة دورا مهما. ومع ذلك، لا تزال مجموعات البيانات المتعاطفية الحالية صغيرة وتأخير الجهود البحثية
يكتب مطورو البرمجيات الكثير من التعليمات البرمجية المصدر والوثائق أثناء تطوير البرمجيات. جوهريا، غالبا ما يتذكر المطورون أجزاء من شفرة المصدر أو ملخصات التعليمات البرمجية التي كتبوها في الماضي أثناء تنفيذ البرامج أو توثيقها. لتقليل رمز المطور أو سلوك
تلعب اللغة المختلطة من التعليمات البرمجية دورا حاسما في الاتصالات في المجتمعات متعددة اللغات. على الرغم من أن النمو الأخير لمستخدمي الويب قد عززوا إلى حد كبير استخدام مثل هذه اللغات المختلطة، فإن الجيل الحالي لأنظمة الحوار مونولجة في المقام الأول. هذ