ترغب بنشر مسار تعليمي؟ اضغط هنا

تقييم الجودة للنص الهندي المزود بالموارد المنخفضة للموارد المنخفضة

Quality Evaluation of the Low-Resource Synthetically Generated Code-Mixed Hinglish Text

510   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه المهمة المشتركة، نسعى إلى الفرق المشاركة للتحقيق في العوامل التي تؤثر على جودة أنظمة توليد النص المختلط من التعليمات البرمجية.نقوم بتوليد جمل هينجليشقة مختلطة من التعليمات البرمجية باستخدام نهجين متميزين وتوظفوا النواحي البشري لتقييم جودة الجيل.نقترحان اثنين من الترقيع، والتنبؤ بتصويت الجودة وتنبؤ الخلاف المعلقين في مجموعة بيانات الهنزيكية الاصطناعية.ستقدم التسكير الفرعي المقترح إلى إحالة المنطق والاضطرابات للعوامل التي تؤثر على الجودة والإدراك البشري للنص المزيج من التعليمات البرمجية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تلعب اللغة المختلطة من التعليمات البرمجية دورا حاسما في الاتصالات في المجتمعات متعددة اللغات. على الرغم من أن النمو الأخير لمستخدمي الويب قد عززوا إلى حد كبير استخدام مثل هذه اللغات المختلطة، فإن الجيل الحالي لأنظمة الحوار مونولجة في المقام الأول. هذ ه الزيادة في استخدام اللغة المختلطة من التعليمات البرمجية قد دفعت أنظمة الحوار بلغة مماثلة. نقدم عملنا في توليد الحوار المختلط من التعليمات البرمجية، وهي مهمة غير مستكشفة في اللغات المختلطة من التعليمات البرمجية، وتوليد الكلام في اللغة المختلطة من التعليمات البرمجية بدلا من لغة واحدة في كثير من الأحيان الإنجليزية فقط. نقدم لجنة اصطناعية جديدة في مزيج التعليمات البرمجية للحوائط، CM-DAYAYDIALOG، عن طريق تحويل كوربوس حوار موجود باللغة الإنجليزية فقط إلى Corpus مختلطة باللغة الهندية. بعد ذلك اقترحنا نهجا أساسيا حيث نظهر فعالية استخدام MBART مثل محولات تسلسل تسلسل متعدد اللغات لتوليد الحوار المختلط. يمكن لأفضل طرازات الحوار الأداء لدينا إجراء محادثات متماسكة في اللغة المختلطة الهندية - الإنجليزية كما تم تقييمها بواسطة المقاييس البشرية والآلية التي تحدد معايير جديدة لمهمة توليد الحوار المختلط من التعليمات البرمجية.
نترجم نص مغلق معروف مقدما ومتوفر في العديد من اللغات في لغة موارد جديدة منخفضة للغاية. تعتمد معظم جهود الترجمة البشرية اتباع نهج بوابة لترجمة الصفحات / الفصول على التوالي، والتي قد لا تناسب الترجمة الآلية. قارنا النهج القائم على الجزء الذي يحسن التما سك النص محليا مع نهج أخذ العينات العشوائية التي تزيد من تغطية النص على مستوى العالم. تظهر نتائجنا أن نهج أخذ العينات العشوائية يؤدي بشكل أفضل. عند التدريب على كوربوس البذور من ~1000 خطوط من الكتاب المقدس والاختبار على بقية الكتاب المقدس (~30،000 خطوط)، يعطي أخذ العينات العشوائية مكسب أداء من +11.0 بلو باستخدام اللغة الإنجليزية كمورد منخفضة مقلدة، و +4.9 بلو باستخدام Pokomchi الشرقية، لغة المايا. علاوة على ذلك، نقارن ثلاث طرق لتحديث نماذج الترجمة الآلية مع زيادة كمية البيانات التي تم تحريرها البشرية من خلال التكرارات. نجد أن إضافة بيانات تم تحريرها حديثا إلى التدريب بعد تحديث المفردات دون الإشراف الذاتي يؤدي الأفضل. نقترح خوارزمية للإنسان والآلة للعمل معا بسلاسة لترجمة نص مغلق إلى لغة موارد منخفضة للغاية.
أصبح أكبر انفجار أفضل في عدد المعلمات في الشبكات العصبية العميقة جعلته صعبة بشكل متزايد لجعل الشبكات الحديثة التي يمكن الوصول إليها في البيئات المقيدة لحسابها. أخذت تقنيات ضغط الأهمية المتجددة كوسيلة لسد الفجوة. ومع ذلك، فإن تقييم المفاضلات المتكبدة من خلال تقنيات الضغط الشعبية قد تركزت على مجموعات بيانات عالية الموارد. في هذا العمل، نعتبر بدلا من ذلك تأثير الضغط في نظام محدود من البيانات. نقدم مصطلح رابط مزدوج الموارد المنخفضة للإشارة إلى حدوث قيود البيانات ويحسب قيود الموارد. هذا هو إعداد شائع لبرنامج NLP لغات الموارد المنخفضة، ومع ذلك، تتم دراسة المفاضلات في الأداء بشكل سيء. يقدم عملنا رؤى مفاجئة في العلاقة بين القدرات والتعميم في الأنظمة المحدودة البيانات لمهمة الترجمة الآلية. تجاربنا على حجم تشذيب الترجمات من الإنجليزية إلى يوروبا، هاوسا، إغيبو وألماني تظهر أنه في أنظمة الموارد المنخفضة، تحافظ Sparsity على أداء على جمل متكررة ولكن لها تأثير متباين على النادر. ومع ذلك، فإنه يعمل على تحسين نوبات التوزيع، وخاصة بالنسبة لمجموعات البيانات المميزة للغاية عن توزيع التدريب. تشير نتائجنا إلى أن Sparsity يمكن أن تلعب دورا مفيدا في الحد من حفظ سمات التردد المنخفضة، وبالتالي يقدم حلا واعدا للربط المزدوج الموارد المنخفضة.
جيل النص هو مجال نشط للغاية في البحث في المجتمع اللغوي الحسابي.يعد تقييم النص الذي تم إنشاؤه مهمة صعبة وتم اقتراح نظريات ومقاييس متعددة على مر السنين.لسوء الحظ، يتم إدراج توليد النص والتقييم نسبيا نسبيا بسبب ندرة الموارد عالية الجودة في اللغات المختل طة من التعليمات البرمجية حيث يتم خلط الكلمات والعبارات من لغات متعددة في كلام واحد للنص والكلام.لمعالجة هذا التحدي، نقدم كوربا (المفصلي) لغرض لغة مختلطة شائعة على نطاق واسع هينجليشيلي (مزيج من اللغات الهندية والإنجليزية).يحتوي المفصلات على جمل هنشية التي تم إنشاؤها من قبل البشر بالإضافة إلى خوارزميتين تعتمد على القواعد يتوافق مع الجمل الهندية والإنجليزية الموازية.بالإضافة إلى ذلك، نوضح فعالية مقاييس التقييم المستخدمة على نطاق واسع على البيانات المختلطة من التعليمات البرمجية.ستسهل مجموعة بيانات المفصلات التقدم المحرز في مجال أبحاث توليد اللغة الطبيعية في اللغات المختلطة التعليمات البرمجية.
في هذا العمل، نحقق في أساليب المهمة الصعبة المتمثلة في الترجمة بين أزواج لغة الموارد المنخفضة التي تظهر بعض مستوى التشابه.على وجه الخصوص، نعتبر فائدة نقل التعلم للترجمة بين العديد من لغات الموارد المنخفضة الأوروبية من الهند من الأسر الجرمانية والروما نسية.على وجه الخصوص، نبني اثنين من الطبقات الرئيسية من النظم القائمة على النقل لدراسة كيفية استخدام ترابط الأداء الترجمة.النظام الأساسي يضم النموذج الذي تم تدريبه مسبقا على زوج لغة ذات صلة ونظام قابل للتناقض بشكل جيد-قم بإلغاء التدريب مسبقا على زوج لغة غير ذات صلة.تبين تجاربنا أنه على الرغم من أن المرتبطة ليست ضرورية لنقل التعلم للعمل، إلا أنها تنفذ أداء نموذجي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا