ترغب بنشر مسار تعليمي؟ اضغط هنا

أصبح خلط التعليمات البرمجية طريقة متحركة للاتصال بين مكبرات الصوت متعددة اللغات. تتم كتابة معظم محتوى وسائل التواصل الاجتماعي للمجتمعات متعددة اللغات في النص المختلط من التعليمات البرمجية. ومع ذلك، فإن معظم أنظمة الترجمة الحالية إهمال تحويل النصوص ال مختلطة من التعليمات البرمجية إلى لغة قياسية. تظل معظم المحتوى المكتوب من المستخدمين من المستخدمين في وسائل الإعلام الاجتماعية غير المعتمدة بسبب عدم توفر الموارد اللغوية مثل Corpus الموازي. تقترح هذه الورقة نموذجا للترجمة الآلية العصبية (NMT) لترجمة النص المختلط بين السنهالية - الإنجليزية إلى لغة سنهالا. نظرا للموارد المحدودة المتاحة لنص Sinhala-English النص المختلط (SEMM)، يتم إنشاء Corpus الموازي مع جمل SEMM وجمل Sinhala. تحتوي مواقع وسائل التواصل الاجتماعي Srilankan على نصوص SEMM بشكل متكرر أكثر من اللغات القياسية. النموذج المقترح للترجمة النصية المختلطة في التعليمات البرمجية في هذه الدراسة هو مزيج من إطار فك تشفير التشفير مع وحدات LSTM والمعلمين تجبر الخوارزمية. يتم تقييم الجمل المترجمة من النموذج باستخدام متري بلو (تقييم ثنائي اللغة). حقق نموذجنا درجة بلو رائعة للترجمة.
في هذه الورقة، نقدم الإصدار اليوناني من خاطئ أداة التوضيح التلقائية (براينت وآخرون، 2017)، والتي أطلقنا عليها اسم Elerrant.وظائف خاطئة كتصنيف نوع من نوع الخطأ القاعدة واستخدامه كأداة التقييم الرئيسية للأنظمة المشاركة في BEA-2019 (براينت وآخرون، 2019) مهمة مشتركة.هنا، نناقش الاختلافات النحوية والمورفولوجية بين الإنجليزية واليونانية وكيف أثرت هذه الاختلافات على تطوير السائل.نحن نقدم أيضا أول كوربوس اليونانية الأصلية (GNC) و Wikiedits Corpus اليونانية (GWE)، ومجموعات بيانات تقييم جديدة مع أخطاء من المتعلمين اليونانيين الأصليين وتحرير صفحات الحديث في ويكيبيديا على التوالي.تستخدم هذان البيانات اثنين لتقييم السائل.هذه الورقة هي جزء وحيد من صورة أكبر توضح محاولة حل مشكلة لغات الموارد المنخفضة في NLP، في حالتنا اليونانية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا