ترغب بنشر مسار تعليمي؟ اضغط هنا

Itihasa: كوربوس واسعة النطاق ل Sanskrit to الإنجليزية Translation

Itihasa: A large-scale corpus for Sanskrit to English translation

314   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يقدم هذا العمل ITIHASA، مجموعة بيانات ترجمة واسعة النطاق تحتوي على 93،000 زوج من Sanskrit Shlokas وترجماتها الإنجليزية.يتم استخراج شلوكاس من اثنين من الملصفات الهندية بمعنى.، رامايانا وماهاوصفنا أولا الدافع وراء عمالة مثل هذه البيانات ومتابعة التحليل التجريبي لإظهار الفروق الدقيقة.ثم نقاشنا بعد أداء نماذج الترجمة القياسية في هذه الجثة وإظهار أنه حتى بديهيات المحولات الحديثة تؤدي بشكل سيء، مع التركيز على تعقيد مجموعة البيانات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

دفعت التطورات الحديثة في الترجمة الآلية العصبية (NMT) جودة أنظمة الترجمة الآلية إلى النقطة التي أصبحوا فيها اعتمادها على نطاق واسع لبناء أنظمة تنافسية. ومع ذلك، لا يزال هناك عدد كبير من اللغات التي لم تجنيها بعد فوائد NMT. في هذه الورقة، نقدم أول درا سة حالة واسعة النطاق للتطبيق العملي ل MT في عائلة اللغة التركية من أجل تحقيق مكاسب NMT للغات التركية تحت الموارد عالية الموارد إلى سيناريوهات منخفضة للغاية الموارد. بالإضافة إلى تقديم تحليل واسع النطاق يحدد الاختناقات نحو بناء أنظمة تنافسية لتحسين ندرة البيانات، فإن دراستنا لديها العديد من المساهمات الرئيسية، بما في ذلك، طن موازي كبير يغطي 22 لغة تركية تتكون من مجموعات بيانات عامة مشتركة مع مجموعات بيانات جديدة من ما يقرب من 1.4 مليون جمل موازية، 2) خطوط أساس ثنائية اللغة ل 26 أزواج لغة، III) مجموعات اختبار عالية الجودة الرواية في ثلاثة مجالات ترجمة مختلفة و 4 درجات التقييم البشري. سيتم إصدار جميع النماذج والبرامج النصية والبيانات للجمهور.
يظهر التطوير الحديث في NLP اتجاها قويا نحو تكرير النماذج المدربة مسبقا مع مجموعة بيانات خاصة بالمجال. هذا هو الحال بشكل خاص لتوليد الاستجابة حيث تلعب العاطفة دورا مهما. ومع ذلك، لا تزال مجموعات البيانات المتعاطفية الحالية صغيرة وتأخير الجهود البحثية في هذا المجال، على سبيل المثال، تطوير Chatement-Aware Chatbots. كان التحدي الفني الرئيسي واحد هو تكلفة التسجيل يدويا الحوارات مع ملصقات العاطفة المناسبة. في هذه الورقة، نصف مجموعة بيانات فضية واسعة النطاق تتكون من حوارات من 1M المشروح ب 32 عواطف دقيقة، وثمانية نوايا استجابة متعاطفية، والفئة المحايدة. لتحقيق هذا الهدف، قمنا بتطوير خط أنابيب لجنة البيانات الرواية بدءا من بذرة صغيرة من البيانات المشروحة يدويا وتوسيع نطاقها في نهاية المطاف إلى حجم مرض. قمنا بمقارنة جودةها مقابل مجموعة بيانات ذهبية أحدث باستخدام كل من التجارب دون اتصال وطرائق التحقق من الصحة. يمكن استخدام الإجراء الناتج لإنشاء مجموعات بيانات مماثلة في نفس المجال وكذلك في المجالات الأخرى.
تصف هذه الورقة بناء كوربوس تفسير اللغة الإنجليزية واليابانية على نطاق واسع (SI) ويعرض نتائج تحليلها.يحتوي جزء من Corpus على بيانات SI من ثلاثة مترجمين مع كميات مختلفة من الخبرة.تم محاذاة بعض بيانات SI يدويا مع خطب المصدر على مستوى الجملة.تمت مقارنة ج وانب الكمون والجودة ونظام ترتيب الكلمات بين بيانات SI نفسها وكذلك ضد الترجمات دون اتصال.أظهرت النتائج أن المترجمين الفوريين (1) مع المزيد من الخبرة التي تسيطر على الكمون والجودة بشكل أفضل، و (2) مزامور زمنية كبيرة تؤذي جودة SI.
التقييم البشري التجريدي لأنظمة الترجمة عالية الجودة الحديثة هي مشكلة صعبة، وهناك أدلة متزايدة على أن إجراءات التقييم غير الكافية يمكن أن تؤدي إلى استنتاجات خاطئة. بينما كان هناك بحث كبير في التقييم البشري، لا يزال الحقل يفتقر إلى إجراء قياسي شائع. كخ طوة نحو هذا الهدف، نقترح منهجية تقييم في تحليل خطأ صريح، استنادا إلى إطار مقاييس الجودة متعددة الأبعاد (MQM). نحن نفذت أكبر دراسة بحثية MQM حتى الآن، وتسجيل مخرجات الأنظمة العليا من المهمة المشتركة WMT 2020 في أزواج لغتين باستخدام التعليقات التوضيحية المقدمة من المترجمين المحترفين مع الوصول إلى سياق المستند الكامل. نقوم بتحليل البيانات الناتجة على نطاق واسع، والعثور على نتائج أخرى بمثابة ترتيب مختلف تماما للأنظمة المقدرة من تلك المنشأة من قبل عمال الحشد WMT، تعرض تفضيل واضح لإخراج الإنسان على الجهاز. من المستغرب، نجد أيضا أن المقاييس التلقائية القائمة على المدينات المدربة مسبقا يمكن أن تفوق عمال الحشد البشري. نحن نجعل كوربوس متاحة علنا ​​لمزيد من البحث.
تقدم هذه الورقة MediaSum، مجموعة بيانات مقابلة الوسائط على نطاق واسع تتكون من نصوص 463.6 كيلو بايت مع ملخصات إبتياج.لإنشاء هذه البيانات، نجمع مخالفات المقابلة من NPR و CNN وتوظيف نظرة عامة وأوصاف موضوع كملخصات.مقارنة مع الشركة العامة القائمة للحصول ع لى تلخيص الحوار، فإن DataSet لدينا هي أمر من حيث الحجم ويحتوي على محادثات متعددة الأحزاب المعقدة من مجالات متعددة.نقوم بإجراء تحليل إحصائي لإظهار التحيز الموضعي الفريد المعروض في نصوص المقابلات التلفزيونية والإذاعية.نظهر أيضا أن MediaSum يمكن استخدامه في تعلم التعلم لتحسين أداء نموذج على مهام تلخيص حوار أخرى.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا