ترغب بنشر مسار تعليمي؟ اضغط هنا

في بعض الأحيان نريد ترجمة غير تعليمية

Sometimes We Want Ungrammatical Translations

227   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تركز التقدم السريع في أنظمة الترجمة الآلية العصبية على مدى السنوات القليلة الماضية بشكل أساسي على تحسين جودة الترجمة، وكتركيز ثانوي، وتحسين متانة للاضطرات (على سبيل المثال الإملاء). في حين أن الأداء والقوة هي أهداف مهمة، من خلال التركيز على هذه، فإننا نخاطر بتوقيف الخصائص المهمة الأخرى. في هذه الورقة، نلفت الانتباه إلى حقيقة أنه بالنسبة لبعض التطبيقات، فإن الإخلاص النص الأصلي (الإدخال) مهم للحفاظ عليه، حتى لو كان ذلك يعني إدخال أنماط لغة غير عادية في الترجمة (الإخراج). نقترح طريقة بسيطة رواية لتحديد ما إذا كان نظام NMT يعرض متزايدا أو إخلاصا، من خلال التركيز على حالة اضطراب ترتيب الكلمات. نستكشف مجموعة من الوظائف لإشراض ترتيب الكلمات من الجمل المصدر دون حذف أو حقن الرموز، وقياس آثارها على الجانب المستهدف. عبر العديد من الحالات التجريبية، نلاحظ ميلا قويا نحو متانة بدلا من الإخلاص. تتيح لنا هذه النتائج أن نفهم المفاضلة بشكل أفضل بين الإخلاص والمتانة في NMT، ويفتح إمكانية تطوير النظم التي يكون فيها المستخدمون لديهم المزيد من الحكم الذاتي والتحكم في اختيار العقار الأفضل من الأنسب لحالة استخدامها.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

لا يزال الاستحواذ على بيانات التدريب المتعدد اللغات يمثل تحديا في غزالة معنى الكلمة (WSD).لمعالجة هذه المشكلة، اقترحت النهج غير الخاضعة للكالة لإنشاء التعليقات التوضيحية بالمعنى تلقائيا لتدريب أنظمة WSD الخاضعة للإشراف.نقدم ثلاث طرق جديدة لإنشاء كورب ورا المعشوفة بالشعور التي تستفيد الترجمات، وثبات الموازية، والموارد المعجمية، وكذلك تضمينات السياق والتركيب.تطبق أسلوبنا شبه الإشراف ترجمة الجهاز لنقل التعليقات التوضيحية القائمة إلى لغات أخرى.طرقنا اثنين من الأساليب غير الخاضعة لعمليات إعادة صياغة الشرح بالمعنى الناتج عن نظام WSD القائم على المعرفة عبر الترجمات المعجمية في كوربوس متوازي.نحصل على نتائج حديثة على معايير WSD القياسية.
فهم عندما لا يوفر مقتطف النص معلومات سعية بعد هي جزء أساسي من اللغة الطبيعية Utnderstanding. العمل الحديث (Squad 2.0؛ Rajpurkar et al.، 2018) حاولت إحراز بعض التقدم في هذا الاتجاه من خلال إثراء بيانات الفريق الخاصة بمهمة ضمان الجودة الاستخراجية مع أس ئلة لا يمكن إجراؤها. ومع ذلك، كما نعرض، فإن أداء النظام الأعلى المدرب على الفريق 2.0 قطرات إلى حد كبير سيناريوهات خارج المجال، مما يحد من استخدامه في المواقف العملية. من أجل دراسة هذا، نقوم ببناء كوربوس خارج المجال، مع التركيز على الأسئلة البسيطة القائمة على الأحداث والتمييز بين نوعين من الأسئلة الموجودة: أسئلة تنافسية، حيث يتضمن السياق كيان من نفس النوع مثل الإجابة المتوقعة، و أسئلة أبسط وغير تنافسية حيث لا يوجد أي كيان من نفس النوع في السياق. نجد أن النماذج المستندة إلى Squad 2.0 تفشل حتى في حالة الأسئلة الأكثر بساطة. ثم نحلل أوجه التشابه والاختلافات بين ظاهرة IDK في ضمان الجودة الاستخراجية ومهمة الاعتراف بالاتصالات النصية (RTE؛ Dagan et al.، 2013) والتحقيق في المدى الذي يمكن استخدامه الأخير لتحسين الأداء.
تعتمد معظم دراسات معالجة اللغة الطبيعية الأخيرة (NLP) على النهج الضميني - PFA (PFA)، ولكن في المؤسسات أو الشركات الصغيرة والمتوسطة مع الأجهزة غير الكافية، هناك العديد من القيود لخدمة برنامج تطبيق NLP باستخدام هذه التكنولوجيا بسبب هذه التكنولوجيا سرعة بطيئة وذاكرة غير كافية. تتطلب أحدث تقنيات PFA كميات كبيرة من البيانات، خاصة لغات الموارد المنخفضة، مما يجعلها أكثر صعوبة في العمل معها. نقترح طريقة جديدة للتكامل، قطعة واحدة، لمعالجة هذا القيد الذي يجمع بين طريقة تشغيل الكلمات الفرعية التي تعتبر الكلمات الفرعية التي تعتبرها المورفولوجيا وطريقة المفردات المستخدمة بعد التحقيق في طريقة حالية لم تعتبر بعناية من قبل. يمكن أيضا استخدام طريقةنا المقترحة دون تعديل هيكل النموذج. نقوم بتجربة تطبيق قطعة واحدة إلى اللغة الكورية والغنية بالموراطية والموارد المنخفضة. ونحن نستمد نتيجة تكييف الكلمات الفرعية المثلى للترجمة الآلية الكورية والإنجليزية من خلال إجراء دراسة حالة تجمع بين طريقة تكتيح الكلمات الفرعية، والتجزئة المورفولوجية، وطريقة المفردات. من خلال التجارب المقارنة مع جميع أساليب التكامل المستخدمة حاليا في بحث NLP، تحقق قطعة واحدة أداء قابلة للمقارنة مع النموذج الحالي للترجمة الآلية الكورية والإنجليزية الحالية.
محول غير تلقائي هو نموذج توليد نص واعد.ومع ذلك، لا تزال النماذج الحالية غير التلقائية التي لا تزال تقف وراء نظرائها التلقائي في جودة الترجمة.نحن نعزو فجوة الدقة هذه إلى عدم وجود نمذجة التبعية بين مدخلات فك التشفير.في هذه الورقة، نقترح CNAT، والتي تتع لم الرموز الفئوية الضمنية بمثابة متغيرات كامنة في فك التشفير غير التشغيلي التشغيلي.إن التفاعل بين هذه الرموز الفئوية سيلم على التبعيات المفقودة ويحسن القدرة النموذجية.تظهر نتائج التجربة أن نموذجنا يحقق أداء قابلا أو أفضل في مهام الترجمة الآلية من العديد من خطوط الأساس القوية.
توضح هذه الورقة تقديم IWSLT-St المجموعة ESPNET-St Group في مسار ترجمة الكلام دون اتصال بالإنترنت. لقد بذلنا هذا العام جهود مختلفة على تدريب البيانات والهندسة المعمارية وتجزئة الصوت. على جانب البيانات، التحقق في تقطير المعرفة على مستوى التسلسل (SEQKD) لترجمة خطاب نهاية إلى نهاية (E2E). على وجه التحديد، استخدمنا SEQKD متعدد المراجع من المعلمين المتعددين المدربين على كميات مختلفة من BiteXT. في جانب الهندسة المعمارية، اعتمكنا من تشفير المطابقة والهندسة المعمارية متعددة اللمعان، والذي يزود بكوادر مخصصة للتعرف على الكلام ومهام الترجمة في نموذج ترميز الترميز الموحد وتمكن البحث في كل من المساحات المصدر والجلد المستهدف أثناء الاستدلال. نحن أيضا تحسين تجزئة الصوت باستخدام مجموعة أدوات Pyannote.Audio ودمج قطاعات قصيرة متعددة للنمذجة ذات السياق الطويل. أظهرت التقييمات التجريبية أن كل منهم ساهم في تحسينات كبيرة في أداء الترجمة. مجتمع أفضل نظام E2E لدينا بجميع التقنيات المذكورة أعلاه مع مجموعة نموذجية وحققت 31.4 بلو في المرجع 2- TST2021 و 21.2 بلو و 19.3 بلو على المراجع الفردية من TST2021.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا