ترغب بنشر مسار تعليمي؟ اضغط هنا

الترجمة من Text-to-to-to-to-to نص مقابل ترجمة: قضايا تتجاوز المعالجة اللغوية

Attainable Text-to-Text Machine Translation vs. Translation: Issues Beyond Linguistic Processing

495   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يترجم الأساليب الموجودة للترجمة الآلية (MT) في الغالب نص معين في لغة المصدر في اللغة المستهدفة وبدون تشير صراحة إلى المعلومات التي لا غنى عنها لإنتاج ترجمة مناسبة. لا يشمل ذلك فقط المعلومات في العناصر والطرائق النصية الأخرى من النصوص الموجودة في نفس المستند، بل أيضا معلومات إضافية وثلاثة وثيقة وغير لغوية مثل المعايير والسكوب. لتصميم تدفقات عمل الترجمة أفضل ونحن بحاجة إلى التمييز بين مشكلات الترجمة التي يمكن حلها من خلال أساليب النص إلى النص الموجودة وغيرها. تحقيقا لهذه الغاية، أجرينا تقييم تحليلي لنواتج MT وأخذ مهمة ترجمة من الأخبار الإنجليزية إلى اليابانية كدراسة حالة. أولا وأمثلة على مشكلات الترجمة وتنقيحاتها تم جمعها بواسطة طريقة ما بعد التحرير على مرحلتين (PE): أداء الحد الأدنى من PE للحصول على الترجمة التي يمكن تحقيقها بناء على المعلومات النصية المعينة وإجراء المزيد من الأداء الكامل للحصول على ترجمة مقبولة حقا تشير إلى أي المعلومات إذا لزم الأمر. ثم تم تحليل أمثلة المراجعة التي تم جمعها يدويا. كشفنا عن القضايا والمعلومات المهيمنة التي لا غنى عنها لحلها وكائن مثل مواصفات النمط المحبوسين والمعدات المصطلحات والمعرفة الخاصة بالمجال والمستندات المرجعية الخاصة بالمجال وتحديد تمييز واضح بين الترجمة وما يمكن أن يحقق MT النص إلى النص في النهاية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقوم بإلقاء مجموعة من مهام استخراج المعلومات في إطار ترجمة نصية إلى ثلاثية. بدلا من حل كل مهمة تعتمد على مجموعات البيانات والنماذج الخاصة بالمهام، نقوم بإضفاء الطابع الرسمي على المهمة كترجمة بين نص الإدخال الخاص بمهارات المهام وتصل إلى ثلاث مرات. من خلال اتخاذ المدخلات الخاصة بالمهامة، فإننا تمكن الترجمة المرجعية على المهام من خلال الاستفادة من المعرفة الكامنة التي يحتوي عليها نموذج لغة مدرب مسبقا حول المهمة. نوضح كذلك أن مهمة ما قبل التدريب البسيطة المتمثلة في التنبؤ بالمعلومات العلاجية التي تتوافق مع نص الإدخال هو وسيلة فعالة لإنتاج مخرجات خاصة بالمهام. وهذا يتيح نقل الطلقة الصفرية لإطارنا إلى مهام المصب. ندرس أداء الطلقة الصفرية لهذا الإطار في استخراج المعلومات المفتوح (OIE2016، NYT، WEB، PENN)، تصنيف العلاقة (عدد قليل من الألوان والمستقبلية)، والتحقيق الواقعي (Google-Re و T-Rex). التحويلات النموذجية غير تيهية لمعظم المهام وغالبا ما تكون تنافسية مع طريقة تحت إشراف بالكامل دون الحاجة إلى أي تدريب خاص بمهام. على سبيل المثال، نتفوق بشكل كبير على درجة F1 من استخراج المعلومات المفتوح الخاضعة للإشراف دون الحاجة لاستخدام مجموعة التدريب الخاصة بها.
يمكن أن ترجمت نماذج النص العصبي المؤقتة مؤخرا لترجمة أسئلة اللغة الطبيعية بفعالية لاستعلامات SQL المقابلة على قواعد البيانات غير المرئية.العمل في الغالب على مجموعة بيانات العنكبوت، اقترح الباحثون حلولا متطورة بشكل متزايد للمشكلة.على عكس هذا الاتجاه، في هذه الورقة نركز على التبسيط.نبدأ بإعادة بناء DUORAT، وإعادة تنفيذ طراز Rat-Art-Art-Art الذي يعكس RAT-SQL باستخدام محولات العلاقات أو الفانيليا فقط كقطات بناء.نحن نؤدي العديد من التجارب الاجتثاث باستخدام Duorat كنموذج الأساس.تقوم تجاربنا بتأكيد فائدة بعض التقنيات وأشرح التكرار للآخرين، بما في ذلك ميزات وميزات SQL الهيكلية التي ترتبط بالسؤال مع المخطط.
تم جمع معظم مجموعات بيانات تحليل الدلالات المتاحة، والتي تتكون من أزواج من الكلام الطبيعي والنماذج المنطقية، فقط لغرض تدريب وتقييم أنظمة فهم اللغة الطبيعية.ونتيجة لذلك، فإنها لا تحتوي على أي من ثراء ومجموعة متنوعة من الكلام الطبيعية التي تحدث، حيث يس أل البشر عن البيانات التي يحتاجونها أو فضولها.في هذا العمل، نطلق سراح SEDE، مجموعة بيانات مع 12،023 أزواج من الكلام واستفسارات SQL التي تم جمعها من الاستخدام الحقيقي على موقع Stack Exchange.نظظ أن هذه الأزواج تحتوي على مجموعة متنوعة من التحديات في العالم الحقيقي والتي نادرا ما تنعكس حتى الآن في أي مجموعة بيانات تحليل دلالية أخرى، اقترح متري تقييم استنادا إلى مقارنة بنود الاستعلام الجزئي الأكثر ملاءمة لاستفسارات العالم الحقيقي، وإجراء تجاربمع خطوط أساس قوية، تظهر فجوة كبيرة بين الأداء على SEDE مقارنة مع مجموعات البيانات الشائعة الأخرى.
يقدم هذا العمل ITIHASA، مجموعة بيانات ترجمة واسعة النطاق تحتوي على 93،000 زوج من Sanskrit Shlokas وترجماتها الإنجليزية.يتم استخراج شلوكاس من اثنين من الملصفات الهندية بمعنى.، رامايانا وماهاوصفنا أولا الدافع وراء عمالة مثل هذه البيانات ومتابعة التحليل التجريبي لإظهار الفروق الدقيقة.ثم نقاشنا بعد أداء نماذج الترجمة القياسية في هذه الجثة وإظهار أنه حتى بديهيات المحولات الحديثة تؤدي بشكل سيء، مع التركيز على تعقيد مجموعة البيانات.
منذ أن تم اعتماد النماذج العصبية في توليد لغة البيانات إلى النص، فقد تم اعتمادها دائما على المكونات الخارجية لتحسين دقتها الدلالية، لأن النماذج عادة لا تظهر القدرة على توليد نص يذكر بشكل موثوق كل المعلومات المقدمة فيالمدخل.في هذه الورقة، نقترح طريقة فك التشفير الجديدة التي تستخرج معلومات تفسيرها من نماذج ترميز تشفير التشفير، وتستخدمها لاستنتاج السمات التي يتم ذكرها في النص الذي تم إنشاؤه، والذي يستخدم لاحقا لإنقاش فرضيات شعاع.باستخدام طريقة فك التشفير هذه مع T5 و Bart، نعرض على ثلاثة مجموعات بيانات قدرتها على تقليل الأخطاء الدلالية بشكل كبير في المخرجات التي تم إنشاؤها، مع الحفاظ على جودة حديثة من بين الفن.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا