يترجم الأساليب الموجودة للترجمة الآلية (MT) في الغالب نص معين في لغة المصدر في اللغة المستهدفة وبدون تشير صراحة إلى المعلومات التي لا غنى عنها لإنتاج ترجمة مناسبة. لا يشمل ذلك فقط المعلومات في العناصر والطرائق النصية الأخرى من النصوص الموجودة في نفس المستند، بل أيضا معلومات إضافية وثلاثة وثيقة وغير لغوية مثل المعايير والسكوب. لتصميم تدفقات عمل الترجمة أفضل ونحن بحاجة إلى التمييز بين مشكلات الترجمة التي يمكن حلها من خلال أساليب النص إلى النص الموجودة وغيرها. تحقيقا لهذه الغاية، أجرينا تقييم تحليلي لنواتج MT وأخذ مهمة ترجمة من الأخبار الإنجليزية إلى اليابانية كدراسة حالة. أولا وأمثلة على مشكلات الترجمة وتنقيحاتها تم جمعها بواسطة طريقة ما بعد التحرير على مرحلتين (PE): أداء الحد الأدنى من PE للحصول على الترجمة التي يمكن تحقيقها بناء على المعلومات النصية المعينة وإجراء المزيد من الأداء الكامل للحصول على ترجمة مقبولة حقا تشير إلى أي المعلومات إذا لزم الأمر. ثم تم تحليل أمثلة المراجعة التي تم جمعها يدويا. كشفنا عن القضايا والمعلومات المهيمنة التي لا غنى عنها لحلها وكائن مثل مواصفات النمط المحبوسين والمعدات المصطلحات والمعرفة الخاصة بالمجال والمستندات المرجعية الخاصة بالمجال وتحديد تمييز واضح بين الترجمة وما يمكن أن يحقق MT النص إلى النص في النهاية.
Existing approaches for machine translation (MT) mostly translate given text in the source language into the target language and without explicitly referring to information indispensable for producing proper translation. This includes not only information in other textual elements and modalities than texts in the same document and but also extra-document and non-linguistic information and such as norms and skopos. To design better translation production work-flows and we need to distinguish translation issues that could be resolved by the existing text-to-text approaches and those beyond them. To this end and we conducted an analytic assessment of MT outputs and taking an English-to-Japanese news translation task as a case study. First and examples of translation issues and their revisions were collected by a two-stage post-editing (PE) method: performing minimal PE to obtain translation attainable based on the given textual information and further performing full PE to obtain truly acceptable translation referring to any information if necessary. Then and the collected revision examples were manually analyzed. We revealed dominant issues and information indispensable for resolving them and such as fine-grained style specifications and terminology and domain-specific knowledge and and reference documents and delineating a clear distinction between translation and what text-to-text MT can ultimately attain.
References used
https://aclanthology.org/
We cast a suite of information extraction tasks into a text-to-triple translation framework. Instead of solving each task relying on task-specific datasets and models, we formalize the task as a translation between task-specific input text and output
Recent neural text-to-SQL models can effectively translate natural language questions to corresponding SQL queries on unseen databases. Working mostly on the Spider dataset, researchers have proposed increasingly sophisticated solutions to the proble
Most available semantic parsing datasets, comprising of pairs of natural utterances and logical forms, were collected solely for the purpose of training and evaluation of natural language understanding systems. As a result, they do not contain any of
This work introduces Itihasa, a large-scale translation dataset containing 93,000 pairs of Sanskrit shlokas and their English translations. The shlokas are extracted from two Indian epics viz., The Ramayana and The Mahabharata. We first describe the
Ever since neural models were adopted in data-to-text language generation, they have invariably been reliant on extrinsic components to improve their semantic accuracy, because the models normally do not exhibit the ability to generate text that reli