الهدف من هذه الورقة هو التحقيق في نهج قياس التشابه في ذاكرة الترجمة (TM) في خمس أدوات ترجمة بمساعدة كمبيوتر تمثيلي عند استرداد جمل التباين في الفعل في الترجمة باللغة العربية إلى الإنجليزية. في اللغة الإنجليزية، تشمل الملصقات في الأفعال في الأفعال فقط؛ على عكس اللغة الإنجليزية، الأفعال باللغة العربية مشتق من الصوت، والمزاج، والتوتر، والعدد والشخص من خلال الملصقات الانتشارية المختلفة E.G. قبل أو نشر جذر الفعل. يركز السؤال البحثي على إنشاء ما إذا كانت خوارزمية التشابه TM تقيس مزيجا من التثبيتات الانتشاري ككلمة أو كتدخل في الطابع عند استرداد شريحة. إذا تم التعامل معها كتدخل في الطابع، هل تعاقب أنواع التدخل بنفس القدر أو بشكل مختلف؟ يفحص هذه الورقة تجريبيا، من خلال منهجية اختبار الصندوق الأسود وأداة جناح اختبار، والعقوبات التي فرضت الخوارزميات الحالية لأنظمة TM عندما تكون شرائح الإدخال ومصادر TM المستردة هي نفسها بالضبط، باستثناء اختلاف في ملحق لانضمام. من المتوقع أن تكون أنظمة TM بعض المعرفة اللغوية، فإن العقوبة ستكون خفيفة للغاية، والتي ستكون مفيدة للمترجمين، نظرا لأن مباراة عالية التسجيل سيتم تقديمها بالقرب من أعلى قائمة المقترحات. ومع ذلك، فإن تحليل إخراج أنظمة TM يظهر أن التصفيات الانتشارية تعاقب بشكل أكبر من المتوقع بطرق مختلفة. قد يتم التعامل معها كتدخل على الكلمة بأكملها، أو كغير حرف واحد.
The aim of this paper is to investigate the similarity measurement approach of translation memory (TM) in five representative computer-aided translation (CAT) tools when retrieving inflectional verb-variation sentences in Arabic to English translation. In English, inflectional affixes in verbs include suffixes only; unlike English, verbs in Arabic derive voice, mood, tense, number and person through various inflectional affixes e.g. pre or post a verb root. The research question focuses on establishing whether the TM similarity algorithm measures a combination of the inflectional affixes as a word or as a character intervention when retrieving a segment. If it is dealt with as a character intervention, are the types of intervention penalized equally or differently? This paper experimentally examines, through a black box testing methodology and a test suite instrument, the penalties that TM systems' current algorithms impose when input segments and retrieved TM sources are exactly the same, except for a difference in an inflectional affix. It would be expected that, if TM systems had some linguistic knowledge, the penalty would be very light, which would be useful to translators, since a high-scoring match would be presented near the top of the list of proposals. However, analysis of TM systems' output shows that inflectional affixes are penalized more heavily than expected, and in different ways. They may be treated as an intervention on the whole word, or as a single character change.
References used
https://aclanthology.org/
Translation Memory (TM) system, a major component of computer-assisted translation (CAT), is widely used to improve human translators' productivity by making effective use of previously translated resource. We propose a method to achieve high-speed r
Translation memory systems (TMS) are the main component of computer-assisted translation (CAT) tools. They store translations allowing to save time by presenting translations on the database through matching of several types such as fuzzy matches, wh
Despite the enormous popularity of Translation Memory systems and the active research in the field, their language processing features still suffer from certain limitations. While many recent papers focus on semantic matching capabilities of TMs, thi
Document alignment techniques based on multilingual sentence representations have recently shown state of the art results. However, these techniques rely on unsupervised distance measurement techniques, which cannot be fined-tuned to the task at hand
This research studies the notion of non-equivalence in translation
between English and Arabic. It displays the main issues translators
face when translating, like cultural restraints and linguistic barriers.
It also suggests a number of strategies