يحقق هذا العمل في أنظمة الترجمة الآلية العصبية (NMT) لترجمة مراجعات المستخدم الإنجليزية إلى الكرواتية والصربية، وهنايتان لغات معقدة مماثلة مورفولوجية. يتم استخدام نوعين من المراجعات لاختبار الأنظمة: تقييم الأفلام IMDB ومراجعات منتجات الأمازون. يتم استكشاف نوعين من بيانات التدريب: كورسا متوازية كبيرة من النطاق، بالإضافة إلى كوربوس الموازية الاصطناعية الصغيرة التي تم الحصول عليها بواسطة الترجمة الآلية لمراجعات الأمازون الإنجليزية أحادية الأمازون في اللغات المستهدفة. تظهر كل من الدرجات التلقائية والتقييم البشري أن استخدام Corpus في المجال الصناعي مع مجموعة فرعية مختارة من بيانات خارج المجال هو الخيار الأفضل. تشير النتائج المنفصلة على مراجعات IMDB و Amazon إلى أن أنظمة MT تؤدي بشكل مختلف عن أنواع المراجعة المختلفة بحيث لا ينبغي اعتبار مراجعات المستخدمين بشكل عام كندي متجانس. ومع ذلك، فإن البحث أكثر تفصيلا حول أكبر قدر من المراجعات المختلفة التي تغطي النطاقات / الموضوعات المختلفة ضرورية لفهم هذه الاختلافات بشكل كامل.
This work investigates neural machine translation (NMT) systems for translating English user reviews into Croatian and Serbian, two similar morphologically complex languages. Two types of reviews are used for testing the systems: IMDb movie reviews and Amazon product reviews. Two types of training data are explored: large out-of-domain bilingual parallel corpora, as well as small synthetic in-domain parallel corpus obtained by machine translation of monolingual English Amazon reviews into the target languages. Both automatic scores and human evaluation show that using the synthetic in-domain corpus together with a selected sub-set of out-of-domain data is the best option. Separated results on IMDb and Amazon reviews indicate that MT systems perform differently on different review types so that user reviews generally should not be considered as a homogeneous genre. Nevertheless, more detailed research on larger amount of different reviews covering different domains/topics is needed to fully understand these differences.
References used
https://aclanthology.org/
Recent studies emphasize the need of document context in human evaluation of machine translations, but little research has been done on the impact of user interfaces on annotator productivity and the reliability of assessments. In this work, we compa
Language domains that require very careful use of terminology are abundant and reflect a significant part of the translation industry. In this work we introduce a benchmark for evaluating the quality and consistency of terminology translation, focusi
Many NLP models operate over sequences of subword tokens produced by hand-crafted tokenization rules and heuristic subword induction algorithms. A simple universal alternative is to represent every computerized text as a sequence of bytes via UTF-8,
There are common semantics shared across text and images. Given a sentence in a source language, whether depicting the visual scene helps translation into a target language? Existing multimodal neural machine translation methods (MNMT) require triple
The development of Translation Technologies, like Translation Memory and Machine Translation, has completely changed the translation industry and translator's workflow in the last decades. Nevertheless, TM and MT have been developed separately until