على الرغم من التحسينات المستمرة في جودة الترجمة الآلية، تظل الترجمة التلقائية الشعر مشكلة صعبة بسبب عدم وجود شاعرية موازية مفتوحة، وبالنسبة إلى التعقيدات الجوهرية المعنية في الحفاظ على الدلالات والأناقة والطبيعة المجازية للشعر. نقدم إجراءات تجريبية لترجمة الشعر على طول عدة أبعاد: 1) حجم وأسلوب بيانات التدريب (Poetic vs. غير شعري)، بما في ذلك إعداد الصفر بالرصاص؛ 2) ثنائي اللغة مقابل التعلم متعدد اللغات؛ و 3) نماذج لغة خاصة للعائلة مقابل نماذج عائلية مختلطة. لإنجاز ذلك، نساهم في مجموعة بيانات متوازية من ترجمات الشعر لعدة أزواج اللغة. تبين نتائجنا أن ضبط التركيب المتعدد اللغات على النص الشعري يتفوق بشكل كبير على النص المتعدد اللغوي على النص غير الشعري الذي هو 35X أكبر في الحجم، كلاهما من حيث المقاييس التلقائية (BLEU، Bertscore، المذنب) ومقاييس التقييم البشري مثل الإخلاص ( معنى والأناقة الشعرية). علاوة على ذلك، فإن ضبط التردد متعدد اللغات على البيانات الشعرية تتفوق على ضبط ثنائي اللغة على البيانات الشعرية.
Despite constant improvements in machine translation quality, automatic poetry translation remains a challenging problem due to the lack of open-sourced parallel poetic corpora, and to the intrinsic complexities involved in preserving the semantics, style and figurative nature of poetry. We present an empirical investigation for poetry translation along several dimensions: 1) size and style of training data (poetic vs. non-poetic), including a zero-shot setup; 2) bilingual vs. multilingual learning; and 3) language-family-specific models vs. mixed-language-family models. To accomplish this, we contribute a parallel dataset of poetry translations for several language pairs. Our results show that multilingual fine-tuning on poetic text significantly outperforms multilingual fine-tuning on non-poetic text that is 35X larger in size, both in terms of automatic metrics (BLEU, BERTScore, COMET) and human evaluation metrics such as faithfulness (meaning and poetic style). Moreover, multilingual fine-tuning on poetic data outperforms bilingual fine-tuning on poetic data.
References used
https://aclanthology.org/
Recent years have seen a flourishing of neural keyphrase generation (KPG) works, including the release of several large-scale datasets and a host of new models to tackle them. Model performance on KPG tasks has increased significantly with evolving d
Sequential information, a.k.a., orders, is assumed to be essential for processing a sequence with recurrent neural network or convolutional neural network based encoders. However, is it possible to encode natural languages without orders? Given a bag
In simultaneous machine translation, finding an agent with the optimal action sequence of reads and writes that maintain a high level of translation quality while minimizing the average lag in producing target tokens remains an extremely challenging
Many NLP models operate over sequences of subword tokens produced by hand-crafted tokenization rules and heuristic subword induction algorithms. A simple universal alternative is to represent every computerized text as a sequence of bytes via UTF-8,
The paper presents experiments in neural machine translation with lexical constraints into a morphologically rich language. In particular and we introduce a method and based on constrained decoding and which handles the inflected forms of lexical ent