في الآونة الأخيرة، أصبح مجتمع الترجمة الآلية أكثر اهتماما بالتقييم على مستوى المستندات خاصة في ضوء ردود الفعل على مطالبات التكافؤ البشري "، لأن دراسة الجودة على مستوى الوثيقة بدلا من مستوى الحكم يسمح بذلكتقييم السياق Suprasententents، توفير تقييم أكثر موثوقية.تقدم هذه الورقة كوربوس على مستوى المستند بشرط باللغة الإنجليزية مع مشكلات واضحة للسياق التي تنشأ عند ترجمة من الإنجليزية إلى البرتغالية البرازيلية، وهي القطع القطع والجنس والغميات المعجمية والعدد والمرجعية والمصطلحات، مع ستة مجالات مختلفة.يمكن استخدام Corpus كمجموعة اختبار تحدي للتقييم وكجور تدريب / اختبار لتدريب / اختبار ل MT وكذلك للتحليل اللغوي العميق لقضايا السياق.إلى حد ما من معرفتنا، هذه هي أول لجنة من نوعها.
Recently, the Machine Translation (MT) community has become more interested in document-level evaluation especially in light of reactions to claims of human parity'', since examining the quality at the level of the document rather than at the sentence level allows for the assessment of suprasentential context, providing a more reliable evaluation. This paper presents a document-level corpus annotated in English with context-aware issues that arise when translating from English into Brazilian Portuguese, namely ellipsis, gender, lexical ambiguity, number, reference, and terminology, with six different domains. The corpus can be used as a challenge test set for evaluation and as a training/testing corpus for MT as well as for deep linguistic analysis of context issues. To the best of our knowledge, this is the first corpus of its kind.
المراجع المستخدمة
https://aclanthology.org/
توضح هذه الورقة مشروع Glaux (اللغة اليونانية الآلية ")، بذل جهد مستمر لتطوير كورب غاميرية طويلة الأجل من اليونانية، تغطي ستة عشر قرنا من المواد الأدبية وغير الأدبية المشروح مع طرق NLP.بعد تقديم نظرة عامة على مشاريع Corpus ذات الصلة ومناقشة الهندسة ال
من المعروف أن تحليل الخطاب أمرا أساسيا في معالجة اللغة الطبيعية.في هذا البحث، نقدم نظرة ثاقبة حول تحليل سلسلة موضوعات مستوى الخطاب (DTC) التي تهدف إلى اكتشاف مواضيع جديدة والتحقيق في كيفية تطور هذه الموضوعات بمرور الوقت داخل مقال.لمعالجة عدم وجود بيا
من المعروف أن مهام توليد اللغة الطبيعية (NLG) على اللغات المؤيدة للإسقاط تعاني من مشاكل ضمير Zero (ZP)، وتظل المشكلات تحديا بسبب ندرة NLG Corpora المشروح من ZP.في هذه الحالة، نقترح نهجا للغاية على مرحلتين على مرحلتين للغاية على نمذجة السياق الزوجي مع
تهدف مهمة اكتشاف الحدث (ED) في استخراج المعلومات إلى الاعتراف وتصنيف كلمات الأحداث في النص. تميز التقدم الأخير نماذج لغوية متقدمة للمحولات المتقدمة (على سبيل المثال، بيرت) كعنصر حاسم في النماذج الحديثة للإد. ومع ذلك، فإن الحد الطول لنصوص الإدخال هو ح
في وضع الترجمة في الوقت الحقيقي للترجمة في الوقت الفعلي، تبدأ نماذج الترجمة الآلية العصبية (NMT) بتوليد الرموز الرموز اللغوية المستهدفة من جمل لغة مصدر غير كاملة وجعلها أكثر صعوبة في ترجمة وجودة الترجمة السيئة. أظهرت الأبحاث السابقة أن NMT على مستوى