توضح هذه الورقة مشروع Glaux (اللغة اليونانية الآلية ")، بذل جهد مستمر لتطوير كورب غاميرية طويلة الأجل من اليونانية، تغطي ستة عشر قرنا من المواد الأدبية وغير الأدبية المشروح مع طرق NLP.بعد تقديم نظرة عامة على مشاريع Corpus ذات الصلة ومناقشة الهندسة المعمارية العامة للأجنحة، فإنها تكبير عدد من القضايا المنهجية الأكبر في تصميم الأورام التاريخية.وتشمل هذه ترميز المتغيرات النصية، من خلال التعامل مع الاختلاف المبرم والتخلي عن الغموض اللغوي.وأخيرا، تتم مناقشة المنظورات طويلة الأجل لهذا المشروع.
This paper describes the GLAUx project (the Greek Language Automated''), an ongoing effort to develop a large long-term diachronic corpus of Greek, covering sixteen centuries of literary and non-literary material annotated with NLP methods. After providing an overview of related corpus projects and discussing the general architecture of the corpus, it zooms in on a number of larger methodological issues in the design of historical corpora. These include the encoding of textual variants, handling extralinguistic variation and annotating linguistic ambiguity. Finally, the long- and short-term perspectives of this project are discussed.
المراجع المستخدمة
https://aclanthology.org/
في الآونة الأخيرة، أصبح مجتمع الترجمة الآلية أكثر اهتماما بالتقييم على مستوى المستندات خاصة في ضوء ردود الفعل على مطالبات التكافؤ البشري "، لأن دراسة الجودة على مستوى الوثيقة بدلا من مستوى الحكم يسمح بذلكتقييم السياق Suprasententents، توفير تقييم أكث
تم استكشاف نقل النمط على نطاق واسع في توليد اللغة الطبيعية مع استخراج Corpus غير الموازي بشكل مباشر أو غير مباشر فكرة من النمط من مصدر المجال المصدر والمستهدف. يعد القصور المشترك للنهج القائمة شرط التعليقات التوضيحية المشتركة في جميع الأبعاد الأسلوبي
تقدم هذه الورقة مجموعة بيانات من حكايات خرافية الألمانية، المشروح يدويا مع شبكات الأحرف التي تم الحصول عليها مع اتفاق متزايد في الترحيل.يوفر إصدار هذه الدولة فرصة للتدريب ومقارنة خوارزميات مختلفة لاستخراج شبكات الأحرف، والتي كانت بالكاد حتى الآن بسبب
تكتسب نماذج اللغة المحددة مسبقا بسرعة شعبية بسرعة في أنظمة NLP للغات غير الإنجليزية.تتميز معظم هذه النماذج بخطوة أخذ عينات مهمة مهمة في عملية تتراكم بيانات التدريب بلغات مختلفة، للتأكد من أن الإشارة من لغات الموارد الأفضل لا تغرق منها أكثر الموارد.في
في هذه الرسالة الأطروحة، نستكشف تطبيق استخراج الأحداث على النصوص الأدبية. بالنظر إلى أطوال أحداث النمذجة الأدبية في التحبيبات المختلفة قد تكون أكثر كافية لاستخراج معلومات ذات معنى، حيث تساهم العناصر الفردية القليل إلى الدلالات الإجمالية. نحن نتكيف مع