ترغب بنشر مسار تعليمي؟ اضغط هنا

The Glaux Corpus: القضايا المنهجية في تصميم كائن طويل الأجل ومتنوع متعدد الطبقات من اليونانية القديمة

The GLAUx corpus: methodological issues in designing a long-term, diverse, multi-layered corpus of Ancient Greek

236   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

توضح هذه الورقة مشروع Glaux (اللغة اليونانية الآلية ")، بذل جهد مستمر لتطوير كورب غاميرية طويلة الأجل من اليونانية، تغطي ستة عشر قرنا من المواد الأدبية وغير الأدبية المشروح مع طرق NLP.بعد تقديم نظرة عامة على مشاريع Corpus ذات الصلة ومناقشة الهندسة المعمارية العامة للأجنحة، فإنها تكبير عدد من القضايا المنهجية الأكبر في تصميم الأورام التاريخية.وتشمل هذه ترميز المتغيرات النصية، من خلال التعامل مع الاختلاف المبرم والتخلي عن الغموض اللغوي.وأخيرا، تتم مناقشة المنظورات طويلة الأجل لهذا المشروع.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في الآونة الأخيرة، أصبح مجتمع الترجمة الآلية أكثر اهتماما بالتقييم على مستوى المستندات خاصة في ضوء ردود الفعل على مطالبات التكافؤ البشري "، لأن دراسة الجودة على مستوى الوثيقة بدلا من مستوى الحكم يسمح بذلكتقييم السياق Suprasententents، توفير تقييم أكث ر موثوقية.تقدم هذه الورقة كوربوس على مستوى المستند بشرط باللغة الإنجليزية مع مشكلات واضحة للسياق التي تنشأ عند ترجمة من الإنجليزية إلى البرتغالية البرازيلية، وهي القطع القطع والجنس والغميات المعجمية والعدد والمرجعية والمصطلحات، مع ستة مجالات مختلفة.يمكن استخدام Corpus كمجموعة اختبار تحدي للتقييم وكجور تدريب / اختبار لتدريب / اختبار ل MT وكذلك للتحليل اللغوي العميق لقضايا السياق.إلى حد ما من معرفتنا، هذه هي أول لجنة من نوعها.
تم استكشاف نقل النمط على نطاق واسع في توليد اللغة الطبيعية مع استخراج Corpus غير الموازي بشكل مباشر أو غير مباشر فكرة من النمط من مصدر المجال المصدر والمستهدف. يعد القصور المشترك للنهج القائمة شرط التعليقات التوضيحية المشتركة في جميع الأبعاد الأسلوبي ة قيد النظر. يوفر توفر مجموعة البيانات هذه عبر مزيج من الأساليب من امتداد هذه الإعدادات إلى أبعاد أسلوب متعددة. في حين أن النماذج المتتالية الأبعاد المتتالية عبر أنماط متعددة هي احتمال، فإنه يعاني من خسارة المحتوى، خاصة عندما لا تكون أبعاد النمط مستقلة تماما عن بعضها البعض. في عملنا، نترخى هذا الشرط للبيانات المشروح بشكل مشترك عبر أنماط متعددة باستخدام البيانات المكتسبة بشكل مستقل عبر أبعاد نمط مختلفة دون أي شروح إضافية. نقوم بتهيئة إعداد برنامج فك تشفير التشفير مع طراز اللغة المستندة إلى المحول المدرب مسبقا على كائن عام وتعزيز قدرته على إعادة كتابة الأبعاد ذات الأرقام المستهدفة المتعددة عن طريق توظيف نماذج لغة واضحة على الطراز كتمييز. من خلال التقييم الكمي والنوعي، نعرض قدرة نموذجنا على التحكم في الأساليب عبر أبعاد أسلوب متعددة مع الحفاظ على محتوى نص الإدخال. قارنناها مع خطوط الأساس التي تنطوي على نماذج نقل أسلوب UNI-VIDELAL لحكام أحادي الأبعاد.
تقدم هذه الورقة مجموعة بيانات من حكايات خرافية الألمانية، المشروح يدويا مع شبكات الأحرف التي تم الحصول عليها مع اتفاق متزايد في الترحيل.يوفر إصدار هذه الدولة فرصة للتدريب ومقارنة خوارزميات مختلفة لاستخراج شبكات الأحرف، والتي كانت بالكاد حتى الآن بسبب المصالح غير المتجانسة للباحثين السابقين.نوضح فائدة بياناتنا المحددة من خلال توفير تجارب أساسية لاستخراج شبكات الأحرف التلقائية، وتطبيق خط أنابيب قائم على القواعد وكذلك النهج العصبي، والعثور على النهج العصبي تفوق نهج القواعد في معظم إعدادات التقييم.
تكتسب نماذج اللغة المحددة مسبقا بسرعة شعبية بسرعة في أنظمة NLP للغات غير الإنجليزية.تتميز معظم هذه النماذج بخطوة أخذ عينات مهمة مهمة في عملية تتراكم بيانات التدريب بلغات مختلفة، للتأكد من أن الإشارة من لغات الموارد الأفضل لا تغرق منها أكثر الموارد.في هذه الدراسة، ندرب العديد من النماذج اللغوية المتكررة متعددة اللغات، بناء على بنية ELMO، وتحليل تأثير نسب حجم Corpus المتغير على الأداء المصب، بالإضافة إلى اختلاف الأداء بين نماذج أحادية الألوان لكل لغة، ونماذج لغة متعددة اللغات الأوسعوبعدكجزء من هذا الجهد، نجعل هذه النماذج المدربة المتاحة للاستخدام العام.
في هذه الرسالة الأطروحة، نستكشف تطبيق استخراج الأحداث على النصوص الأدبية. بالنظر إلى أطوال أحداث النمذجة الأدبية في التحبيبات المختلفة قد تكون أكثر كافية لاستخراج معلومات ذات معنى، حيث تساهم العناصر الفردية القليل إلى الدلالات الإجمالية. نحن نتكيف مع مفهوم المخططات كسلسلة من الأحداث التي تصف جميعها عملية واحدة، متصلة من خلال المشاركين المشتركين إلى توسعها إلى مخططات متعددة في وثيقة. يتم تقسيم تسلسلات الأحداث في مخططات من خلال نماذج تسلسل الأحداث، في هذه المهمة كهذه المهمة السردية، التنبؤ بالأحداث المفقودة في التسلسل. نقترح بناء على تسلسل تضمين الأحداث لتشكيل شرق المخطط، وبالتالي تلخيص أقسام المستندات باستخدام تمثيل واحد. سيسمح هذا النهج بمقارنات أقسام مختلفة من الوثائق والأعمال الأدبية بأكملها. الأدب هو مجال صعبة يعتمد على مجموعة متنوعة من الأنواع، ولكن تمثيل المحتوى الأدبي قد تلقى اهتماما كبيرا نسبيا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا