ترغب بنشر مسار تعليمي؟ اضغط هنا

دراسة تجريبية لنمذجة لغة بيرت وتحليل مورفولوجي لليونانية القديمة والقرون الوسطى

A Pilot Study for BERT Language Modelling and Morphological Analysis for Ancient and Medieval Greek

190   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الورقة دراسة تجريبية للبيئة اللغوية التلقائية من التحليل اليوناني القديم والبيزنطي، والمورفولوجي بشكل أكثر تحديدا. تحقيقا لهذه الغاية، تم تدريب نموذج لغة بيرت القائم على الكلمات الفرعية على أساس نصوص متنوعة من النصوص اليونانية الحديثة والقديمة وما بعد الكلاسيكية. وبالتالي، أدرجت شرطة بيرت التي تم الحصول عليها لتدريب علامة جزء من الكلام من الرباعي عن اليونانية القديمة والبيزنطية. بالإضافة إلى ذلك، تم الإعلان عن كائن من Epigrams اليونانية يدويا واستخدم معيار الذهب الناتج لتقييم أداء محلل مورفولوجي على بيزنطين يوناني. تظهر النتائج التجريبية درجات حيرة جيدة للغاية (4.9) لنموذج لغة بيرت والأداء الحديثة لعلامة جزء من الكلام المحبب للبيانات داخل المجال (TreeBanks التي تحتوي على مزيج من الكلاسيكية والقرون الوسطى اليونانية)، وكذلك بالنسبة لمجموعة بيانات البيانات المالية اليونانية اليونانية التي تم إنشاؤها حديثا. يتم توفير نماذج اللغة والرمز المرتبط باستخدامها في https://github.com/pranaydeeps/ancient-greek-bert

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يتناول هذا البحث دراسة تأثير الإضافات للكلس المحلي المستخدم في سوريا بهدف تحسين مواصفات المونة الكلسية الطبيعية، و العمل على الحصول على مونة كلسية ذات مقاومة جيدة دون إضافة الإسمنت، و لتحسين خواصه و إعطائه خواصا هيدروليكية تم إضافة مواد محلية مختل فة، لنصل إلى مواصفات هيدروليكية مقاربة للمونة الأجنبية المُعتمدة على مواد مستوردة غير متوفرة في سوريا، كما تم إضافة الألياف الزجاجية للحد من الانكماش غير المرغوب به في استخدام المونة الكلسية، و خصوصاً في البيئات الجافة .
في هذه الورقة، نقدم الإصدار اليوناني من خاطئ أداة التوضيح التلقائية (براينت وآخرون، 2017)، والتي أطلقنا عليها اسم Elerrant.وظائف خاطئة كتصنيف نوع من نوع الخطأ القاعدة واستخدامه كأداة التقييم الرئيسية للأنظمة المشاركة في BEA-2019 (براينت وآخرون، 2019) مهمة مشتركة.هنا، نناقش الاختلافات النحوية والمورفولوجية بين الإنجليزية واليونانية وكيف أثرت هذه الاختلافات على تطوير السائل.نحن نقدم أيضا أول كوربوس اليونانية الأصلية (GNC) و Wikiedits Corpus اليونانية (GWE)، ومجموعات بيانات تقييم جديدة مع أخطاء من المتعلمين اليونانيين الأصليين وتحرير صفحات الحديث في ويكيبيديا على التوالي.تستخدم هذان البيانات اثنين لتقييم السائل.هذه الورقة هي جزء وحيد من صورة أكبر توضح محاولة حل مشكلة لغات الموارد المنخفضة في NLP، في حالتنا اليونانية.
تقدم هذه الورقة Estbert، وهو طراز بيرت محول محول محول محول كبير مسبقا للإستونية.قامت العمل الحديثة بتقييم نماذج بيرت متعددة اللغات على المهام الإستونية ووجدتها أن تتفوق على الأساس.ومع ذلك، بناء على الدراسات القائمة على اللغات الأخرى، من المتوقع أن تت حسن نموذج بيرت خاص باللغة من المتوقعين على تلك المتعددة اللغات.نحن نصف أول عملية محاكمة Estbert ثم تقديم نتائج النماذج المستندة إلى Estbert Finetuned لمهام NLP متعددة، بما في ذلك نقاط البيع والعلامات المورفولوجية، وتحليل التبعية، والتعرف على الكيان المسمى وتصنيف النص.تظهر نتائج التقييم أن النماذج القائمة على Estbert تفوقت نماذج بيرت متعددة اللغات متعددة اللغات على خمس مهام من أصل سبعة، وتوفير المزيد من الأدلة تجاه الرأي أن نماذج Berty-الخاصة باللغة التدريبية لا تزال مفيدة، حتى عندما تتوفر نماذج متعددة اللغات.
فهم التعابير مهم في NLP.في هذه الورقة، ندرس إلى أي مدى يمكن لطراز بيرت المدرب مسبقا أن يرمز معنى التعبير العناقوي المحتمل (فطيرة) في سياق معين.نحن نستفيد من بعض البيانات الموجودة وأداء مهام التحقيق: تصنيف استخدام فطيرة وتحديد صياغة الصيغة.تشير نتائج التجريب الخاصة بنا إلى أن بيرت بالفعل يمكن أن تفصل السماحات الحرفية والاعتينية من فطيرة بدقة عالية.كما أنه قادر أيضا على تشفير المعنى الاصطلاح للكتبة إلى حد ما.
أصبح استخدام نماذج اللغة المحددة مسبقا، التي تم ضبطها بشكل جيد لأداء مهمة محددة من النهر، على نطاق واسع في NLP.ومع ذلك، قد يكون استخدام نموذج لغة عامة في المجالات المتخصصة، دون المستوى شبه الأمثل بسبب الاختلافات في استخدام اللغة والمفردات.في هذه الور قة، يتم التحقيق في ما إذا كان يمكن تحسين نموذج لغة قائم على اللغة السويدية للمجال السريري من خلال استمرار الاحتجاج بالنص السريري.يتم ضبط نماذج اللغة العامة ومجموعة من المجال بشكل جيد وتقييمها على ثلاثة مهام NLP السريرية الممثلة: (1) تحديد المعلومات الصحية المحمية، (2) تعيين رموز تشخيص ICD-10 إلى الملخصات التفريغ، و (3) عدم اليقين على مستوى الجملةتنبؤ.تظهر النتائج أن الاحيلية المستمرة على البيانات داخل المجال تؤدي إلى تحسين الأداء على جميع المهام الثلاثة المصب، مما يشير إلى وجود قيمة مضافة محتملة لنماذج اللغة الخاصة بالمجال ل NLP السريري.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا