ترغب بنشر مسار تعليمي؟ اضغط هنا

مقارنة النهج لتحديد لغة Dravidian

Comparing Approaches to Dravidian Language Identification

673   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصف هذه الورقة التقديمات من قبل Team HWR إلى المهمة المشتركة (DLI) التي تم تنظيمها في ورشة عمل فاريدية 2021. تتضمن مجموعة تدريب DLI 16،674 تعليقات يوتيوب مكتوبة في البرنامج النصي الروماني يحتوي على نص مختلط من التعليمات البرمجية مع اللغة الإنجليزية واحدا من اللغات الثلاثة الجنوبية الدرفيدية: كانادا، ملايال، والتاميل. لقد قدمنا ​​النتائج التي تم إنشاؤنا باستخدام نموذجين، وهو مصنف بايز ساذج مع نماذج بلغة تكيفية، والتي أثبتت الحصول على أداء تنافسي في العديد من مهام تحديد اللغة واللهجة، وعلى نموذج يستند إلى المحولات الذي يعتبر على نطاق واسع كحدث الفن في عدد من مهام NLP. تم إرسال طلبنا الأول في مسار التقديم المغلق باستخدام مجموعة التدريب فقط المقدمة من منظمي المهام المشتركة، في حين أن التقديم الثاني يعتبر مفتوحا لأنه استخدم نموذجا مسبقا تدريبا على البيانات الخارجية. حصل فريقنا على المركز الثاني المشترك في المهمة المشتركة مع التقديم على أساس بايس ساذج. تعزز نتائجنا فكرة أن أساليب التعلم العميقة ليست تنافسية في المهام المتعلقة بتحديد اللغة لأنها في العديد من مهام تصنيف النص الأخرى.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

من الصعب للغاية ترجمة لغات Dravidian، مثل Kannada و Tamil، على ترجمة النماذج العصبية الحديثة.ينبع هذا من حقيقة أن هذه اللغات غنية بالمثل للغاية بالإضافة إلى توفير الموارد منخفضة الموارد.في هذه الورقة، نركز على تجزئة الكلمات الفرعية وتقييم الحد من الم فردات الدوافع اللغوية (LMVR) مقابل الجملة الأكثر استخداما (SP) لمهمة الترجمة من اللغة الإنجليزية إلى أربعة لغات Dravidian مختلفة.بالإضافة إلى ذلك، نحقق في حجم المفردات الفرعية المثلى لكل لغة.نجد أن SP هو الخيار الأكثر شمولا للتجزئة، وأن أحجام القاموس الأكبر تؤدي إلى جودة الترجمة الأعلى.
أصبح استخدام آليات الاهتمام في أساليب التعلم العميق شعبية في معالجة اللغة الطبيعية بسبب أدائه المعلقة. يسمح باستخدام هذه الآليات إلى إحدى الأهمية لإدارة أهمية عناصر التسلسل وفقا لسياقها، ومع ذلك، فقد تمت ملاحظتها هذه الأهمية بشكل مستقل بين أزواج عناص ر التسلسل (اهتمام الذات) وبين مجال تطبيق التسلسل (الاهتمام السياقي)، مما يؤدي إلى فقد المعلومات ذات الصلة والحد من تمثيل التسلسلات. لمعالجة هذه القضايا الخاصة هذه نقترح آلية الاهتمام الذاتي الذاتي، والتي تتداول قبالة القيود السابقة، من خلال النظر في العلاقات الداخلية والسياقية بين عناصر التسلسل. تم تقييم الآلية المقترحة في أربع مجموعات قياسية لتحقيق مهمة تحديد اللغة المسيئة لتحقيق النتائج المشجعة. تفوقت على آليات الاهتمام الحالية وأظهرت أداء تنافسي فيما يتعلق بالنهج الحديثة من بين الفن.
استخراج الجزء الأكثر أهمية من وثائق التشريعات له قيمة عمل كبيرة لأن النصوص عادة ما تكون طويلة جدا ويصعب فهمها.الهدف من هذه المقالة هو تقييم خوارزميات مختلفة لتلخيص النص على وثائق تشريعات الاتحاد الأوروبي.يحتوي المحتوى على كلمات خاصة بالمجال.جمعنا مجم وعة بيانات تلخيص نصية من الوثائق القانونية للاتحاد الأوروبي والتي تتكون من 1563 وثيقة، والتي متوسط طول الملخصات هو 424 كلمة.أجريت التجارب مع خوارزميات مختلفة باستخدام DataSet الجديدة.تم اختيار خوارزمية استخراجية بسيطة كأساس.الخوارزميات الاستخراجية المتقدمة، والتي تستخدم التشفير تظهر نتائج أفضل من خط الأساس.تم تحقيق أفضل نتيجة تقاس بواسطة درجات Rouge بواسطة نموذج T5 المبشط الذي تم ضبطه بشكل جيد، والذي تم تكييفه للعمل مع النصوص الطويلة.
أصبحت الشبكات العصبية العميقة ونماذج اللغة الضخمة في كل شيء في تطبيقات اللغة الطبيعية. نظرا لأنهم معروفون بطلب كميات كبيرة من بيانات التدريب، فهناك مجموعة متنامية من العمل لتحسين الأداء في إعدادات الموارد المنخفضة. بدافع من التغييرات الأساسية الأخيرة نحو النماذج العصبية والطائرة المسبقة والتدريب الشائعة النغمات الجميلة، نقوم بمسح نهج واعدة لمعالجة اللغات الطبيعية المنخفضة الموارد. بعد مناقشة حول الأبعاد المختلفة لتوفر البيانات، نقدم نظرة عامة منظم على الطرق التي تمكن التعلم عند انتشار البيانات التدريبية. يشتمل ذلك على آليات لإنشاء بيانات إضافية مصممة مثل تكبير البيانات والإشراف البعيد بالإضافة إلى إعدادات التعلم التي تقلل من الحاجة إلى الإشراف المستهدف. الهدف من المسح لدينا هو شرح كيف تختلف هذه الطرق في متطلباتهم كضمين لهم ضروري لاختيار تقنية مناسبة لإعداد محدد من الموارد منخفضة. هناك جوانب رئيسية أخرى لهذا العمل هي تسليط الضوء على القضايا المفتوحة وإطلاع الإرشادات الواعدة للبحث في المستقبل.
العثور على سنة الكتابة لنص تاريخي له أهمية حاسمة للبحث التاريخي.ومع ذلك، نادرا ما يتم ذكر السنة الإبداعية الأصلية بشكل صريح ويجب استنتاجها من المحتوى النصي والسجلات التاريخية والقرائن الترفيزية.بالنظر إلى نص مكبس، فقد تم استخدام تعلم الجهاز بنجاح لتق دير سنة الإنتاج.في هذه الورقة، نقدم نظرة عامة على عدة طرق تقدير لمحفوظات النص التاريخية التي تمتد من القرن الثاني عشر حتى اليوم.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا