ترغب بنشر مسار تعليمي؟ اضغط هنا

إنشاء Corpus وتحديد اللغة في النص المنخفض

Corpus Creation and Language Identification in Low-Resource Code-Mixed Telugu-English Text

242   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعد خلط الكود (سم) ظاهرة شائعة في المجتمعات متعددة اللغات. يلعب CM دورا مهما في مجال التكنولوجيا والحقول الطبية حيث تكون المصطلحات في اللغة الأم وغير معروفة. سيساعد تحديد اللغة (غطاء) من بيانات CM حل مهام NLP مثل التدقيق الإملائي، والتعرف على الكيان المسمى، وعلامات جزء من الكلام، والتحليل الدلالي. في العصر الحالي من التعلم الآلي، فإن المشكلة المشتركة للمهام المذكورة أعلاه هي توافر بيانات التعلم لتدريب نماذج. في هذه الورقة، نقدم مجموعة بيانات Telugu-English-English مزقوفة يدويا (مجموعة بيانات Twitter DataSet and Blog). تحتوي مجموعة بيانات Twitter على المزيد من التباين بالحروف بالحروف اللاتينية وأصحاب أخطاء إملائية من مجموعة بيانات المدونة. قارننا عبر نماذج التصنيف المختلفة وإجراء علامات مقاعد البدلاء واسعة النطاق باستخدام نماذج التعلم الكلاسيكية والعميقة للغطاء مقارنة بالنماذج الحالية. نقترح دورتين لتصنيف اللغة (التيلجو والإنجليزي) في بيانات CM: (1) تصنيف مستوى تصنيف مستوى الكلمات (2) تصنيف الكلمات من Word-Word وتقارن هذه النهج تقديم خطين قويين للغطاء على مجموعات البيانات هذه.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يسعى مركز الترجمة الظاهري الوطني (NVTC) إلى الحصول على أدوات تكنولوجيا اللغة البشرية (HLT) التي ستسهل مهمتها لتوفير ترجمات حرفية باللغة الإنجليزية لملفات الصوت والفيديو اللغوية.في المجال النصي، تستخدم NVTC ذاكرة الترجمة (TM) لبعض الوقت وقد أبلغت عن د مج الترجمة الآلية (MT) في سير العمل (Miller et al.، 2020).بينما لقد استكشفنا استخدام ترجمة الكلام (STT) وترجمة الكلام (stt) في الماضي (Tzoukermann و Miller، 2018)، فقد استثمرنا الآن في إنشاء كائن كبير من البشر من صنع الإنسان لتقييم بدائل بدقة.النتائج من تحليلنا لهذه الشقوق وأداء أدوات HLT تشير إلى الطريق إلى الأكثر واعدة للنشر في سير العمل لدينا.
تبسيط النص هو حقل متزايد مع العديد من التطبيقات المفيدة المحتملة.تتطلب خوارزميات تبسيط النص التدريب عموما الكثير من البيانات المشروحة، ومع ذلك لا توجد العديد من الشركات المناسبة لهذه المهمة.نقترح طريقة جديدة غير مخالفة لمحاذاة النص بناء على تضمين Doc 2vec وخوارزمية محاذاة جديدة، قادرة على محاذاة النصوص على مستويات مختلفة.يوضح التقييم الأولي نتائج واعدة للنهج الجديد.استخدمنا النهج المطور الذي تم تطويره حديثا لإنشاء كوربلا متوازيا أحادية طيور أحادية جديدة تتألف من أعمال الفلاسفة الحديث الإنجليزي وإصداراتهم المبسطة المقابلة.
حقق التعلم التلوي نجاحا كبيرا في الاستفادة من المعرفة المستفادة التاريخية لتسهيل عملية التعلم المهمة الجديدة.ومع ذلك، فإن تعلم معرفة المهام التاريخية، التي اعتمدتها خوارزميات التعلم التلوي الحالية، قد لا تعميم بشكل جيد للاختبار المهام عندما لا تكون م دعومة جيدا بمهام التدريب.تدرس هذه الورقة مشكلة تصنيف النص المنخفض للموارد ويزيد الفجوة بين مهام اختبار التوطين والاختبار التلوي من خلال الاستفادة من قواعد المعرفة الخارجية.على وجه التحديد، نقترح KGML لإدخال تمثيل إضافي لكل جملة مستفادة من الرسم البياني المعرفي الخاص بالحكم الجملة المستخرجة.توضح التجارب الواسعة على ثلاثة مجموعات بيانات فعالية KGML تحت كلا من إعدادات التكيف والإشراف غير المدفوع.
التصنيفات هي تمثيل رمزي للعلاقات الهرمية بين المصطلحات أو الكيانات. في حين أن التصنيفات مفيدة في تطبيقات واسعة، فإن تحديثها أو الحفاظ عليها يدويا كثيفة العمالة وصعبة الحجم في الممارسة العملية. تفشل الأساليب الإشرافية التقليدية لهذه المهمة التخصيب هذه في العثور على والدي الأمثل للمصطلحات الجديدة في إعدادات الموارد المنخفضة حيث تتوفر تصنيفات صغيرة فقط بسبب التجاوز عن العلاقات الهرمية في التصنيفات. لمعالجة مشكلة تخصيب التصنيف المنخفض للموارد، نقترح Musubu، وهو إطار فعال لإثراء التصنيف في إعدادات الموارد المنخفضة مع نماذج اللغة المحددة مسبقا (LMS) كقواعد المعرفة للتعويض عن نقص المعلومات. يستفيد Musubu مصنف قائم على LM لتحديد ما إذا كان أزواج المصطلح المدبأ أو عدم وجود علاقات هرمية. يستخدم Musubu أيضا أنماطا هارا لتوليد استفسارات للاستفادة من المعرفة الضمنية من LM بكفاءة من أجل التنبؤ الأكثر دقة. إننا نوضح تجريبيا فعالية طريقتنا في تجارب واسعة النطاق بشأن التصنيفات من كل من مهمة Semeval ومجموعات بيانات التجزئة العالمية الحقيقية.
في هذه المهمة المشتركة، نسعى إلى الفرق المشاركة للتحقيق في العوامل التي تؤثر على جودة أنظمة توليد النص المختلط من التعليمات البرمجية.نقوم بتوليد جمل هينجليشقة مختلطة من التعليمات البرمجية باستخدام نهجين متميزين وتوظفوا النواحي البشري لتقييم جودة الجي ل.نقترحان اثنين من الترقيع، والتنبؤ بتصويت الجودة وتنبؤ الخلاف المعلقين في مجموعة بيانات الهنزيكية الاصطناعية.ستقدم التسكير الفرعي المقترح إلى إحالة المنطق والاضطرابات للعوامل التي تؤثر على الجودة والإدراك البشري للنص المزيج من التعليمات البرمجية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا