ترغب بنشر مسار تعليمي؟ اضغط هنا

تصنيف النص متعدد اللغات المحول العملي

Practical Transformer-based Multilingual Text Classification

441   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

الأساليب القائمة على المحولات جذابة لتصنيف النص متعدد اللغات، ولكن معايير البحوث الشائعة مثل XNLI (Conneau et al.، 2018) لا تعكس توافر البيانات ومجموعة واسعة من تطبيقات الصناعة.نقدم مقارنة تجريبية من نماذج تصنيف النص المستند إلى المحولات في مجموعة متنوعة من إعدادات الاحتياطية وغير اللغوية المتعددة اللغات والضبط.نقيم هذه الأساليب على مهمتين متميزتين في خمس لغات مختلفة.المغادرة من العمل السابق، تظهر نتائجنا أن نماذج لغة متعددة اللغات يمكن أن تتفوق على تلك المهام المطردة في بعض المهام المصب واللغات المستهدفة.نوضح بالإضافة إلى ذلك أن التعديلات العملية مثل المهام وعمالة العمل التكيفية والتكييف يمكن أن تحسن أداء التصنيف دون الحاجة إلى بيانات إضافية إضافية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الهند هي واحدة من أغنى مراكز اللغات على الأرض وهي متنوعة للغاية وتعدد اللغات. ولكن بصرف النظر عن عدد قليل من اللغات الهندية، ما زال معظمهم يعتبرون فقراء الموارد. نظرا لأن معظم تقنيات NLP تتطلب معرفة لغوية لا يمكن تطويرها إلا من قبل الخبراء والمتحدثين الأصليين في هذه اللغة أو أنها تتطلب الكثير من البيانات المسمى باهظة الثمن مرة أخرى لتوليد، فإن مهمة تصنيف النص تصبح تحديا لمعظم الهندي اللغات. الهدف الرئيسي من هذه الورقة هو معرفة كيف يمكن للمرء الاستفادة من التشابه المعجمي الموجود باللغات الهندية في سيناريو متعدد اللغات. هل يمكن إعادة استخدام نموذج تصنيف مدرب على لغة هندية واحدة لغات هندية أخرى؟ لذا، أجرينا تصنيف نصي بالرصاص عن طريق استغلال التشابه المعجمي وملاحظ أن طرازنا ينفذ بشكل أفضل في تلك الحالات حيث يتداخل المفردات بين مجموعات البيانات اللغوية كحد أقصى. تؤكد تجاربنا أيضا أن نموذجا واحدا متعدد اللغات مدرب عبر رابط استغلال اللغة يتفوق على الأساس من الهوامش الهامة.
إن محول نقل النص إلى النص الأخير "'(T5) عند الاستفادة من تنسيق نصي إلى نص موحد ومقياس لتحقيق النتائج الحديثة على مجموعة واسعة من مهام NLP باللغة الإنجليزية.في هذه الورقة، نقدم MT5، وهو متغير متعدد اللغات من T5 الذي تم تدريبه مسبقا على مجموعة بيانات ج ديدة تستند إلى الزواحف تغطي 101 لغات.نحن تفصل على التصميم والتدريب المعدل ل MT5 وإظهار أدائه من أحدث المعايير متعددة اللغات.وصف أيضا تقنية بسيطة لمنع الترجمة العرضية "في إعداد الطلقة الصفرية، حيث يختار طراز عام (جزئيا) تنبؤه بلغة خاطئة.جميع الكود ونقاط التفتيش النموذجية المستخدمة في هذا العمل متاحة للجمهور.
تعدد اللغات T5 Pretrains نموذج تسلسل إلى تسلسل على نصوص أحادية الأبعاد ضخمة، والتي أظهرت نتائج واعدة على العديد من المهام المتبقية اللغوية.في هذه الورقة، نحسن محول نقل النص إلى النص متعدد اللغات مع أزواج الترجمة (MT6).على وجه التحديد، نستكشف ثلاثة مه ام ما قبل التدريب النصي عبر اللغات، وهي الترجمة الآلية، والفساد زوج الترجمة، وتمضم الفساد المشترك.بالإضافة إلى ذلك، نقترح هدف جزئيا غير التلقائي للتدريب المسبق للنص.نقيم الأساليب على سبع مجموعات بيانات معيار متعددة اللغات، بما في ذلك تصنيف الجملة، والاعتراف بالكياء المسمى، والإجابة على الأسئلة، والتلخيص الجماعي.تظهر النتائج التجريبية أن MT6 المقترح يحسن عملية النقل عبر اللغات عبر MT5.
تحديد ما إذا كانت الكلمة تحمل نفس المعنى أو المعنى المختلف في سياقتين هي منطقة بحثية مهمة في معالجة اللغة الطبيعية تلعب دورا مهما في العديد من التطبيقات مثل الإجابة على الأسئلة، وملخص الوثائق، واسترجاع المعلومات واستخراج المعلومات واستخراج المعلومات. يعتمد معظم العمل السابق في هذا المجال على الموارد الخاصة باللغة مما يجعل من الصعب التعميم عبر اللغات.النظر في هذا القيد، فإن نهجنا في مهمة Semeval-2021 يعتمد فقط على نماذج محول مسبقا ولا يستخدم أي معالجة وموارد خاصة باللغة.على الرغم من ذلك، يحقق أفضل نموذج لدينا 0.90 دقة للترقيط الفرعي الإنجليزي الإنجليزي وهو متوافق للغاية مقارنة بأفضل نتيجة الترجمة الفرعية؛0.93 دقة.نهجنا يحقق أيضا نتائج مرضية في أزواج لغة أحادية الألوان وغير اللغوية الأخرى أيضا.
تلقت تصنيف النص الإشراف ضعيف اهتماما كبيرا في السنوات الأخيرة لأنه يمكن أن يخفف من العبء الثقيل في التخلص من البيانات الضخمة. من بينها، الأساليب التي يحركها الكلمات الرئيسية هي السائدة حيث يتم استغلال الكلمات الرئيسية التي توفرها المستخدم لتوليد ملصق ات زائفة للنصوص غير المسبقة. ومع ذلك، فإن الطرق الحالية تعالج الكلمات الرئيسية بشكل مستقل، وبالتالي تجاهل الارتباط بينها، والتي ينبغي أن تكون مفيدة إذا استغلت بشكل صحيح. في هذه الورقة، نقترح إطارا جديدا يسمى ClassKG لاستكشاف ارتباط الكلمات الرئيسية الكلمة الرئيسية على الرسم البياني للكلمة الرئيسية بواسطة GNN. إطار عملنا هو عملية تكرارية. في كل تكرار، نقوم أولا بإنشاء رسم بياني للكلمات الرئيسية، لذلك يتم تحويل مهمة تعيين ملصقات زائفة إلى التسجيل عبر الكلمات الرئيسية. لتحسين جودة التعليق التوضيحي، نقدم مهمة ذاتية الإشراف على الصنع بتقسيم Annetator Sigcraph، ثم Finetune IT. باستخدام الملصقات الزائفة التي تم إنشاؤها بواسطة Annotator Siggraph، ثم تدريب مصنف نصي لتصنيف النصوص غير المسبق. أخيرا، نعيد استخراج الكلمات الرئيسية من النصوص المبوبة. تظهر تجارب واسعة النطاق على كل من مجموعات البيانات الطويلة والنص القصير أن طريقتنا تتفوق بشكل كبير على تلك الموجودة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا