ترغب بنشر مسار تعليمي؟ اضغط هنا

الشرح شبه الإشراف والإشراف غير المنسق عبر الترجمات

Semi-Supervised and Unsupervised Sense Annotation via Translations

214   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

لا يزال الاستحواذ على بيانات التدريب المتعدد اللغات يمثل تحديا في غزالة معنى الكلمة (WSD).لمعالجة هذه المشكلة، اقترحت النهج غير الخاضعة للكالة لإنشاء التعليقات التوضيحية بالمعنى تلقائيا لتدريب أنظمة WSD الخاضعة للإشراف.نقدم ثلاث طرق جديدة لإنشاء كوربورا المعشوفة بالشعور التي تستفيد الترجمات، وثبات الموازية، والموارد المعجمية، وكذلك تضمينات السياق والتركيب.تطبق أسلوبنا شبه الإشراف ترجمة الجهاز لنقل التعليقات التوضيحية القائمة إلى لغات أخرى.طرقنا اثنين من الأساليب غير الخاضعة لعمليات إعادة صياغة الشرح بالمعنى الناتج عن نظام WSD القائم على المعرفة عبر الترجمات المعجمية في كوربوس متوازي.نحصل على نتائج حديثة على معايير WSD القياسية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

لتخفيف الجهود البشرية من الحصول على شروح واسعة النطاق، تهدف أساليب استخراج العلاقات شبه الإشراف إلى الاستفادة من البيانات غير المسبقة بالإضافة إلى التعلم من عينات محدودة. تعاني أساليب التدريب الذاتي الحالية من مشكلة الانجراف التدريجي، حيث يتم دمج تسم يات زائفة صاخبة على البيانات غير المسبقة أثناء التدريب. لتخفيف الضوضاء في الملصقات الزائفة، نقترح طريقة تسمى METASRE، حيث تقوم شبكة توليد علامات العلاقة بإنشاء تقييم دقيق للجودة على التسميات الزائفة من خلال (META) التعلم من المحاولات الناجحة والفاشية على شبكة تصنيف العلاقة كهدف META إضافي. لتقليل تأثير الملصقات الزائفة الصاخبة، يعتمد METASRE مخطط استغلال ومستودعات زائفة تقيم جودة تسمية الزائفة على العينات غير المستمرة وتستغل فقط تسميات الزائفة عالية الجودة في أزياء التدريب الذاتي لزيادة العينات المصنفة بشكل تدريجي لكل من المتانة والدقة وبعد النتائج التجريبية على مجموعة بيانات عامة تثبت فعالية النهج المقترح.
وصفنا أنظمة جامعة ألبرتا لمهمة الغموض في السياق Semeval-2021 (WIC).نستكشف استخدام معلومات الترجمة لتحديد ما إذا كان هناك رموزان مختلفان من نفس الكلمة يتوافق مع نفس الشعور بالكلمة.يركز تركيزنا على تطوير النهج النظرية المبدئية التي ترتكز في الظواهر الل غوية، مما يؤدي إلى نماذج أكثر قابل للتفسير.نظهر أن الترجمات من لغات متعددة يمكن أن يتم الاستفادة منها لتحسين الدقة في مهمة WIC.
تقدم هذه الورقة خط أنابيب التعلم شبه الإشرافه (SSL) على أساس إطار المعلم الطالب، الذي يزداد ملايين الأمثلة غير المستمرة لتحسين مهام فهم اللغة الطبيعية (NLU). نحن نبحث في سؤالين يتعلق باستخدام البيانات غير المسبقة في سياق الإنتاج SSL: 1) كيفية تحديد ع ينات من تجمع بيانات ضخمة غير مسفوقة مفيدة لتدريب SSL، و 2) كيف تؤثر البيانات المحددة على أداء حالة مختلفة من بين تقنيات SSL-Art. نقارن أربعة تقنيات SSL المستخدمة على نطاق واسع، والتسمية الزائفة (PL)، وقطاع المعرفة (KD)، والتدريب الخصم الافتراضي (VAT) والتدريب عبر الرؤية (CVT) جنبا إلى جنب مع طريقتين اختيار البيانات بما في ذلك الاختيار القائم على اللجنة وتحسين الأسفل اختيار مقرها. نحن ندرس مزيدا من فوائد وعيوب هذه التقنيات عند تطبيقها على تصنيف تكاليف النية (IC) ومهام التعرف على الكيان المسماة (NER)، وتوفير المبادئ التوجيهية التي تحدد عندما تكون كل من هذه الطرق مفيدة لتحسين أنظمة NLU كبيرة الحجم.
في هذه الدراسة، اقترحنا طريقة وضع العلامات الزائفة القائمة على معجم الرواية باستخدام نهج AI (XAI) القائم. النهج الحالي لديه قيود أساسية في متواضتهم لأن المصنف الفقراء يؤدي إلى وضع علامة ناعمة غير دقيقة، ويؤدي إلى تصنيف الفقراء بشكل متكرر. وفي الوقت ن فسه، نولد المعجم يتكون من كلمة المعنويات بناء على نقاط الشرح. ثم نحسب ثقة البيانات غير المسبقة مع المعجم وإضافتها إلى مجموعة بيانات المسمى لنهج وضع العلامات الزائفة القوية. لدينا طريقة المقترحة لها ثلاثة مساهمات. أولا، يولد المنهجية المقترحة تلقائيا معجما يعتمد على Xai ويقوم بإجراء وضع علامات زائفة مستقلة، وبالتالي ضمان الأداء الأعلى والأقلية مقارنة بالآخر. ثانيا، نظرا لأن وضع العلامات الزائفة القائمة على المعجم يتم تنفيذها دون التعلم في معظم النماذج، فإن كفاءة الوقت قد زادت إلى حد كبير، وثالثا، يمكن أن تكون المعجم المنتج عالية الجودة المتوفرة لتحليل المعنويات للبيانات من مجالات مماثلة. تم التحقق من فعالية وكفاءة أسلوبنا المقترح من خلال المقارنة الكمية مع طريقة وضع العلامات الزائفة الحالية والمراجعة النوعية للمعجم الذي تم إنشاؤه.
يهدف تصنيف النص الخاضع للإشراف ضعيف إلى حثص نصوص النص من عدد قليل من كلمات البذور التي توفرها المستخدم. غالبية العمل العظمى من العمل السابق يفترض أن كلمات البذور عالية الجودة تعطى. ومع ذلك، فإن كلمات البذور المشروح للخبراء في بعض الأحيان غير تافهة لل توصل إلى ذلك. علاوة على ذلك، في إعداد التعلم الإشراف ضعيف، ليس لدينا أي وثيقة مسمى لقياس فعالية كلمات البذور، مما يجعل عملية اختيار كلمة البذور المشي في الظلام ". في هذا العمل، نقوم بإزالة الحاجة إلى كلمات البذور التي يديرها الخبراء من قبل كلمات البذور المرشحة الأولى (صاخبة) المرتبطة بأسماء الفئات. ثم تدريب نماذج مؤقتة بكلمات البذور المرشحة الفردية. أخيرا، نقدر معدل خطأ النماذج المؤقتة بطريقة غير منشأة. تتم إضافة كلمات البذور التي تسفر عن أدنى معدلات الخطأ المقدرة إلى مجموعة كلمات البذور النهائية. يوضح تقييم شامل لستة مهام التصنيف الثنائية على أربع مجموعات بيانات شائعة أن الطريقة المقترحة تتفوق على خط أساس باستخدام كلمات البذور اسم الفئة فقط والحصول على أداء مماثل كظرف باستخدام كلمات البذور المشروح من الخبراء.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا