ترغب بنشر مسار تعليمي؟ اضغط هنا

COARSE2FINE: تصنيف النص الرباعي بشكل جيد على البيانات المشروحة المشجعية

Coarse2Fine: Fine-grained Text Classification on Coarsely-grained Annotated Data

709   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تركز أساليب تصنيف النص الحالية أساسا على مجموعة تسمية ثابتة، في حين أن العديد من التطبيقات في العالم الحقيقي تتطلب تمديد فئات جديدة من الرباعي حيث يزيد عدد العينات لكل علامة. لاستيعاب هذه المتطلبات، نقدم مشكلة جديدة تسمى تصنيف الحبيبات الخشنة إلى الدقيقة، والتي تهدف إلى أداء تصنيف جيد الحبيبات على البيانات المشروحة بشكل خشن. بدلا من طلب التعليقات التوضيحية البشرية المحبوبة الجديدة، فإننا نقوم باختيار الاستفادة من أسماء السطح التسمية باعتبارها الإرشادات البشرية الوحيدة والنسج في نماذج لغوية غنية مدربة مسبقا في استراتيجية الإشراف الضعيفة المتكررة. على وجه التحديد، نقترح أولا صياغة صياغة دقيقة مشروطة على التسمية لتحريك هذه المولدات لمهمتنا. علاوة على ذلك، نركض هدف تنظيمي بناء على قيود العلامات الجميلة الخشنة المستمدة من إعداد مشكلتنا، مما يتيح لنا المزيد من التحسينات على الصيغة السابقة. يستخدم إطار عملنا النماذج الإدارية التي تم ضبطها بشكل جيد لعينة بيانات التدريب الزائفة لتدريب المصنف، و BootStraps على البيانات الحقيقية غير المسبقة لتحسين النموذج. تجارب واسعة دراسات حالة عن مجموعات بيانات عالمية في العالم الحقيقي تثبت أداء فائقا فوق خطوط خطوط تصنيف Sota-Shot-Shot.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

BertScore، متري التلقائي المقترح مؤخرا لجودة الترجمة الآلية، تستخدم بيرت، نموذج لغة كبير مدرب مسبقا لتقييم ترجمات المرشحين فيما يتعلق بالترجمة الذهبية. الاستفادة من قدرات بيرت الدلالية والنزالية، تسعى BertScore إلى تجنب عيوب النهج السابقة مثل بلو، بد لا من ذلك تسجيل ترجمات المرشحين بناء على تشابههم الدلالي لحكم الذهب. ومع ذلك، بيرت ليست معصومة؛ في حين أن أدائها في مهام NLP، حددت حالة من الفن الجديد بشكل عام، فقد أظهرت دراسات ذات ظواهر النحوية والدلية المحددة أين ينحرف أداء بيرت عن حالة البشر بشكل عام. هذا يثير بشكل طبيعي الأسئلة التي نعالجها في هذه الورقة: ما هي نقاط القوة والضعف في BertScore؟ هل يرتبطون بالضعف المعروفين من جانب بيرت؟ نجد أنه في حين أن BertScore يمكن أن يكتشف عندما يختلف المرشح عن مرجع في كلمات محتوى مهمة، فهو أقل حساسية للأخطاء الأصغر، خاصة إذا كان المرشح مشابه بشكل جذري أو بشكل مصمم مرجع.
تنطوي تصنيف الحبيبات الجميلة على التعامل مع مجموعات البيانات مع عدد أكبر من الفصول مع الاختلافات الدقيقة بينهما.إن توجيه النموذج إلى التركيز على أبعاد التفريق بين هذه الفئات القابلة للتصريفية بشكل شائع هو مفتاح تحسين الأداء في مهام الحبيبات الجميلة.ف ي هذا العمل، نقوم بتحليل ضبط النماذج الصعبة المتناقضة من النماذج المدربة مسبقا على مهام تصنيف نصية جيدة الحجم، وتصنيف العاطفة وتحليل المعنويات.قمنا بتضمين علاقات فئة على تكيفا في وظيفة موضوعية مناقصة للمساعدة في وزن الإيجابيات والسلبيات بشكل مختلف، وعلى وجه الخصوص، ترجغ السلبيات المربكة عن كثب أكثر من أمثلة سلبية أقل مماثلة.نجد أن الخسارة على علم التسمية التي تدركها تتفوق على الأساليب المتعاقبة السابقة، في وجود عدد أكبر و / أو فئات أكبر من الفئات القابلة للتصريف، وتساعد النماذج على إنتاج توزيعات الإخراج التي يتم تمييزها أكثر.
نماذج NLP عرضة لهجمات تسمم البيانات.يمكن لنوع واحد من الهجوم زرع الأبعاد في نموذج عن طريق حقن الأمثلة المسمولة في التدريب، مما تسبب في نموذج الضحية لإضاءة مثيلات الاختبار التي تتضمن نمطا محددا.على الرغم من أن الدفاعات موجودة لمواجهة هذه الهجمات، فهي محددة لنوع هجوم أو نمط.في هذه الورقة، نقترح آلية دفاعية عامة من خلال جعل عملية التدريب قوية للتسمم بالهجمات من خلال طرق تشكيل التدرج، بناء على التدريب الخاص بشكل مختلف.نظهر أن طريقتنا فعالة للغاية في التخفيف، أو حتى القضاء على الهجمات التسمم على تصنيف النص، مع تكلفة صغيرة فقط في دقة التنبؤية.
تهدف نقل نمط النص إلى توليد نص محكم مع التغييرات الأسلوبية المستهدفة مع الحفاظ على المعنى الأساسي من ثابت الجملة. تركز العديد من معايير نقل النمط الموجودة في المقام الأول على التغييرات الدلالية الفردية الفردية (E.G. إيجابية إلى سلبية)، والتي تمكن من إمكانية التحكم في مستوى عال ولكنها لا تقدم تحكما بخير ينطوي على هيكل جملة، والتركيز ومضمون الجملة. في هذه الورقة، نقدم معيارا واسع النطاق، StyleptB، مع (1) جمل مقترنة تخضع 21 تغييرات أسلوبية حبيبة على غرامة تمتد عبر التحويلات المعجمية البسيطة والمعدة والدلية والمواورة، وكذلك (2) تركيبات متعددة التحويلات التي تسمح نمذجة التغييرات الأسلالية المحتلة الجميلة كقوانيات لتحويل أكثر تعقيدا رفيعة المستوى. بقياس الأساليب الحالية على StyleptB، نجد أنهم يكافحون من أجل تغييرات التغييرات الدقيقة والحصول على وقت أكثر صعوبة في تكوين أنماط متعددة. ونتيجة لذلك، فإن StyleptB يجلب تحديات جديدة نأمل أن يشجع البحث في المستقبل في نقل أسلوب نصي يمكن السيطرة عليها ونماذج تركيبية وتعلم تمثيلات DESENTANGLED. سيقدم حل هذه التحديات خطوات مهمة نحو جيل نص قابل للتحكم.
تقترح هذه الورقة AEDA (أداة تكبير البيانات أسهل) للمساعدة في تحسين الأداء في مهام تصنيف النص.يتضمن AEDA إدراج عشوائي فقط من علامات الترقيم في النص الأصلي.هذه تقنية أسهل لتنفيذ تكبير البيانات من طريقة EDA (Wei و Zou، 2019) مقارنة نتائجنا.بالإضافة إلى ذلك، فإنه يحتفظ بترتيب الكلمات أثناء تغيير مواقعهم في الجملة المؤدية إلى أداء أفضل معمم.علاوة على ذلك، فإن عملية الحذف في إيدا يمكن أن تسبب فقدان المعلومات التي، بدورها تضلل الشبكة، في حين أن Aeda يحافظ على جميع معلومات الإدخال.بعد خط الأساس، نقوم بإجراء تجارب على خمسة مجموعات بيانات مختلفة لتصنيف النص.نظهر باستخدام البيانات المعززة AEDA للتدريب، تظهر النماذج أداء فائقا مقارنة باستخدام البيانات المعززة إيدا في جميع مجموعات البيانات الخمسة.سيتم توفير شفرة المصدر لمزيد من الدراسة واستنساخ النتائج.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا