ترغب بنشر مسار تعليمي؟ اضغط هنا

بناء عينات صغيرة من خلال تلخيص لتصنيف النص مع التعليقات التوضيحية المحدودة

Constructing contrastive samples via summarization for text classification with limited annotations

378   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

لقد ظهر التعلم الناقض كطريقة لتعلم التمثيل القوي ويسهل العديد من المهام المصب المختلفة خاصة عندما تكون البيانات الخاضعة للإشراف محدودة. كيفية بناء عينات مضاءة فعالة من خلال تكبير البيانات هي مفتاح نجاحها. على عكس مهام الرؤية، لم يتم التحقيق في طريقة تكبير البيانات للتعلم المتعاقل بما فيه الكفاية في مهام اللغة. في هذه الورقة، نقترح نهج رواية لبناء عينات صغيرة لمهام اللغة باستخدام تلخيص النص. نحن نستخدم هذه العينات للتعلم المتعاقل الخاضع للإشراف للحصول على تمثيلات نصية أفضل التي تنفصل إلى حد كبير مهام تصنيف النص بشراحي محدود. لمزيد من تحسين الطريقة، نخلط عينات من فئات مختلفة وإضافة تنظيم إضافي، يدعى Mixsum، بالإضافة إلى فقدان الانتروبيا. توضح التجارب في مجموعات بيانات تصنيف النص العالمي الحقيقي (Amazon-5، YELP-5، AG News، IMDB) فعالية إطار التعلم المقاوم للضبط المقترح مع تكبير البيانات القائمة على التلخصات وانتظام Mixsum.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نقدم تجارب حل النواة مع كورفوس كورفوس متعددة اللغات التي تم إنشاؤها حديثا (Nedoluzhko et al.، 2021).نحن نركز على اللغات التالية: التشيكية والروسية والبولندية والألمانية والإسبانية والكاتالونية.بالإضافة إلى التجارب أحادية الأحادية، نجمع بين بيانات التدريب في تجارب متعددة اللغات وتدريب نماذج متضررة - لغلق سلافية وللجميع اللغات معا.نحن نعتمد على نموذج التعلم العميق في نهاية إلى نهاية تتكيف قليلا مع Corefud Corpus.تظهر نتائجنا أنه يمكننا الاستفادة من التعليقات التوضيحية المنسقة، واستخدام النماذج الانضمام تساعد بشكل كبير على اللغات مع بيانات التدريب الأصغر.
أظهر العمل الحديث مدى ضعف مصنف النصوص الحديثة للهجمات الخصومة العالمية، والتي هي تسلسل مدخلات غير مرغقة من الكلمات المضافة إلى النص المصنوع من قبل المصنفين. على الرغم من أن تكون ناجحة، فإن تسلسل الكلمات المنتجة في هذه الهجمات غالبا ما تكون غير رسمية ويمكن تمييزها بسهولة عن النص الطبيعي. نقوم بتطوير هجمات عدائية تظهر أقرب إلى عبارات اللغة الإنجليزية الطبيعية وحتى الآن أنظمة التصنيف عند إضافتها إلى المدخلات الحميدة. نحن نستفيد من AutoNCoder المنعصنة (ARAE) لتوليد المشغلات واقتراح بحث يستند إلى التدرج يهدف إلى زيادة فقدان تنبؤ التنبؤ بالتنبؤ في المصب. تقلل هجماتنا بشكل فعال دقة النموذج على مهام التصنيف مع كونها أقل تحديدا من النماذج السابقة وفقا لمقاييس الكشف التلقائي والدراسات البشرية. هدفنا هو إثبات أن الهجمات المشنة يمكن أن تكتشف أكثر صعوبة مما كان يعتقد سابقا وتمكين تطوير الدفاعات المناسبة.
أصبح التعلم المستمر أمرا مهما بشكل متزايد لأنه تمكن نماذج NLP للتعلم باستمرار واكتساب المعرفة بمرور الوقت. يتم تصميم أساليب التعلم المستمرة السابقة بشكل أساسي للحفاظ على المعرفة من المهام السابقة، دون التركيز كثيرا على كيفية تعميم النماذج بشكل جيد لم هام جديدة. في هذا العمل، نقترح طريقة التنظيم القائم على معلومات المعلومات للتعلم المستمر حول تصنيف النص. أسلوبنا المقترح أولا DESENTANGLES نص مساحات مخفية في تمثيلات عامة لجميع المهام والتمثيلات الخاصة بكل مهمة فردية، ومزيد من تنظيم هذه التمثيلات بشكل مختلف بشكل أفضل تقييد المعرفة المطلوبة للتعميم. نحن نقدم أيضا مهام مساعدة بسيطة: التنبؤ بالجمل التالي وتنبؤ المهام معرف المهام، لتعلم مساحات تمثيلية عامة ومحددة أفضل. توضح التجارب التي أجريت على معايير واسعة النطاق فعالية طريقتنا في مهام تصنيف النص المستمر مع تسلسلات مختلفة وأطوال فوق خطوط الأساس الحديثة. لقد أصدرنا علنا ​​رمزنا في https://github.com/gt-salt/idbr.
عادة ما يتم تصريف عينات صعبة من فئة الأقليات في تصنيف النص غير المتوازنين لأنها مضمنة في منطقة دلالية متداخلة مع فئة الأغلبية. في هذه الورقة، نقترح معلومات متبادلة إطار متبادل إطار عمل إطفاء دلالة (MISO) يمكن أن تولد مثيلات مرساة لمساعدة شبكة العمود الفقري على تحديد موضع إعادة تضمين التمثيل غير المتداخلة لكل عينة صعبة لكل عينة صعبة. يتكون ميسو من (1) وحدة دموية دلالية تتعلم دلالات متشابكة بين العينات الصعبة والأغلبية مع آلية اهتمام متعدد الأهمية التكيفية، (2) فقدان المعلومات المتبادلة التي تفرض نموذجنا لتعلم تمثيلات جديدة من دلالات متشابكة في غير منطقة متداخلة من فئة الأقليات، و (3) فك تشفير المشفر المقدم من الأقميات التي تتلألؤها التي تتلألؤها الدلالية التي تثبت أن تظل ترتباطاتها مع فئة الأقليات، ثم باستخدام هذه التمثيلات الدلالية في الإعفاء من أجل توليد مثيلات مرساة لكل عينة صعبة. تظهر التجارب في مجموعة متنوعة من مهام تصنيف النص غير المتوازنة أن مثيلات المرساة تساعد المصنفين على تحقيق تحسينات كبيرة على خطوط خطوط خطوط خطوط خطوط طويلة.
تغطية إعلامية لها تأثير كبير على التصور العام للأحداث. ومع ذلك، فإن وسائل الإعلام هي في كثير من الأحيان منحازة. طريقة واحدة إلى المقالات الإخبارية Bias هي تغيير اختيار الكلمة. يعد التعريف التلقائي للتحيز من خلال اختيار Word صعبة، ويرجع ذلك أساسا إلى عدم وجود مجموعة بيانات قياسية ذهبية وتبعية عالية السياق. تقدم هذه الورقة فاتنة، وهي مجموعة بيانات قوية ومتنوعة تم إنشاؤها بواسطة خبراء مدربين، بحثا عن أبحاث وسائل الإعلام. نحن نحلل أيضا سبب أهمية وضع العلامات الخبيرة ضمن هذا المجال. توفر مجموعة البيانات الخاصة بنا جودة توضيحية أفضل واتفاقية أعلى معلقا من العمل الحالي. وهي تتألف من 3700 جمل متوازنة بين الموضوعات والمنافذ، تحتوي على تسميات وسائل الإعلام على مستوى الكلمة ومستوى الجملة. بناء على بياناتنا، نقدم أيضا وسيلة للكشف عن الجمل التي تحفز التحيز في مقالات إخبارية تلقائيا. يتم تدريب أفضل ما لدينا من النموذج المستند في بيرت المدرب مسبقا على كوربوس أكبر يتكون من ملصقات بعيدة. قم بضبط وتقييم النموذج على مجموعة البيانات الخاضعة للإشراف المقترحة، ونحن نحقق درجة ماكرو F1 من 0.804، مما يتفوق على الأساليب الحالية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا