ترغب بنشر مسار تعليمي؟ اضغط هنا

ما بعد Black \ & White: الاستفادة من خلاف Annotator عن طريق التعلم المتعدد التسمية المتعددة

Beyond Black \& White: Leveraging Annotator Disagreement via Soft-Label Multi-Task Learning

258   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

التعلم الإشرافه يفترض أن ملصق الحقيقة الأرض موجود.ومع ذلك، فإن موثوقية هذه الحقيقة الأرضية تعتمد على المنشآت البشرية، التي لا توافق في كثير من الأحيان.وقد أظهر العمل السابق أن هذا الخلاف يمكن أن يكون مفيدا في نماذج التدريب.نقترح طريقة جديدة لدمج هذا الخلاف كمعلومات: بالإضافة إلى حساب الأخطاء القياسي، نستخدم التسميات الناعمة (أي توزيعات الاحتمالات على الملصقات Annotator) كملقمة مساعدة في شبكة عصبية متعددة المهام.نقيس الاختلاف بين التنبؤات والملصقات الناعمة المستهدفة مع العديد من وظائف الخسائر وتقييم النماذج على مهام NLP المختلفة.نجد أن المهمة الإضافية للتنبؤ بالعلامة الناعمة تقلل من عقوبة الأخطاء بشأن الكيانات الغامضة، وبالتالي تخفف من التجول.يحسن بشكل كبير الأداء عبر المهام، بما يتجاوز النهج القياسي والعمل السابق.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تستند نهج كتابة الكيانات التقليدية إلى نماذج تصنيف مستقلة، مما يجعلها من الصعب التعرف على أنواع الكيان المعتمدة والذات طويل الذيل والحبوب. في هذه الورقة، نجادل بأن التبعيات الخارجية والمترنوية المتطودة ضمنيا بين الملصقات يمكن أن توفر معرفة حاسمة لمعا لجة التحديات المذكورة أعلاه. تحقيقا لهذه الغاية، نقترح شبكة تسمية الملصقات (LRN)، والتي الأسباب التسلل تسميات الكيانات الجميلة من خلال اكتشاف واستغلال المعرفة التبعيات الملصقات المتاحة في البيانات. على وجه التحديد، تستخدم LRN شبكة التراجع التلقائي لإجراء منطق استنتاجي ورسم رسمي من السمة الحيوية لإجراء منطق حثي بين الملصقات، والتي يمكن أن تكفذ بشكل فعال، وتعلم وسبب تبعيات التسمية المعقدة في مجموعة تسلسل إلى مجموعة، ونهاية إلى نهاية وبعد تظهر التجارب أن LRN تحقق الأداء الحديثة على معايير كيانات كيانات فائقة الفيرلة القياسية، ويمكن أيضا حل مشكلة تسمية الذيل الطويل بشكل فعال.
تهدف وفرة العمل المنهجي إلى اكتشاف اللغة البغيضة والعنصرية في النص. ومع ذلك، تعوق هذه الأدوات عن مشاكل مثل اتفاقية معلقية منخفضة وتبقى غير متصل إلى حد كبير من العمل النظري في العرق والعنصرية في العلوم الاجتماعية. باستخدام التعليقات التوضيحية من 5188 تغريدة من 291 Annwotators، نحقق في كيفية تختلف تصورات العنصرية في التغريدات في تغريدات Annotator عن الهوية العنصرية واثنين من أهم ميزات التغريدات: الكلمات الرئيسية ذات الصلة والمواضيع الكامنة المحددة من خلال نمذجة الموضوع الهيكلية. نحن نقدم ملخصا وصفيا لبياناتنا وتقدير سلسلة من النماذج الخطية المعممة لتحديد ما إذا كانت الهوية العنصرية المعجلية و 12 مواضيع كامنة، وحدنا أو مجتمعة، شرح الطريقة التي تم تفاحها المشاعر العنصري، صافي الخصائص المعلقية ذات الصلة وميزات سقسقة. تظهر نتائجنا أن المعلقين الأبيض والأبيض غير البيض يحملون اختلافات كبيرة في التصنيفات عند قراءة تغريدات مع ارتفاع الموضوعات المعينة والمشاهية بعصري. نستنتج من خلال الإشارة إلى كيفية الاستفادة من العمل المنهجي في المستقبل على نتائجنا ومزيد من إدراج نظرية العلوم الاجتماعية في التحليلات.
يتم جذب تصنيف المستندات متعددة الملصقات، وربط مثيل مستندات واحدة بمجموعة من الملصقات ذات الصلة، المزيد والمزيد من اهتمام البحوث. استكشاف الأساليب الحالية دمج المعلومات وراء النص، مثل بيانات تعريف الوثيقة أو هيكل الملصقات. ومع ذلك، فإن هذه الأساليب إم ا ببساطة الاستفادة من المعلومات الدلالية من البيانات الوصفية أو توظيف التسلسل الهرمي لملصق الوالدين والطفل المحدد مسبقا، وتجاهل الهياكل الرسومية غير المتجانسة للبيانات الوصفية والملصقات، والتي نعتقد أنها حاسمة لتصنيف مستندات دقيقة متعددة الملصقات. لذلك، في هذه الورقة، نقترح نهجا جديدا في الشبكة العصبية لتصنيف المستندات متعددة الملصقات، حيث يتم بناء الرسوم البيانية غير المتجانسة والتعلم باستخدام محولات الرسم البياني غير المتجانس. أحدهما هو الرسم البياني غير المتجانس في البيانات الأولية، والتي نماذج أنواع مختلفة من البيانات الوصفية وعلاقاتها الطوبولوجية. الآخر هو الرسم البياني الملصق غير المتجانس، الذي تم إنشاؤه بناء على كل من التسلسل الهرمي للملصقات والتمثيل الإحصائي. النتائج التجريبية على مجموعة من مجموعات البيانات القياسية تظهر النهج المقترح تفوق العديد من خطوط الأساس الحديثة.
تعتمد تقنيات AdgeDDing Word بشدة على ترددات الكلمات في Corpus، وتتأثر سلبا بفشل في تقديم تمثيلات موثوقة للكلمات ذات التردد المنخفض أو الكلمات غير المرئية أثناء التدريب. لمعالجة هذه المشكلة، نقترح خوارزمية لتعلم Admeddings عن الكلمات النادرة على أساس محرك بحث الإنترنت وعلاقات الموقع المكاني. خوارزميتنا عائدات في خطوتين. نقوم أولا باسترجاع صفحات الويب المقابلة للكلمة النادرة من خلال محرك البحث وتحليل النتائج المرسلة لاستخراج مجموعة من أكثر الكلمات ذات الصلة. نحن متوسط ​​ناقلات الكلمات ذات الصلة باعتبارها المتجه الأولي للكلمة النادرة. بعد ذلك، فإن موقع الكلمة النادرة في مساحة المتجه يتم ضبطه بشكل متكرر وفقا لترتيب ما له في الكلمات ذات الصلة. بالمقارنة مع النهج الأخرى، يمكن للخوارزمية لدينا معرفة تمثيلات أكثر دقة لمجموعة واسعة من المفردات. نقوم بتقييم شركاتنا النادرة المستفادة من الكلمات النادرة على مهمة كلمة متعلقة، وتظهر النتائج التجريبية أن خوارزميتنا تحقق الأداء الحديث من بين الفن.
حققت النماذج التراجعية التلقائية واسعة النطاق نجاحا كبيرا في توليد استجابة الحوار، بمساعدة طبقات المحولات. ومع ذلك، فإن هذه النماذج لا تتعلم مساحة كامنة تمثيلية لتوزيع الجملة، مما يجعل من الصعب التحكم في الجيل. لقد حاولت الأعمال الحديثة على تعلم تمثي لات الجملة باستخدام الإطار القائم على المحولات، ولكن لا تطلق على علاقة استجابة السياق المضمنة في مجموعات بيانات الحوار. في هذا العمل، نهدف إلى إنشاء نموذج لتعليم التمثيل القوي التمثيل، وهو مصمم خصيصا لتوليد استجابة الحوار، مع هيكل ترميز الترميز المستندة إلى المحولات. يقترح التعلم المتعرج عن مستوى الكلام، وترميز المعلومات التنبؤية في كل تمثيل سياق لاستجابة لها المقابلة. يتم إجراء تجارب واسعة للتحقق من تقلب آلية تعليم التمثيل المقترح. باستخدام كلا من مقاييس التقييم المستندة إلى المرجعية والمرجعية، نقدم تحليلا مفصلا على الجمل التي تم إنشاؤها، مما يدل على فعالية نموذجنا المقترح.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا