ترغب بنشر مسار تعليمي؟ اضغط هنا

فهم السلبيات الصعبة في تقدير الضوضاء

Understanding Hard Negatives in Noise Contrastive Estimation

600   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يختار من الأمثلة السلبية مهمة في تقدير الضوضاء المقاوم للضوضاء.تعمل الأعمال الحديثة على أن السلبيات الصلبة --- أعلى الأمثلة غير الصحيحة في النموذج --- فعالة في الممارسة العملية، لكنها تستخدم دون مبرر رسمي.نقوم بتطوير أدوات تحليلية لفهم دور السلبيات الصعبة.على وجه التحديد، نرى الخسارة المتعاقبة كقاعدة متحيزة لتدرج فقدان الانتروبين، وإظهار من الناحية النظرية والإيثابية التي تحدد التوزيع السلبي لتحقيق نتائج توزيع النموذج في تخفيض التحيز.ونحن نستمد أيضا شكل عام لوظيفة النتيجة التي تنص على العديد من البنيات المستخدمة في استرجاع النص.من خلال الجمع بين السلبيات الصعبة مع وظائف النتيجة المناسبة، نحصل على نتائج قوية على المهمة الصعبة الرامية إلى ربط الكيان الصفر.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نقترح تعريف وتعريفي من أنواع مختلفة من المحتوى النصي غير القياسي - يشار إليها عموما باسم الضوضاء "- في معالجة اللغة الطبيعية (NLP). في حين أن معالجة البيانات المسبقة هي بلا شك مهم بلا شك في NLP، خاصة عند التعامل مع المحتوى الذي تم إنشا ؤه من قبل المستخدم، فإن فهم أوسع لمصادر الضوضاء المختلفة وكيفية التعامل معها هو جانب تم إهماله إلى حد كبير. نحن نقدم قائمة شاملة للمصادر المحتملة للضوضاء، وتصنيفها ووصفها، وتظهر تأثير مجموعة فرعية من استراتيجيات المعالجة القياسية المعدلة على مهام مختلفة. هدفنا الرئيسي هو زيادة الوعي بالمحتوى غير المعتاد - والذي لا ينبغي اعتباره دائما ضوضاء "- والحاجة إلى المعالجة المسبقة التي تعتمد على المهام. هذا بديل إلى بطانية، مثل الحلول الشاملة التي تطبقها الباحثون بشكل عام من خلال "خطوط أنابيب معالجة مسبقا مسبقا". النية هي لهذا التصنيف بمثابة نقطة مرجعية لدعم الباحثين NLP في وضع الاستراتيجيات لتنظيف أو تطبيع أو احتضان المحتوى غير المعتاد.
تنطوي تصنيف الحبيبات الجميلة على التعامل مع مجموعات البيانات مع عدد أكبر من الفصول مع الاختلافات الدقيقة بينهما.إن توجيه النموذج إلى التركيز على أبعاد التفريق بين هذه الفئات القابلة للتصريفية بشكل شائع هو مفتاح تحسين الأداء في مهام الحبيبات الجميلة.ف ي هذا العمل، نقوم بتحليل ضبط النماذج الصعبة المتناقضة من النماذج المدربة مسبقا على مهام تصنيف نصية جيدة الحجم، وتصنيف العاطفة وتحليل المعنويات.قمنا بتضمين علاقات فئة على تكيفا في وظيفة موضوعية مناقصة للمساعدة في وزن الإيجابيات والسلبيات بشكل مختلف، وعلى وجه الخصوص، ترجغ السلبيات المربكة عن كثب أكثر من أمثلة سلبية أقل مماثلة.نجد أن الخسارة على علم التسمية التي تدركها تتفوق على الأساليب المتعاقبة السابقة، في وجود عدد أكبر و / أو فئات أكبر من الفئات القابلة للتصريف، وتساعد النماذج على إنتاج توزيعات الإخراج التي يتم تمييزها أكثر.
نماذج اللغات المدربة مسبقا بشكل جيد، أصبحت نماذج اللغات المدربة مسبقا من Suchas Bertboard المتصدرين المشترك في إدارة الديم عبر مختلف مهام NLP. نجاحها الأخير والاعتماد الواسع، هذه العملية غير مستقر عندما يكون هناك عدد صغير فقط من عينات التدريب المتاحة . غالبا ما تعكس هذه العملية الحساسية للبذور العشوائية. في هذا PA-PER، نقترح معالجة هذه المشكلة بموجب خاصية استقرار الضوضاء للشبكات العميقة، والتي يتم التحقيق فيها في الأدب الحديث (Aroraet al.، 2018؛ سانيال وآخرون، 2020). على وجه التحديد، نقدم طريقة منتظمة فعالة وفعالة لتحسين ضبط الدقيقة على NLPTASCS، المشار إليها إلى Aslayer-WisenoiseStablegularizulation (LNSR). نقوم بتوسيع juo-ries حول إضافة الضوضاء إلى المدخلات و provethat لدينا طريقة تعطي stabler منتظمة. نحن نقدم دليلا داعما عن طريق تأكيد السابقين بشكل كبير أن الأمهات الجيدة تظهر حساسية منخفضة للضوضاء أن ضبط الضوضاء مع LNSR معارض LNSR بوضوح تعميم التعميم والاستقرار. علاوة على ذلك، توضح طريقةنا أيضا المزايا أكثر من الخوارزميات الحديثة بما في ذلك L2-SP (لي وآخرون، 2018)، خلط (Lee et al.، 2020) و Smart (Jiang et al.، 20)
نقدم نهج تدريب فعال لاسترجاع النص مع تمثيلات كثيفة تنطبق على تقطير المعرفة باستخدام نموذج تصنيف Colbert المتأخر للتفاعل.على وجه التحديد، نقترح نقل المعرفة من مدرس ثنائي التشفير إلى طالب عن طريق تقطير المعرفة من مشغل كولبير في Maxsim المعبير في منتج ن قطة بسيطة.ميزة المعلم ثنائي التشفير - إعداد الطالب هو أنه يمكننا إضافة سلبيات داخل الدفعة الكفاءة أثناء تقطير المعرفة، مما يتيح التفاعلات الأكثر ثراء بين نماذج المعلم والطلاب.بالإضافة إلى ذلك، باستخدام Colbert حيث يقلل المعلم من تكلفة التدريب مقارنة بتشييح عرض كامل.تجارب على ممر MS MARCO ومهام وصف الوثيقة وبياناتها من مسار التعلم العميق TREC 2019 أن نهجنا يساعد النماذج على تعلم تمثيلات قوية لاسترجاع كثيف بفعالية وكفاءة.
تهدف وفرة العمل المنهجي إلى اكتشاف اللغة البغيضة والعنصرية في النص. ومع ذلك، تعوق هذه الأدوات عن مشاكل مثل اتفاقية معلقية منخفضة وتبقى غير متصل إلى حد كبير من العمل النظري في العرق والعنصرية في العلوم الاجتماعية. باستخدام التعليقات التوضيحية من 5188 تغريدة من 291 Annwotators، نحقق في كيفية تختلف تصورات العنصرية في التغريدات في تغريدات Annotator عن الهوية العنصرية واثنين من أهم ميزات التغريدات: الكلمات الرئيسية ذات الصلة والمواضيع الكامنة المحددة من خلال نمذجة الموضوع الهيكلية. نحن نقدم ملخصا وصفيا لبياناتنا وتقدير سلسلة من النماذج الخطية المعممة لتحديد ما إذا كانت الهوية العنصرية المعجلية و 12 مواضيع كامنة، وحدنا أو مجتمعة، شرح الطريقة التي تم تفاحها المشاعر العنصري، صافي الخصائص المعلقية ذات الصلة وميزات سقسقة. تظهر نتائجنا أن المعلقين الأبيض والأبيض غير البيض يحملون اختلافات كبيرة في التصنيفات عند قراءة تغريدات مع ارتفاع الموضوعات المعينة والمشاهية بعصري. نستنتج من خلال الإشارة إلى كيفية الاستفادة من العمل المنهجي في المستقبل على نتائجنا ومزيد من إدراج نظرية العلوم الاجتماعية في التحليلات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا