ترغب بنشر مسار تعليمي؟ اضغط هنا

ماذا سيتطلب الأمر لإصلاح المعايير في فهم اللغة الطبيعية؟

What Will it Take to Fix Benchmarking in Natural Language Understanding?

196   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

التقييم للعديد من مهام فهم اللغة الطبيعية (NLU) مكسورة: النتيجة أنظمة غير موثوقة ومنحمة للغاية على المعايير القياسية التي توجد مساحة صغيرة للباحثين الذين يقومون بتطوير أنظمة أفضل لإظهار التحسينات الخاصة بهم.إن الاتجاه الأخير للتخلي عن معايير IID لصالح مجموعات الاختبارات التي تم إنشاؤها المشدة، خارج التوزيع تضمن أن النماذج الحالية ستؤدي بشكل سيء، ولكن في نهاية المطاف تحجب القدرات التي نريد قياس معاييرنا.في ورقة الموقف هذه، نضع أربعة معايير نجد أن معايير NLU يجب أن تلبي.نجرب أن معظم المعايير الحالية تفشل في هذه المعايير، وأن جمع البيانات العديفية لا يعالج سلبيا أسباب هذه الإخفاقات.بدلا من ذلك، سيتطلب استعادة النظام الإيكولوجي للتقييم الصحي تقدما ملحوظا في تصميم مجموعات البيانات القياسية، والموثوقية التي يتم عرضها معها، وحجمها، والطرق التي تتعاملون مع التحيز الاجتماعي.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نقترح تعريف وتعريفي من أنواع مختلفة من المحتوى النصي غير القياسي - يشار إليها عموما باسم الضوضاء "- في معالجة اللغة الطبيعية (NLP). في حين أن معالجة البيانات المسبقة هي بلا شك مهم بلا شك في NLP، خاصة عند التعامل مع المحتوى الذي تم إنشا ؤه من قبل المستخدم، فإن فهم أوسع لمصادر الضوضاء المختلفة وكيفية التعامل معها هو جانب تم إهماله إلى حد كبير. نحن نقدم قائمة شاملة للمصادر المحتملة للضوضاء، وتصنيفها ووصفها، وتظهر تأثير مجموعة فرعية من استراتيجيات المعالجة القياسية المعدلة على مهام مختلفة. هدفنا الرئيسي هو زيادة الوعي بالمحتوى غير المعتاد - والذي لا ينبغي اعتباره دائما ضوضاء "- والحاجة إلى المعالجة المسبقة التي تعتمد على المهام. هذا بديل إلى بطانية، مثل الحلول الشاملة التي تطبقها الباحثون بشكل عام من خلال "خطوط أنابيب معالجة مسبقا مسبقا". النية هي لهذا التصنيف بمثابة نقطة مرجعية لدعم الباحثين NLP في وضع الاستراتيجيات لتنظيف أو تطبيع أو احتضان المحتوى غير المعتاد.
تقدم هذه الورقة خط أنابيب التعلم شبه الإشرافه (SSL) على أساس إطار المعلم الطالب، الذي يزداد ملايين الأمثلة غير المستمرة لتحسين مهام فهم اللغة الطبيعية (NLU). نحن نبحث في سؤالين يتعلق باستخدام البيانات غير المسبقة في سياق الإنتاج SSL: 1) كيفية تحديد ع ينات من تجمع بيانات ضخمة غير مسفوقة مفيدة لتدريب SSL، و 2) كيف تؤثر البيانات المحددة على أداء حالة مختلفة من بين تقنيات SSL-Art. نقارن أربعة تقنيات SSL المستخدمة على نطاق واسع، والتسمية الزائفة (PL)، وقطاع المعرفة (KD)، والتدريب الخصم الافتراضي (VAT) والتدريب عبر الرؤية (CVT) جنبا إلى جنب مع طريقتين اختيار البيانات بما في ذلك الاختيار القائم على اللجنة وتحسين الأسفل اختيار مقرها. نحن ندرس مزيدا من فوائد وعيوب هذه التقنيات عند تطبيقها على تصنيف تكاليف النية (IC) ومهام التعرف على الكيان المسماة (NER)، وتوفير المبادئ التوجيهية التي تحدد عندما تكون كل من هذه الطرق مفيدة لتحسين أنظمة NLU كبيرة الحجم.
غالبا ما يتم تحديد موكب النموذج إلى التحيز من خلال التعميم على مجموعات البيانات الخارجية المصممة بعناية.أساليب الدخل الحديثة في فهم اللغة الطبيعية (NLU) تحسين الأداء على مجموعات البيانات هذه عن طريق الضغط على النماذج في تحقيق تنبؤات غير متحيزة.الافتر اض الأساسي وراء هذه الأساليب هو أن هذا يؤدي أيضا إلى اكتشاف ميزات أكثر قوة في التمثيلات الداخلية للنموذج.نقترح إطارا عاما يستند إلى التحقيق العامة يسمح بتفسير ما بعد الهوك للتحيزات في طرازات اللغة، واستخدام نهج نظرية معلومات لقياس قابلية استخراج بعض التحيزات من تمثيلات النموذج.نقوم بتجربة العديد من مجموعات بيانات NLU والتحيزات المعروفة، وتظهر ذلك، مضادا بشكل حدسي، كلما دفع نموذج لغة أكثر نحو نظام ديبي، فإن التحيز الأكثر ترميزا بالفعل في تمثيلاته الداخلية.
إن أنظمة الإجابة على السؤال الطبي (QA) لديها القدرة على الرد على أوجه عدم اليقين للأطباء حول العلاج والتشخيص عند الطلب، على علم بأحدث الأدلة.ومع ذلك، على الرغم من التقدم الكبير في عام ضمان الجودة التي أدلى بها مجتمع NLP، لا تزال أنظمة ضمان الجودة الط بية تستخدم على نطاق واسع في البيئات السريرية.أحد الأسباب المحتملة لهذا هو أن الأطباء قد لا يرجعون بسهولة مخرجات نظام ضمان الجودة، جزئيا لأن الشفافية والثقة بالثقة، ولم تكن الأصل اعتبارات رئيسية في تصميم هذه النماذج.في هذه الورقة، نناقش مجموعة من المعايير التي، إذا التقت، فمن المرجح أن تزيد من المرجح أن تزيد من فائدة أنظمة ضمان الجودة الطبية الحيوية، والتي قد تؤدي بدورها إلى اعتماد هذه النظم في الممارسة العملية.نقوم بتقييم النماذج والمهام والموادات الموجودة فيما يتعلق بهذه المعايير وتسليط الضوء على أوجه القصور من الأساليب المقترحة سابقا والشديد نحو ما قد يكون أكثر قدرة للاستخدام من أنظمة ضمان الجودة.
تقطير المعرفة (KD) هي خوارزمية ضغط نموذجية تساعد في نقل المعرفة في شبكة عصبية كبيرة في واحدة أصغر.على الرغم من أن KD قد أظهرت وعد على مجموعة واسعة من تطبيقات معالجة اللغة الطبيعية (NLP)، يفهم القليل حول كيفية مقارنة خوارزمية KD واحدة مع آخر وما إذا ك انت هذه الأساليب يمكن أن تكون مجانية لبعضها البعض.في هذا العمل، نقوم بتقييم خوارزميات KD المختلفة على اختبار داخل المجال والخروج والمصدري.نقترح إطارا لتقييم متانة الخصومة لخوارزميات متعددة الدكتوراط.علاوة على ذلك، نقدم خوارزمية KD جديدة، مجتمعة د.ك، والتي تستفيد من نهجين واعدين (مخطط تدريب أفضل وزعم البيانات أكثر كفاءة).تظهر النتائج التجريبية الواسعة لدينا أن مجتمعة - KD تحقق نتائج أحدث النتائج على مرجع الغراء، وتعميم خارج المجال، ومتانة الخصومة مقارنة بالأساليب التنافسية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا