ترغب بنشر مسار تعليمي؟ اضغط هنا

تكتسب توضيحات اللغة الطبيعية (NL) من التنبؤات النموذجية شعبية كوسيلة لفهم القرارات والتحقق منها من قبل النماذج المدربة مسبقا كبيرة من الصندوق الأسود، للمهام مثل الإجابة على الأسئلة (QA) والتحقق من الحقائق. مؤخرا، أثبتت التسلسل المدرب مسبقا إلى نماذج التسلسل (SEQ2SEQ) أن تكون فعالة للغاية في اتخاذ التنبؤ المشترك، بالإضافة إلى توليد تفسيرات NL. ومع ذلك، هذه النماذج لديها العديد من أوجه القصور؛ يمكنهم تصنيع توضيحات حتى بالنسبة للتنبؤات غير الصحيحة، فمن الصعب التكيف مع مستندات الإدخال الطويلة، وتتدرب تدريبها كمية كبيرة من البيانات المسمى. في هذه الورقة، نطور FID-EX، والتي تعالج هذه العيوب لنماذج SEQ2SeQ بقلم: 1) إدخال علامات جملة للقضاء على تلفيق التفسير من خلال تشجيع الجيل الاستخراجي، 2) باستخدام بنية الانصهار في وحدة فك التشفير للتعامل مع سياقات الإدخال الطويلة، و 3) توسيط الصغار على ضبط مجموعات بيانات QA المجال المفتوحة المهيكلة لتحسين أداء القليل من الطلقات. تحسن FID-السابقين بشكل كبير على العمل السابق من حيث مقاييس التفسير ودقة المهام على خمس مهام من المعيار لشرح الممحاة في كل من إعدادات الإشراف بالكامل وعدد القليلة.
لتدقيق متانة نماذج التعرف على الكيان المسماة (NER)، نقترح روكر، وسيلة بسيطة ولكنها فعالة لإنشاء أمثلة خصومة طبيعية. على وجه التحديد، على مستوى الكيان، نحل محل الكيانات المستهدفة مع كيانات أخرى من نفس الطبقة الدلالية في ويكيداتا؛ على مستوى السياق، نست خدم نماذج اللغة المدربة مسبقا (E.G.، Bert) لتوليد بدائل النصية. معا، تنتج مستويين AT- TACH أمثلة مخدرة طبيعية تؤدي إلى توزيع تحول من البيانات التدريبية التي تم تدريب نماذجنا المستهدفة عليها. نحن نطبق الطريقة المقترحة على مجموعة بيانات Ontonotes وإنشاء معيار جديد يدعى OnTorock لتقييم متانة النماذج NER الحالية عبر بروتوكول تقييم منهجي. تجاربنا وتحليلنا تكشف أنه حتى أفضل نموذج له انخفاض كبير في الأداء، ويبدو أن هذه النماذج تحفز أنماط كيان داخل المجال بدلا من التفكير من السياق. يدرس عملنا أيضا آثار عدد قليل من أساليب تكبير البيانات البسيطة لتحسين متانة نماذج NER.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا