في حين أن مقاييس الأداء الكلية يمكن أن تولد رؤى قيمة على نطاق واسع، إلا أن هيمنتها تعني ظاهرة أكثر تعقيدا وشغنا، مثل الغموض، قد يتم التغاضي عنها.التركيز على الشروط الغامضة (على سبيل المثال مشمس، غائم، شاب، إلخ) نحن تفحص سلوك النماذج المدرجة بشكل مريئي والنصوص فقط، وإيجاد الاختلافات المنهجية من الأحكام الإنسانية حتى عندما يكون الأداء العام للنموذج مرتفعا.للمساعدة في تفسير هذا التباين، نحدد افتراضين أدلى به مجموعات البيانات والنماذج التي تم فحصها، وتسترشد بفلسفة الغموض، عزل الحالات التي لا تعقد فيها.
While aggregate performance metrics can generate valuable insights at a large scale, their dominance means more complex and nuanced language phenomena, such as vagueness, may be overlooked. Focusing on vague terms (e.g. sunny, cloudy, young, etc.) we inspect the behavior of visually grounded and text-only models, finding systematic divergences from human judgments even when a model's overall performance is high. To help explain this disparity, we identify two assumptions made by the datasets and models examined and, guided by the philosophy of vagueness, isolate cases where they do not hold.
المراجع المستخدمة
https://aclanthology.org/
نحن نبذة عن مشكلة تعزيز متانة النموذج من خلال التنظيم. على وجه التحديد، نركز على الأساليب التي تنظم الفرق الخلفي النموذجي بين المدخلات النظيفة والصاخبة. من الناحية النظرية، نحن نقدم اتصالا بطريقتين حديثين، وانتظام جاكوبي والتدريب الخصم الافتراضي، في
تقارير الورقة عن جهد لإعادة النظر في تمثيل بعض حالات أنماط النموذج المشتق في البلغارية.العلاج الجديد المنفذ داخل Bultreebank-Wordnet (BTB-WN)، Wordnet for Bulgarian، هو التجمع معا من الكلمات ذات الصلة التي لها معنى رئيسي مشترك في نفس المكامنة بينما ي
إن جودة أنظمة تبسيط النص الآلي بالكامل ليست جيدة بما يكفي للاستخدام في إعدادات العالم الحقيقي؛بدلا من ذلك، يتم استخدام التبسيط البشري.في هذه الورقة، ندرس كيفية تحسين تكلفة وجودة التبسيط البشري من خلال الاستفادة من الجماعة الجماعية.نقدم نهج الانصهار ا
نسأل الموضوعات سواء كانوا ينظرون إلى وجود مجموعة من النصوص، وبعضها مكتوب بالفعل، في حين يتم إنشاء آخرين تلقائيا.نحن نستخدم هذه البيانات لضبط نموذج GPT-2 لدفعه لتوليد المزيد من النصوص التي يشبه الإنسان، ومراقبة أن هذا النموذج الذي تم ضبطه بشكل جيد ينت
نحن نبحث عن مشكلة الاختلال العظيمة في أبحاث معالجة اللغات الطبيعية، وهذا يعني ببساطة أن تعريف المشكلة لا يتماشى مع الطريقة المقترحة والتقييم البشري لا يتماشى مع التعريف ولا الطريقة.ندرس هذه المشكلة الاختلافة من خلال مسح 10 ورقات أخذ عينات عشوائيا منش