أثار العمل الحديث مخاوف بشأن القيود المتأصلة للاحتجاج بالنص. في هذه الورقة، نوضح أولا أن الإبلاغ عن التحيز، ميل لا يذكر أن الواضح، هو أحد أسباب هذا القيد، ثم التحقيق في أي مدى يمكن للتدريب المتعدد الوسائط تخفيف هذه المشكلة. لإنجاز هذا، نحن 1) إنشاء مجموعة بيانات اللون (CODA)، مجموعة بيانات من توزيعات الألوان التي طالبي الإنسان 521 كائنات مشتركة؛ 2) استخدم Coda لتحليل ومقارنة توزيع الألوان الموجود في النص، والتوزيع الذي تم التقاطه بواسطة نماذج اللغة، وتصور الإنسان للون؛ و 3) التحقيق في اختلافات الأداء بين النماذج النصية فقط والنماذج متعددة الوسائط على CODA. تظهر نتائجنا أن توزيع الألوان التي يتعافها نموذج اللغة تعاد ترتبط بقوة أكبر بتوزيع غير دقيق موجود في نصا أكثر من الحقيقة الأرضية، مما يدعم الادعاء بأن الإبلاغ عن التحيز يؤثر سلبا على تدريب سلبي ويحد تدريبا بطبيعته على التدريب فقط. ثم نوضح أن النماذج متعددة الوسائط يمكن أن تستفيد من التدريب البصري لتخفيف هذه الآثار، مما يوفر وسيلة واعدة للبحث في المستقبل.
Recent work has raised concerns about the inherent limitations of text-only pretraining. In this paper, we first demonstrate that reporting bias, the tendency of people to not state the obvious, is one of the causes of this limitation, and then investigate to what extent multimodal training can mitigate this issue. To accomplish this, we 1) generate the Color Dataset (CoDa), a dataset of human-perceived color distributions for 521 common objects; 2) use CoDa to analyze and compare the color distribution found in text, the distribution captured by language models, and a human's perception of color; and 3) investigate the performance differences between text-only and multimodal models on CoDa. Our results show that the distribution of colors that a language model recovers correlates more strongly with the inaccurate distribution found in text than with the ground-truth, supporting the claim that reporting bias negatively impacts and inherently limits text-only training. We then demonstrate that multimodal models can leverage their visual training to mitigate these effects, providing a promising avenue for future research.
المراجع المستخدمة
https://aclanthology.org/
كانت مشكلة تفسير المعرفة المستفادة من قبل اهتمام ذاتي متعدد الأطراف في المحولات واحدة من الأسئلة المركزية في NLP. ومع ذلك، فإن الكثير من العمل يركز بشكل أساسي على النماذج المدربة لمهام UNI-MODAL، على سبيل المثال الترجمة الآلية. في هذه الورقة، نقوم بف
يتم قبولها على نطاق واسع أن نماذج اللغة المدربة مسبقا بشكل كبير توفر عادة تحسينات الأداء في مهام المصب. ومع ذلك، هناك دراسات محدودة حول الأسباب الكامنة وراء هذه الفعالية، لا سيما من وجهة نظر التغييرات الهيكلية في مساحة التضمين. في محاولة لملء هذه الف
أظهرت الأعمال التجريدية الأخيرة أن نماذج اللغة (LM) تلتقط أنواعا مختلفة من المعرفة فيما يتعلق بالحقائق أو الحس السليم. ومع ذلك، نظرا لأن أي نموذج مثالي، إلا أنهم لا يزالون يفشلون في تقديم إجابات مناسبة في العديد من الحالات. في هذه الورقة، نطرح السؤال
إن جودة الخدمات الصحية و نوعيتها و لاسيما في مجال الصحة الإنجابية هي
احد أهم المرتكزات لترويجها و لزيادة استخدامها من قبل السيدات و لاسيما في مجال تنظيم الأسرة. مازالت هناك نسبة عالية في سورية من السيدات ذوات الاحتياجات لموانع الحمل غير ملباة، مما ي
إن جودة الخدمات الصحية و نوعيتها و لاسيما في مجال الصحة الإنجابية هي
احد أهم المرتكزات لترويجها و لزيادة استخدامها من قبل السيدات و لاسيما في مجال تنظيم
الأسرة. مازالت هناك نسبة عالية في سورية من السيدات ذوات الاحتياجات لموانع الحمل
غير ملباة، مما