من الصعب تقييم نماذج اللغة.ونحن نفرج عن Supersim، ومجموعة تشابه ورابطات متعلقة على نطاق واسع في السويدية التي بنيت أحكاما بشرية خبراء.يتكون مجموعة الاختبار من 1،360 كلمة أزواج يحكمها بشكل مستقل لكل من الرصيد والتشابه بمقدار خمسة Annotators.نقوم بتقييم ثلاث نماذج مختلفة (Word2VEC، FastText، والقفازات) المدربين على مجموعة بيانات سويدية منفصلة، وهي كوربوس Gigaword السويدية وتفريغ ويكيبيديا السويدية، لتوفير خط أساس للمقارنة في المستقبل.سنقوم بتصدر مجموعة الاختبارات المشروحة بالكامل والنماذج والنماذج والبيانات.
Language models are notoriously difficult to evaluate. We release SuperSim, a large-scale similarity and relatedness test set for Swedish built with expert human judgements. The test set is composed of 1,360 word-pairs independently judged for both relatedness and similarity by five annotators. We evaluate three different models (Word2Vec, fastText, and GloVe) trained on two separate Swedish datasets, namely the Swedish Gigaword corpus and a Swedish Wikipedia dump, to provide a baseline for future comparison. We will release the fully annotated test set, code, models, and data.
المراجع المستخدمة
https://aclanthology.org/
تستخدم أسئلة متعددة الخيارات (MCQs) على نطاق واسع في تقييم المعرفة في المؤسسات التعليمية، أثناء مقابلات العمل، في الاختبارات الترفيهية والألعاب.على الرغم من أن البحث عن الجيل التلقائي أو شبه التلقائي من عناصر اختبار متعددة الخيارات قد أجريت منذ بداية
نلاحظ مثالا على التحيز المستحث بين الجنسين في تطبيق في النهر، على الرغم من عدم وجود كلمات جنسانية صريحة في حالات الاختبار.نحن نقدم مجموعة اختبار، Sowinobias، لغرض قياس مثل هذه التحيز الجنساني الكامن في أنظمة حل السلاسة.نقيم أداء أساليب الدخل الحالية
تقدم الورقة موردا جديدا ورمائيا، لدراسة مورفولوجيا تكوين الكلمة السويدية الحديثة.تم تقسيم ما يقرب من 16.000 مادة معجمية في المورد بشكل يدويا إلى مورفيمز تشكيل Word، ومسمى لفئاتها، مثل البادئات والمعقاص والجذور، وما إلى ذلك آليات تكوين كلمة، مثل الاشت
اقترحت الدراسات النفسية تتبع العين أن التماسك الدلالي في السياق والتنبؤية تؤثر على معالجة اللغة خلال نشاط القراءة.في هذه الدراسة، يمكننا التحقيق في الارتباط بين أوجه التشابه الجيبيني المحسوب مع نماذج تضمين كلمة (كلا من البيانات الثابتة والسياقية) وبي
تتمثل الوصفة الحالية لأداء نموذج أفضل داخل NLP في زيادة حجم نموذج البيانات والتدريب.في حين أن ذلك يعطينا نماذج مع نتائج رائعة بشكل متزايد، إلا أنها تجعل من الصعب تدريب ونشر نماذج أحدث ل NLP بسبب زيادة التكاليف الحاسوبية.ضغط النموذج هو مجال للبحث الذي