نحن نحلل كيف يتعلم نموذج اللغة القائم على المحولات قواعد الشطرنج من البيانات النصية للألعاب المسجلة.نوضح كيف يمكن البحث عن كيفية القدرة النموذجية والعدد المتاح لبيانات التدريب التي تؤثر على نجاح تعلم نموذج اللغة بمساعدة مقاييس الشطرنج الخاصة.مع هذه المقاييس، نوضح أن المزيد من الألعاب المستخدمة للتدريب في النطاق المستخدمة تقدم نتائج أفضل بكثير لنفس وقت التدريب.ومع ذلك، فإن حجم النموذج لا يظهر مثل هذا التأثير الواضح.من المثير للاهتمام أيضا أن نلاحظ أن مقاييس التقييم المعتادة لنماذج اللغة، ودقة التنبؤية والحيرة، لا تعطي أي إشارة إلى هذا هنا.يكشف فحص المزيد من النماذج المدربة عن كيفية تخزين المعلومات حول حالة المجلس في تفعيلات مجموعات الخلايا العصبية، وكيف تؤثر التسلسل العام للحركات السابقة على التحركات التي تم إنشاؤها حديثا.
We analyse how a transformer-based language model learns the rules of chess from text data of recorded games. We show how it is possible to investigate how the model capacity and the available number of training data influence the learning success of a language model with the help of chess-specific metrics. With these metrics, we show that more games used for training in the studied range offers significantly better results for the same training time. However, model size does not show such a clear influence. It is also interesting to observe that the usual evaluation metrics for language models, predictive accuracy and perplexity, give no indication of this here. Further examination of trained models reveals how they store information about board state in the activations of neuron groups, and how the overall sequence of previous moves influences the newly-generated moves.
References used
https://aclanthology.org/
Enabling empathetic behavior in Arabic dialogue agents is an important aspect of building human-like conversational models. While Arabic Natural Language Processing has seen significant advances in Natural Language Understanding (NLU) with language m
Temporal commonsense reasoning is a challenging task as it requires temporal knowledge usually not explicit in text. In this work, we propose an ensemble model for temporal commonsense reasoning. Our model relies on pre-trained contextual representat
Due to complex cognitive and inferential efforts involved in the manual generation of one caption per image/video input, the human annotation resources are very limited for captioning tasks. We define language resource efficient as reaching the same
This paper describes our submission for the shared task on Unsupervised MT and Very Low Resource Supervised MT at WMT 2021. We submitted systems for two language pairs: German ↔ Upper Sorbian (de ↔ hsb) and German-Lower Sorbian (de ↔ dsb). For de ↔ h
Generative language models trained on large, diverse corpora can answer questions about a passage by generating the most likely continuation of the passage followed by a question/answer pair. However, accuracy rates vary depending on the type of ques