أصبحت نماذج لغة كبيرة مسببة الاحترام باستخدام بنية الشبكة العصبية المحولات هي منهجية مهيمنة للعديد من مهام معالجة اللغة الطبيعية، مثل الإجابة على الأسئلة، تصنيف النص، غموض معنى الكلمة، إكمال النص والترجمة الآلية. عادة ما تضم مئات الملايين من المعلمات، فإن هذه النماذج تقدم أداء حديثة، ولكن على حساب قابلية الترجمة الشفوية. آلية الاهتمام هي العنصر الرئيسي لشبكات المحولات. نقوم بتقديم Attviz، وهي طريقة لاستكشاف اهتمام الذات في شبكات المحولات، والتي يمكن أن تساعد في تفسير وتصحيح الأخطاء من النماذج المدربة من خلال إظهار الجمعيات بين الرموز النصية في تسلسل الإدخال. نظهر أن خطوط أنابيب التعلم العميق الحالية يمكن استكشافها مع Attviz، والذي يوفر تصورات رواية لرؤوس الانتباه وتجميعها. نفذنا الأساليب المقترحة في مجموعة أدوات عبر الإنترنت ومكتبة دون اتصال. باستخدام أمثلة من تحليل الأخبار، نوضح كيف يمكن استخدام ATVIZ للتفتيش والحدوث على فهم أفضل ما تعلمه النموذج.
Large pretrained language models using the transformer neural network architecture are becoming a dominant methodology for many natural language processing tasks, such as question answering, text classification, word sense disambiguation, text completion and machine translation. Commonly comprising hundreds of millions of parameters, these models offer state-of-the-art performance, but at the expense of interpretability. The attention mechanism is the main component of transformer networks. We present AttViz, a method for exploration of self-attention in transformer networks, which can help in explanation and debugging of the trained models by showing associations between text tokens in an input sequence. We show that existing deep learning pipelines can be explored with AttViz, which offers novel visualizations of the attention heads and their aggregations. We implemented the proposed methods in an online toolkit and an offline library. Using examples from news analysis, we demonstrate how AttViz can be used to inspect and potentially better understand what a model has learned.
المراجع المستخدمة
https://aclanthology.org/
بعد أن يواجه نموذج التسلسل العصبي رمزية غير متوقعة، هل يمكن التنبؤ بسلوكه؟ نظهر أن نماذج Language RNN وحول المحولات تعرض تعميم مهيكلا متسقا في سياقات خارج التوزيع. نبدأ بإدخال نماذجين مثالية من التعميم في التنبؤ التالي بالكلمة التالية: نموذج سياق معج
تعاونت التمثيلات السياقية القائمة على نماذج اللغة العصبية حالة الفن في مختلف مهام NLP. على الرغم من نجاحها الكبير، فإن طبيعة هذه التمثيل لا تزال سرية. في هذه الورقة، نقدم ملكية تجريبية لهذه التمثيلات --- "المتوسط" "تقريب أول عنصر رئيسي". على وجه التح
أصبح استخدام آليات الاهتمام في أساليب التعلم العميق شعبية في معالجة اللغة الطبيعية بسبب أدائه المعلقة. يسمح باستخدام هذه الآليات إلى إحدى الأهمية لإدارة أهمية عناصر التسلسل وفقا لسياقها، ومع ذلك، فقد تمت ملاحظتها هذه الأهمية بشكل مستقل بين أزواج عناص
حصلت نماذج اللغة العصبية عالية الأداء على نتائج أحدث النتائج على مجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، غالبا ما لا تعكس نتائج البيانات القياسية المشتركة الموثوقية النموذجية والمتانة عند تطبيقها على بيانات صاخبة عالمية حقيقية. في
أصبحت بنية المحولات في كل مكان في مجال معالجة اللغات الطبيعية.لتفسير النماذج القائمة على المحولات، تم تحليل أنماط اهتمامها على نطاق واسع.ومع ذلك، فإن بنية المحولات لا تتكون فقط من الاهتمام متعدد الأطراف؛يمكن أن تسهم مكونات أخرى أيضا في الأداء التدريج