ترغب بنشر مسار تعليمي؟ اضغط هنا

دمج طبقات المتبقية والتطبيع في تحليل نماذج اللغة الملثمين

Incorporating Residual and Normalization Layers into Analysis of Masked Language Models

296   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أصبحت بنية المحولات في كل مكان في مجال معالجة اللغات الطبيعية.لتفسير النماذج القائمة على المحولات، تم تحليل أنماط اهتمامها على نطاق واسع.ومع ذلك، فإن بنية المحولات لا تتكون فقط من الاهتمام متعدد الأطراف؛يمكن أن تسهم مكونات أخرى أيضا في الأداء التدريجي المحولات.في هذه الدراسة، مددنا نطاق تحليل المحولات من أنماط الانتباه فقط إلى كتلة الاهتمام بأكمله، أي اهتمام متعدد الأطراف، والاتصال المتبقي، وتطبيع الطبقة.يوضح تحليل النماذج اللغوية المقصودة للمحولات أن التفاعل الرمزي إلى الرمز المميز الذي يؤديه عن طريق الاهتمام له تأثير أقل على التمثيل الوسيط مما كان مفترض سابقا.توفر هذه النتائج تفسيرات جديدة بديهية للتقارير القائمة؛على سبيل المثال، تم تجاهل أنماط الانتباه المستفادة لا تؤثر سلبا على الأداء.رموز تجاربنا متاحة للجمهور.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في مهام توليد اللغة الطبيعية، يتم استخدام نموذج لغة عصبي لتوليد سلسلة من الكلمات التي تشكل جملة.يمكن اعتبار مصفوفة الوزن الأعلى من طراز اللغة، المعروف باسم طبقة التصنيف، كمجموعة من المتجهات، كل منها يمثل كلمة مستهدفة من قاموس الهدف.يتم تعلم ومكافحة ا لكلمات المستهدفة، إلى جانب بقية المعلمات النموذجية، أثناء التدريب.في هذه الورقة، نقوم بتحليل الممتلكات المشفرة في المتجهات المستهدفة والسؤال على ضرورة تعلم هذه المتجهات.نقترح تعيين ناقلات المستهدفة بشكل عشوائي وتحديدها على أنها ثابتة حتى يتم إجراء تحديثات للأوزان أثناء التدريب.نظهر أنه من خلال استبعاد ناقلات التحسين، ينخفض عدد المعلمات بشكل كبير مع تأثير هامشي على الأداء.نوضح فعالية طريقتنا في التسمية التوضيحية للصورة والترجمة الآلية.
في هذه الورقة، نقترح آلية تسريب المعرفة لإدماج معرف المجال إلى محولات اللغة. يعتبر البيانات الخاضعة للإشراف ضعيفا كمصدر رئيسي للاستحواذ على المعرفة. نحن ندرب نماذج اللغة مسبقا لالتقاط المعرفة الملثمين بالتركيز والجوانب ثم قم بضبطها للحصول على أداء أف ضل على مهام المصب. نظرا لعدم وجود مجموعات بيانات متوفرة للجمهور لتصنيف متعدد التسميات للأسئلة الطبية الصينية، زحفنا أسئلة من منتديات السؤال الطبي / الإجابة وشرحتها يدويا باستخدام ثمانية فصول محددة مسبقا: الأشخاص والمنظمات، والأعراض، والسبب، والفحص والمرض، والمعلومات، المكون، والعلاج. أخيرا، ما مجموعه 1814 سؤالا مع 2،340 ملميا. يحتوي كل سؤال على متوسط ​​1.29 ملصقات. استخدمنا موسوعة بايدو الطبية كمورد المعرفة. تم تنفيذ برت محولين وروبرتا لمقارنة الأداء على مجموعات بياناتنا المبنية. أظهرت النتائج التجريبية أن نموذجنا المقترح مع آلية ضخ المعرفة يمكن أن يحقق أداء أفضل، بغض النظر عن متري التقييم بما في ذلك ماكرو F1 أو مايكرو F1 أو الدقة المزدوجة الواردة في الدقة الفرعية.
أصبحت نماذج لغة كبيرة مسببة الاحترام باستخدام بنية الشبكة العصبية المحولات هي منهجية مهيمنة للعديد من مهام معالجة اللغة الطبيعية، مثل الإجابة على الأسئلة، تصنيف النص، غموض معنى الكلمة، إكمال النص والترجمة الآلية. عادة ما تضم ​​مئات الملايين من المعلم ات، فإن هذه النماذج تقدم أداء حديثة، ولكن على حساب قابلية الترجمة الشفوية. آلية الاهتمام هي العنصر الرئيسي لشبكات المحولات. نقوم بتقديم Attviz، وهي طريقة لاستكشاف اهتمام الذات في شبكات المحولات، والتي يمكن أن تساعد في تفسير وتصحيح الأخطاء من النماذج المدربة من خلال إظهار الجمعيات بين الرموز النصية في تسلسل الإدخال. نظهر أن خطوط أنابيب التعلم العميق الحالية يمكن استكشافها مع Attviz، والذي يوفر تصورات رواية لرؤوس الانتباه وتجميعها. نفذنا الأساليب المقترحة في مجموعة أدوات عبر الإنترنت ومكتبة دون اتصال. باستخدام أمثلة من تحليل الأخبار، نوضح كيف يمكن استخدام ATVIZ للتفتيش والحدوث على فهم أفضل ما تعلمه النموذج.
أشار العمل السابق إلى أن النماذج اللغوية المحددة مسبقا (MLMS) غير فعالة مثل تشفير المعجمات المعجمية والجملة العالمية خارج الرف، أي دون مزيد من ضبط الدقيقة بشكل جيد على NLI أو تشابه الجملة أو إعادة الصياغة المهام باستخدام بيانات المهام المشروحة وبعد ف ي هذا العمل، نوضح أنه من الممكن تحويل MLMS إلى تشفير معجمية وقضية فعالة حتى دون أي بيانات إضافية، والاعتماد ببساطة على الإشراف الذاتي. نقترح تقنية تعليمية بسيطة للغاية وسريعة وفعالة وفعالة، وتسمى برت مرآة، والتي تحول MLMS (على سبيل المثال، بيرت وروبرتا) إلى مثل هذه اللوائح في 20-30 ثانية مع عدم وجود إمكانية الوصول إلى المعرفة الخارجية الإضافية. تعتمد Mirror-Bert على أزواج سلسلة متطابقة وعزز قليلا كأمثلة إيجابية (I.E.، مرادف)، وتهدف إلى زيادة تشابهها أثناء ضبط الهوية ". نبلغ عن مكاسب ضخمة أكثر من MLMS Off-Relf مع Mirror-Bert كل من المستوى المعجمي والمهام على مستوى الجملة، عبر المجالات المختلفة ولغات مختلفة. وخاصة، في مشابه الجملة (STS) ومهام إستقبال الإجابة عن السؤال (QNLI)، فإن نموذجنا المرآة الإشراف على نفسه يطابق أداء نماذج Bertence-Bert من العمل السابق الذي يعتمد على بيانات المهام المشروح. أخيرا، نقوم بتحويل أعمق في الأعمال الداخلية لل MLMS، واقترح بعض الأدلة على سبب قيام هذا النهج بسيطة بسيطة بالمرآبة الرصيد بإعادة ترميز اللوائح المعجمية والعامة العامة الفعالة.
كشفت الدراسات الحديثة عن تهديد أمني لنماذج معالجة اللغة الطبيعية (NLP)، تسمى هجوم الوكيل. يمكن أن تحافظ نماذج الضحايا الحفاظ على أداء تنافسي على عينات نظيفة أثناء التصرف بشكل غير واضح على العينات ذات كلمة مشغلة محددة إدراجها. عادة ما تتحمل أساليب الم هاجمة السابقة أن المهاجمين لديهم درجة معينة من المعرفة بالبيانات، إما مجموعة البيانات التي يستخدمها المستخدمون أو مجموعات البيانات الوكيل لمهمة مماثلة، لتنفيذ إجراء تسمم البيانات. ومع ذلك، في هذه الورقة، نجد أنه من الممكن اختراق النموذج بطريقة خالية من البيانات عن طريق تعديل ناقلات كلمة واحدة تضمينها، مع عدم التضحية بدقة تقريبا على عينات نظيفة. تظهر النتائج التجريبية على تحليل المعنويات ومهام تصنيف زوج الجملة أن طريقتنا أكثر كفاءة وسيلة كريهة. نأمل أن يرفع هذا العمل الوعي بمثل هذا المخاطر الأمنية الحرجة المخفية في طبقات تضمين نماذج NLP. يتوفر الكود الخاص بنا في https://github.com/lancopku/mbedding-poisioning.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا