ترغب بنشر مسار تعليمي؟ اضغط هنا

قناع انتباه الشبكات: إعادة التفكير في المحولات وتعزيزها

Mask Attention Networks: Rethinking and Strengthen Transformer

347   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

المحولات هي شبكة عصبية مقرها الانتباه، والتي تتكون من اثنين من المواد الغذائية، وهي شبكة انتباه الذات (SAN) وشبكة الأعلاف إلى الأمام (FFN). يستكشف البحوث الحالية لتعزيز اثنين من الطبقة الفرعية بشكل منفصل لتحسين القدرة على محول تمثيل النص. في هذه الورقة، نقدم فهما جديدا للسان و FFN كشبكات انتباه قناع (مان) وإظهار أنهم حالتان خاصتان من مانتين مع مصفوفات قناع ثابت. ومع ذلك، فإن مصفوفات قناع ثابتة الحد من القدرة على نمذجة النمذجة في مجال التمثيل النصي. لذلك نقدم طبقة جديدة تسمى شبكة انتباه قناع ديناميكي (DMAN) مع مصفوفة قناع يمكن أن تكون قادرة على نموذج الحزين على التكيف. لتضمين مزايا DMAN و San و FFN، نقترح بنية طبقية متسلسلة للجمع بين الأنواع الثلاثة من الطبقات. تجارب شاملة على المهام المختلفة، بما في ذلك الترجمة العصبية لترجمة الآلات والرسوم النصية توضح أن نموذجنا يتفوق على المحول الأصلي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم DynaBench، وهي منصة مفتوحة المصدر لإنشاء مجموعة البيانات الديناميكية ومعيار النموذج.يعمل Dynabench في متصفح ويب ويدعم إنشاء DataSet Indictet من الإنسان والنموذج في الحلقة: يسعى المحلقون إلى إنشاء أمثلة سيتطلب من النموذج المستهدف، لكن شخص آخر لن يفعله.في هذه الورقة، نجرب أن Dynabench يعالج حاجة حاسمة في مجتمعنا: تحقق النماذج المعاصرة بسرعة الأداء المتميز على المهام القياسية ولكن مع ذلك فشلت في أمثلة التحدي البسيطة وتعثرت في سيناريوهات العالم الحقيقي.من خلال Dynabench، يمكن إنشاء DataSet، تطوير النموذج، وتقييم النماذج إبلاغ بعضها البعض مباشرة، مما يؤدي إلى معايير أكثر قوة وغنية بالمعلومات.نقوم بالإبلاغ عن أربع مهام NLP الأولي، مما يوضح هذه المفاهيم وتسليط الضوء على وعد المنصة، ومعالجة الاعتراضات المحتملة على المعايير الديناميكية كمعيار جديد للحقل.
التدريب التكميلي على مهام البيانات المتوسطة الواسعة (المقابلة) هي تقنية مطبقة على نطاق واسع، والتي تلتزم أولا نماذج اللغة المحددة مسبقا في مهمة وسيطة من قبل على المهمة المستهدفة المهم.في حين أن الطفولة قادرة على تحسين أداء نماذج اللغة المحددة مسبقا، فلا تزال غير واضحة لماذا وعندما يعمل.تبين الأبحاث السابقة أن هذه المهام الوسيطة التي تنطوي على استنتاج معقد، مثل التفكير المنطقي، والعمل بشكل جيد بشكل جيد لروبرتا كبير.في هذه الورقة، نكتشف أن التحسن من المهمة المتوسطة يمكن أن يكون متعامدا له يحتوي على التفكير أو غيرها من المهارات المعقدة --- يمكن له مهمة تمييزية مزيفة حقيقية مزيفة من قبل GPT2 يمكن أن تستفيد مهام مستهدفة متنوعة.نقوم بإجراء تجارب مكثفة لدراسة تأثير العوامل المختلفة على الطفولة.تشير هذه النتائج إلى إعادة التفكير في دور الصقل الدقيق المتوسطة في خط أنابيب المقابلة.
نحن غالبا ما نستخدم الاضطرابات لتنظيم النماذج العصبية.بالنسبة للكشف عن المشفر العصبي، طبقت الدراسات السابقة أخذ العينات المجدولة (بنغيو وآخرون.، 2015) والاضطرابات الخصومة (SATO et al.، 2019) كشراءات ولكن هذه الطرق تتطلب وقتا حسابيا كبيرا.وبالتالي، فإ ن هذه الدراسة تعالج مسألة ما إذا كانت هذه الأساليب فعالة بما يكفي لتدريب الوقت.قارنا العديد من الاضطرابات في مشاكل التسلسل إلى التسلسل فيما يتعلق بالوقت الحاسوبية.تظهر النتائج التجريبية أن التقنيات البسيطة مثل Hold Dropout (GAL و GHAHRAMANI، 2016) واستبدال عشوائي من الرموز المدخلات يحققون درجات قابلة للمقارنة (أو أفضل) إلى الاضطرابات المقترحة مؤخرا، على الرغم من أن هذه الطرق البسيطة أسرع.
تحسنت نماذج اللغة المدربة مسبقا للمحولات بشكل كبير أداء مختلف مهام معالجة اللغة الطبيعية (NLP) في السنوات الأخيرة. في حين أن هذه النماذج فعالة وسائدة، فإن هذه النماذج عادة ما تكون كبيرة كبيرة لسيناريوهات النشر المحدودة للمورد. وهكذا تعمل مؤشر ترابط ا لبحث على تطبيق تقنيات تشذيب الشبكة بموجب النموذج المؤمني ثم Finetune الذي تم تبنيه على نطاق واسع في NLP. ومع ذلك، فإن نتائج التذكيرية الحالية على المحولات القياسية، مثل بيرت، ليست ملحوظة مثل النتائج التقليم في أدب الشبكات العصبية التنافعية (CNNS). على وجه الخصوص، تنص الحكمة الشائعة في تشذيم CNN على أن تقنية تشذيب متناثرة يضغط نموذجا أكثر من ذلك الذي تم الحصول عليه عن طريق تقليل عدد القنوات والطبقات، بينما تعمل الأعمال الموجودة على تشذيب متفرق من بيرت نتائج أدنى من نظرائها الصغير الكثيف مثل Tinybert. في هذا العمل، نهدف إلى ملء هذه الفجوة من خلال دراسة كيفية نقل المعرفة وفقدت خلال عملية القطار المسبق واللغمة الدقيقة، واقتراح عملية تشذيب باري المعرفة التي تحقق نتائج متفوقة بشكل كبير من الأدب الموجود. نعرض لأول مرة أن تشذيب متفرق يضغط نموذج بيرت أكثر بكثير من تقليل عدد القنوات والطبقات. تشير التجارب في مجموعات بيانات متعددة من مؤشر الغراء إلى أن أسلوبنا تتفوق على المنافسين الرائدين مع ضغط وزن / يتخبط 20 مرة وفقدان مهملا في دقة التنبؤ.
تركز أنظمة الكشف عن الساركاز الموجودة على استغلال العلامات اللغوية أو السياق أو البثور على مستوى المستخدم.ومع ذلك، تشير الدراسات الاجتماعية إلى أن العلاقة بين المؤلف والجمهور يمكن أن تكون ذات صلة بنفس القدر لاستخدام السخرية وتفسيرها.في هذا العمل، نقت رح إطارا بالاستفادة المشتركة (1) سياق مستخدم من تغريداتهم التاريخية مع (2) المعلومات الاجتماعية من الحي المحادثة للمستخدم في رسم بياني تفاعل، إلى السياق تفسير المنشور.نحن نستخدم شبكات انتباه الرسوم البيانية (GAT) عبر المستخدمين والتويت في مؤشر ترابط محادثة، جنبا إلى جنب مع تمثيلات سجل المستخدم الكثيفة.بصرف النظر عن تحقيق نتائج حديثة على مجموعة البيانات التي تم نشرها مؤخرا من مستخدمي Twitter الذي تم نشره مؤخرا مع تغريدات تسمية 30 ألفا، قم بإضافة تغريدات 10M Unabeled كسياق، تشير نتائجنا إلى أن النموذج يساهم في تفسير النوايا الساخرة للمؤلف أكثر منالتنبؤ بتصور السخرية من قبل الآخرين.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا