ترغب بنشر مسار تعليمي؟ اضغط هنا

الاهتمام المستند إلى المحتوى المستند إلى المحتوى مع محولات التوجيه

Efficient Content-Based Sparse Attention with Routing Transformers

503   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تم اعتماد اهتمام الذات مؤخرا لمجموعة واسعة من مشاكل النمذجة التسلسلية. على الرغم من فعاليته، فإن اهتمام الذات يعاني من حساب التربيعي ومتطلبات الذاكرة فيما يتعلق بطول التسلسل. تركز النهج الناجحة للحد من هذا التعقيد على حضور النوافذ المنزلق المحلية أو مجموعة صغيرة من المواقع مستقلة عن المحتوى. يقترح عملنا تعلم أنماط الانتباه ديناميكية متناثرة تتجنب تخصيص الحساب والذاكرة لحضور المحتوى غير المرتبط باستعلام الفائدة. يبني هذا العمل على سطرين من الأبحاث: فهو يجمع بين مرونة النمذجة للعمل المسبق على اهتمام متمرد للمحتوى مع مكاسب الكفاءة من الأساليب القائمة على الاهتمام المحلي والزموني المتناثر. نموذجنا، محول التوجيه، ينفذ عن النفس مع وحدة توجيه متناثرة تعتمد على الوسائل K عبر الإنترنت مع تقليل التعقيد العام للانتباه إلى O (N1.5D) من O (N2D) لطول التسلسل N وبعد المخفي D. نظرا لأن نموذجنا يتفوق على نماذج انتباه متناثرة قابلة للمقارنة على نمذجة اللغة على Wikitext-103 (15.8 مقابل 18.3 حيرة)، وكذلك على جيل الصورة على Imagenet-64 (3.43 مقابل 3.44 بت / خافت) أثناء استخدام طبقات أقل من الاهتمام الذاتي. بالإضافة إلى ذلك، وضعنا مجموعة جديدة من مجموعة جديدة من مجموعة بيانات PG-19 التي تم إصدارها حديثا، والحصول على اختبار حيرة من 33.2 مع نموذج محول توجيه 22 طبقة مدرب على تسلسل الطول 8192. نحن نفتح المصدر لتحويل التوجيه في Tensorflow.1



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

استرجاع المرور والترتيب هو مهمة رئيسية في الإجابة على الأسئلة المفتوحة واسترجاع المعلومات. تعتمد الأساليب الفعالة الحالية في الغالب على المستردين المعتمدين على النموذج العميق المدربين مسبقا. تم عرض هذه الأساليب نموذجا بفعالية المطابقة الدلالية بين ال استعلامات والمرورات، أيضا في وجود عدم تطابق الكلمات الرئيسية، أي الممرات ذات الصلة بالاستعلام ولكن لا تحتوي على كلمات رئيسية مهمة. في هذه الورقة، نعتبر المسترد الكثيف (DR) وطريقة استرجاع الممر، و Re-Ranker Reveer، وهي طريقة إعادة ترتيب الشعبية. في هذا السياق، نحقق رسميا كيفية استجابة هذه النماذج والتكيف مع نوع معين من عدم تطابق الكلمة الرئيسية - التي تحدث عن طريق الكلمة الأساسية التي تحدث في استفسارات. من خلال التحقيق التجريبي، نجد أن الأخطاء المطبعية يمكن أن تؤدي إلى انخفاض كبير في فعالية الاسترجاع والترتيب. بعد ذلك اقترحنا إطارا بسيطا للتدريب في الطباعة المطبعية عن DR و Bert Re-Ranker لمعالجة هذه المسألة. نظرا لنتائجنا التجريبية على مجموعة بيانات مرتبة مرور MS MARCO، بإظهار مجموعة بيانات MS MARCO، من خلال التدريب على الأخطاء المطبعية المقترحة، يمكن أن يصبح تدريب DR و Bert Re-Ranker قويا للمخططات المطبعية في الاستفسارات، مما يؤدي إلى تحسين فعالية محسنة بشكل كبير مقارنة بالنماذج المدربة دون محاسبة بشكل مناسب عن الأخطاء المطبعية.
غالبا ما يتطلب فهم الروايات بالكامل من الأحداث في سياق المستندات بأكملها ونمذجة علاقات الحدث.ومع ذلك، فإن استخراج الأحداث على مستوى المستند هو مهمة صعبة لأنها تتطلب استخراج الحدث والكيان الأساسية، والتقاط الحجج التي تمتد عبر جمل مختلفة.تعمل الأعمال ا لموجودة على استخراج الأحداث عادة على استخراج الأحداث من جمل واحدة، والتي تفشل في التقاط العلاقات بين الحدث تذكر على نطاق المستند، وكذلك حجج الحدث التي تظهر في جملة مختلفة عن مشغل الحدث.في هذه الورقة، نقترح نماذج طراز نهاية إلى نهاية شبكات القيمة العميقة (DVN)، خوارزمية التنبؤ منظم، لالتقاط التبعيات عبر الأحداث بكفاءة لاستخراج الأحداث على مستوى المستند.تظهر النتائج التجريبية أن نهجنا يحقق أداء قابلا للمقارنة مع النماذج القائمة على CRF على ACE05، بينما تتمتع بكفاءة حسابية أعلى بكثير.
تحتوي المهام القياسية الحالية لمعالجة اللغة الطبيعية على نص مختلف عن النص المستخدم في اليومي غير الرسمي إلى الاتصال الرقمي اليومي. أدى هذا التناقض إلى تدهور الأداء الشديد لنماذج NLP الحديثة عندما يتم ضبطها بشكل جيد على بيانات العالم الحقيقي. طريقة وا حدة لحل هذه المشكلة هي من خلال التطبيع المعجمي، وهي عملية تحويل النص غير القياسي، وعادة ما تكون من وسائل التواصل الاجتماعي، إلى نموذج أكثر موحدة. في هذا العمل، نقترح نموذج تسلسل تسلسل على مستوى الجملة بناء على MBART، مما يؤدي إلى إطارات المشكلة بمثابة مشكلة ترجمة آلية. نظرا لأن النص الصاخب يمثل مشكلة منتشرة عبر اللغات، وليس الإنجليزية فقط، فإننا نستفيد من التدريب المسبق متعدد اللغات ل MBART لضبطه إلى بياناتنا. في حين أن الأساليب الحالية تعمل بشكل رئيسي على مستوى الكلمة أو الكلمات الفرعية، فإننا نجادل بأن هذا النهج واضح واضح من وجهة نظر تقنية ويبني على شبكات المحولات الموجودة مسبقا. تظهر نتائجنا أنه في حين أن مستوى الكلمة، جوهري، فإن تقييم الأداء هو وراء الطرق الأخرى، فإن نموذجنا يحسن الأداء على مهام خارجية ومصمبة من خلال التطبيع مقارنة بالنماذج التي تعمل على نص وسائل التواصل الاجتماعي الخام وغير المجهزة.
على الرغم من النجاحات الأخيرة للنماذج المحول القائمة على المحولات من حيث الفعالية في مجموعة متنوعة من المهام، غالبا ما تظل قراراتها مبهمة للبشر.تعتبر التفسيرات مهمة بشكل خاص للمهام مثل اللغة الهجومية أو الكشف عن السمية على وسائل التواصل الاجتماعي لأن عملية الاستئناف اليدوية غالبا ما تكون في مكانها للتنازل عن المحتوى الموضح تلقائيا.في هذا العمل، نقترح تقنية لتحسين إمكانية تفسير هذه النماذج، بناء على افتراض بسيط وقوي: منشور على الأقل سميك مثل أكثر سبتمته سامة.نحن ندمج هذا الافتراض في نماذج المحولات من خلال تسجيل وظيفة بناء على الحد الأقصى للسمية من يمتد ويزيد عملية التدريب لتحديد المواقف الصحيحة.نجد هذا النهج فعال ويمكننا إنتاج تفسيرات تتجاوز جودة تلك المنصوص عليها في تحليل الانحدار اللوجستي (غالبا ما تعتبر نموذجا واضحا للغاية)، وفقا لدراسة بشرية.
هدفنا من خلال هذه الدراسة في إطار المشروع الفصلي للسنة الرابعة إلى إلقاء الضوء على استرجاع الصور من مجموعة كبيرة بالاعتماد على محتوى صورة هدف , و قمنا بتدعيم هذه الدراسة بتطبيق ضمن بيئة الماتلاب لبرنامج بحث عن الصور المشابهة لصورة مدخلة . و قد تركز بحثنا على ميزتين هامتين يكاد لا يخلو منها أي نظام بحث عن الصور بالاعتماد على المحتوى و هما ميزتي الهيستوغرام اللوني و بنية الصورة texture , ووضحنا الخطوات التي يتم في ضوئها عملية الاسترجاع بدءاً من تحليل الصورة و استخلاص شعاع الواصفات الخاص فيها , و مطابقته مع أشعة الميزات الخاصة بالصور الموجودة في قاعدة البيانات ليتم ترتيب الصور بحسب مدى تشابهها من الصورة الهدف . و تطرقت الدراسة إلى استخدام الفضاء اللوني HMMD كبديل للفضاء اللوني RGB لاستخراج واصفات البنية اللونية على اعتبار أنه نموذج لوني موجه بالمستخدم user oriented و بالتالي نضمن أن نحصل على نتائج أفضل ترضي المستخدم . وقمنا بتدعيم الدراسة بعدد من الأشكال و الأمثلة و المخططات التي توضح محتوى الدراسة النظرية و ما قمنا بعمله في التطبيق ضمن بيئة الماتلاب .

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا