ترغب بنشر مسار تعليمي؟ اضغط هنا

زيادة المحولات مع الذاكرة المركبة القائمة على KNN للحوار

Augmenting Transformers with KNN-Based Composite Memory for Dialog

485   0   3   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يمكن أن تستفيد مهام التعلم المختلفة من الوصول إلى معلومات خارجية عن طرائق مختلفة، مثل النص والصور.ركز العمل الحديث على تعلم الهندسة مع ذكريات كبيرة قادرة على تخزين هذه المعرفة.نقترحنا زيادة شبكات عصبية محول التوليد مع وحدات جلب المعلومات المستندة إلى KNN (KIF).تعلم كل وحدة KIF عملية قراءة للوصول إلى المعرفة الخارجية الثابتة.نحن نطبق هذه الوحدات النمطية لنمذجة الحوار المولاد، وهي مهمة صعبة حيث يجب استرجاع المعلومات بشكل مرني وإدماجها للحفاظ على موضوع وتدفق المحادثة.نوضح فعالية نهجنا من خلال تحديد المعرفة ذات الصلة المطلوبة للحوار دراية ولكن المشاركة من Wikipedia، والصور، وإظهار أن الاستفادة من هذه المعلومات المستردة تعمل على تحسين أداء النموذج، ويتم قياسه بواسطة التقييم التلقائي والإنساني.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

بالنسبة للعديد من المهام، تم تحقيق النتائج الحديثة مع الهندسة المعمارية القائمة على المحولات، مما يؤدي إلى تحول نموذجي في الممارسات من استخدام الهيغات الخاصة بمهام المهام إلى ضبط نماذج اللغة المدربة مسبقا مسبقا. يتكون الاتجاه المستمر في نماذج تدريبية مع كمية متزايدة باستمرار من البيانات والمعلمات، والتي تتطلب موارد كبيرة. يؤدي إلى بحث قوي لتحسين كفاءة الموارد بناء على تحسينات الخوارزمية والتحسينات التي تم تقييمها للغة الإنجليزية فقط. يثير هذا أسئلة حول قابلية استخدامها عند تطبيقها على مشاكل التعلم الصغيرة، والتي تتوفر كمية محدودة من بيانات التدريب، خاصة لمهام لغات أقل من الموارد. يعد الافتقار إلى كورسا الحجم بشكل مناسب عائقا لتطبيق النهج القائمة على التعلم التي يحركها البيانات ونقلها مع حالات عدم الاستقرار قوية. في هذه الورقة، نقوم بإنشاء أحدث من الجهود المكرسة لسهولة الاستخدام النماذج القائمة على المحولات واقتراح تقييم هذه التحسينات بشأن أداء الإجابة على الأسئلة للغة الفرنسية التي لديها عدد قليل من الموارد. نحن نبذة عن عدم الاستقرار المتعلق ندرة البيانات عن طريق التحقيق في استراتيجيات التدريب المختلفة مع تكبير البيانات وتحسين فرط الحرارة ونقل عبر اللغات. نقدم أيضا نموذجا مدمجا جديدا ل Fralbert الفرنسية التي تثبت أنها تنافسية في إعدادات الموارد المنخفضة.
الملخص نقدم نموذجا يستند إلى الذاكرة للتحليل الدلالي المعتمد على السياق.تركز النهج السابقة على تمكين وحدة فك الترميز لنسخ أو تعديل التحليل من الكلام السابق، على افتراض وجود تبعية بين الحواجز الحالية والسابقة.في هذا العمل، نقترح تمثيل معلومات سياقية ب استخدام ذاكرة خارجية.نحن نتعلم وحدة تحكم ذاكرة السياق التي تدير الذاكرة عن طريق الحفاظ على المعنى التراكمي لإعلام المستخدمين المتسلسلين.نقيم نهجنا على ثلاثة معايير تحليل الدلالات.تظهر النتائج التجريبية أن طرازنا يمكن أن يقوم بتحسين معالجة المعلومات التي تعتمد على السياق وتظهر الأداء المحسن دون استخدام أجهزة فك تشفير المهام الخاصة.
بعد نجاح اهتمام DOT-Product في المحولات، تم اقتراح تقريب عديدة مؤخرا لمعالجة تعقيدها التربيعي فيما يتعلق بطول الإدخال. في حين أن هذه المتغيرات هي الذاكرة وتحسب كفاءة، فمن غير الممكن استخدامها مباشرة مع نماذج اللغة المدربة مسبقا مسبقا تدربت باستخدام ا هتمام الفانيليا، دون مرحلة ما قبل التدريب التصحيحية باهظة الثمن. في هذا العمل، نقترح تقريب بسيط ولكن دقيق للغاية لاهتمام الفانيليا. نقوم بمعالجة الاستعلامات في قطع، ولكل عملية استعلام، حساب أعلى الدرجات * K * فيما يتعلق بالمفاتيح. يوفر نهجنا عدة مزايا: (أ) استخدام ذاكرةه خطي في حجم الإدخال، على غرار متغيرات الانتباه الخطي، مثل أداء و RFA (B) هو استبدال انخفاض في انتباه الفانيليا الذي لا يتطلب أي تصحيحية -إجراء (ج) يمكن أن يؤدي أيضا إلى وفورات كبيرة في الذاكرة في طبقات الأعلاف إلى الأمام بعد إلقاءها في إطار القيمة المألوفة ذات القيمة الرئيسية. نحن نقيم جودة أعلى - * K * تقريب طبقات الاهتمام متعدد الأطراف على أساس الساحة الطويلة المدى، وللطبقات التغذية من T5 و unifectqa على مجموعات بيانات QA متعددة. نظرا لأن نهجنا يؤدي إلى الدقة التي تظل مما يقرب من انتباه الفانيليا في إكمال متعددة بما في ذلك التدريب من الصفر والضبط الناعم والاستدلال بالرصاص الصفر.
بالنظر إلى أهمية بناء أسئلة حوار مرئي جيد (VD)، يدرس العديد من الباحثين موضوعا بموجب إعداد لعبة تخمين صورة Q-Bot-A-Bot، حيث يحتاج السائل إلى رفع سلسلة من الأسئلة لجمع معلومات غير معلنة صورة. على الرغم من التقدم المحرز في التعلم الإشراف (SL) وتعزيز ال تعزيز (RL)، فإن القضايا لا تزال موجودة. أولا، لا توفر الأساليب السابقة إرشادات صريحة وفعالة للمسائل لتوليد أسئلة ذات صلة وبصراحية. ثانيا، يتم إعاقة تأثير RL بواسطة مكون غير كفء، أي خيال، الذي يصنع تنبؤات الصور بناء على الحوار التي تم إنشاؤها وتعيين المكافآت وفقا لذلك. لتعزيز مسائل VD: 1) نقترح اسئلة محسنة للكيان (REEQ) التي تولد أسئلة تحت إشراف الكيانات ذات الصلة وتعلم استراتيجية الاستجواب القائمة على الكيان من الحوار البشرية؛ 2) نقترح خيال معدني قوي ويتم تحسينه ل VD خاصة. تظهر النتائج التجريبية على مجموعة بيانات V1.0 Visdial أن نهجنا يحقق أداء حديثة على كل من مهمة تخمين الصورة وتنوع السؤال. تتحقق الدراسة البشرية مزيدا من أن نموذجنا يولد أسئلة أكثر متعلقة بصريا ومفيدة ومتماسكة.
تعد بيانات المعرفة هائلة وواسعة الانتشار في العالم الحقيقي، والتي يمكن أن تكون بمثابة مصادر خارجية جيدة لإثراء المحادثات. ومع ذلك، في محادثات المعرفة، لا تزال النماذج الحالية تفتقر إلى السيطرة الجميلة على اختيار المعرفة والتكامل مع الحوارات، والتي تؤ دي أخيرا إلى مشاكل توليد الاستجابة غير ذات الصلة المعرفة: 1) اختيار المعرفة يعتمد فقط على سياق الحوار، وتجاهل انتقالات المعرفة المتأصلة جنبا إلى جنب مع تدفقات المحادثة؛ 2) غالبا ما تناسب النماذج أثناء التدريب، مما يؤدي إلى استجابة غير متماسكة من خلال الإشارة إلى الرموز غير المرتبطة من محتوى المعرفة المحددة في مرحلة الاختبار؛ 3) على الرغم من أن الاستجابة يتم إنشاؤها على تاريخ الحوار والمعرفة، إلا أن النماذج غالبا ما تميل إلى التغاضي عن المعرفة المحددة، وبالتالي يولد استجابة المعرفة غير ذات الصلة. لمعالجة هذه المشكلات، اقترحنا نموذجي صراحة انتقال المعرفة في محادثات متعددة الدورانية المتسلسلة عن طريق تجريد المعرفة إلى علامات موضوعية. بالإضافة إلى ذلك، لاستخدام المعرفة المختارة بالكامل في عملية التوليد، نقترح ما قبل التدريب مولد الاستجابة على علم المعرفة لدفع المزيد من الاهتمام على المعرفة المحددة. على وجه الخصوص، يقوم نموذج انتقال المعرفة المتسلسل المزود بمولد استجابة مدروس مدرسي مسبقا (SKT-KG) بتصوير انتقال المعرفة الرفيع المستوى ويستخدم بالكامل بيانات المعرفة المحدودة. تشير النتائج التجريبية على كل من معايير الحوار المنظم وغير المنظمة إلى المعرفة المعرفة إلى أن نموذجنا يحقق أداء أفضل على النماذج الأساسية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا