بحث متقدم مدعوم من الذكاء الصنعي

مساحة جديدة

اشترك بالحزمة الذهبية واحصل على وصول غير محدود شمرا أكاديميا

تسجيل مستخدم جديد

طبقات محول الأعلاف هي ذكريات القيمة الرئيسية

Transformer Feed-Forward Layers Are Key-Value Memories

303 0 0 0.0 ( 0 )

تحميل البحث استخدام كمرجع

نشر من قبل جمعية اللغويات الحاسوبية ACL مقالة

تاريخ النشر 2021

مجال البحث الذكاء الاصناعي

والبحث باللغة English

تمت اﻹضافة من قبل Shamra Editor

feed-forward layers transformer feed-forward layers key-value memories طبقات الأعلاف إلى الأمام طبقات تغذية المحولات ذكريات القيمة الرئيسية صناعة حمض الفوسفور

قم بزيارة صفحتنا على فيسبوك

اسأل ChatGPT حول البحث

الملخص بالعربية الملخص بالإنكليزية

تشكل طبقات الأعلاف إلى الأمام ثلثي معلمات نموذج المحولات، لكن دورها في الشبكة لا تزال غير مستكشفة.نظرا لأن طبقة الأعلاف إلى الأمام في نماذج اللغة المحولات تعمل كذكريات ذات قيمة رئيسية، حيث يرتبط كل مفتاح بأنماط نصية في أمثلة التدريب، وكل قيمة تحفز توزيعا على مفردات الناتج.تبين تجاربنا أن الأنماط المستفادة قابلة للتفسير بشري، وأن الطبقات المنخفضة تميل إلى التقاط أنماط ضحلة، في حين تعلم الطبقات العليا تلك الدلالية أكثر.تكمل القيم أنماط إدخال المفاتيح من خلال تحفيز توزيعات الإخراج التي تركز كتلة الاحتمالية على الرموز المرجح أن تظهر مباشرة بعد كل نمط، خاصة في الطبقات العليا.أخيرا، نوضح أن إخراج طبقة الأعلاف إلى الأمام هو تكوين ذكرياتها، والتي تم تنصيرها لاحقا في جميع طبقات النموذج عبر الاتصالات المتبقية لإنتاج توزيع الناتج النهائي.

المراجع المستخدمة

https://aclanthology.org/

قيم البحث

272 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

توضح هذه الورقة أن تجميع التوقعات الجماعية التجميعية تستفيد من نمذجة المبررات المكتوبة المقدمة من المتنبئين.تشير تجاربنا إلى أن الأساسيات الأهمية والتصويت المرجحة تنافسية، وأن المبررات المكتوبة مفيدة لاستدعاء سؤال طوال حياته إلا في الربع الأخير.نقوم أيضا بإجراء تحليل الأخطاء ذرف الضوء في الخصائص التي تجعل مبرر غير موثوق بها.

aggregate crowdsourced forecasts key to aggregate aggregate crowdsourced تجميع التوقعات الجماعية مفتاح للجميع المجموع الجماعي صناعة حمض الفوسفور المزيد..

ReadTwice: قراءة مستندات كبيرة جدا مع ذكريات

335 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

غالبا ما تتطلب المهام المكثفة المعرفة مثل الإجابة على الأسئلة استيعاب معلومات من أقسام مختلفة من المدخلات الكبيرة مثل الكتب أو مجموعات المقالات.نقترح ReadTwice، وهي تقنية بسيطة وفعالة تجمع بين العديد من نقاط القوة من الأساليب السابقة لنموذج التبعيات الطويلة المدى مع المحولات.الفكرة الرئيسية هي قراءة النص في شرائح صغيرة، بالتوازي، تلخيص كل قطعة في جدول الذاكرة لاستخدامه في القراءة الثانية للنص.نظهر أن الطريقة تتفوق على نماذج من حجم قابلة للمقارنة على العديد من مجموعات بيانات الإجابة على الأسئلة (QA) وتعيين حالة جديدة من الفن على المهمة السرقة الصعبة، مع أسئلة حول الكتب بأكملها.

documents with memories large documents reading very large وثائق ذات الذكريات وثائق كبيرة قراءة كبيرة جدا صناعة حمض الفوسفور المزيد..

التحقيق ترجمات كلمة في محول ومكتشف التداول لطبقات التشفير

319 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

نظرا لفعاليتها وأدائها، اجتذب نموذج الترجمة المحولات اهتماما واسعا، مؤخرا من حيث النهج القائمة على التحقيق. يركز العمل السابق على استخدام أو التحقيق في الميزات اللغوية المصدر في التشفير. حتى الآن، فإن الطريقة التي تتطور فيها ترجمة كلمة تتطور في طبقات المحولات لم يتم التحقيق فيها بعد. ساذجا، قد يفترض المرء أن طبقات التشفير التقاط معلومات المصدر أثناء ترجمة طبقات فك التشفير. في هذا العمل، نظير على أن هذا ليس كذلك: الترجمة تحدث بالفعل تدريجيا في طبقات التشفير وحتى في تضمين المدخلات. أكثر من المستغرب، نجد أن بعض طبقات وحدة فك التشفير المنخفضة لا تفعل ذلك بالفعل فك التشفير. نعرض كل هذا من حيث النهج التحقيق حيث نعلم تمثيلات الطبقة التي تم تحليلها إلى مستوى التصنيف المدربين والمجمد النهائي من وحدة فك الترميز المحول لقياس دقة ترجمة Word. تحفز النتائج التي توصلنا إليها وشرح تغيير تكوين محول: إذا حدث الترجمة بالفعل في طبقات التشفير، فربما يمكننا زيادة عدد طبقات التشفير، مع تقليل عدد طبقات فك ترميز أو زيادة سرعة فك التشفير، دون خسارة في جودة الترجمة؟ تبين تجاربنا أن هذا هو في الواقع الحالة: يمكننا زيادة السرعة إلى عامل 2.3 مع مكاسب صغيرة في جودة الترجمة، في حين أن تكوين التشفير العميق 18-4 يعزز جودة الترجمة عن طريق +1.42 بلو (EN-DE) بسرعة -1.4 1.4.

trading decoder encoder layers تداول فك طبقات التشفير صناعة حمض الفوسفور

دا محول: محول عن بعد

253 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

حقق المحول نجاحا كبيرا في مجال NLP من خلال تأليف نماذج متقدمة مختلفة مثل Bert و GPT. ومع ذلك، قد لا تكون المحول ومتغيراتها الحالية هي الأمثل في التقاط مسافات رمزية لأن الموضع أو المدينات المسافة التي تستخدمها هذه الأساليب عادة لا يمكن أن تبقي المعلوم ات الدقيقة للمسافات الحقيقية، والتي قد لا تكون مفيدة لنمذجة أوامر وعلاقات السياقات. في هذه الورقة، نقترح Da-Transformer، وهو محول أدرك عن بعد يمكنه استغلال المسافة الحقيقية. نقترح دمج المسافات الحقيقية بين الرموز الرموز لإعادة توسيع نطاق أوزانات اهتمام الذات الخام، والتي يتم حسابها بأهمية استفسار الاهتمام والمفتاح. بشكل ملموس، يرأس نفس الاهتمام الذاتي مختلف المسافة النسبية بين كل زوج من الرموز المرجحة بواسطة معلمات مختلفة يمكن أن تتحكم في تفضيلات مختلفة على المعلومات الطويلة أو قصيرة الأجل من هذه الرؤوس. نظرا لأن المسافات الحقيقية المرجحة الخام قد لا تكون مثالية لضبط أوزان الاهتمام الذاتي، فإننا نقترح وظيفة Sigomoid ذاتيا في تعيينها في معاملات إعادة التحجيم التي لها نطاقات مناسبة. نحن نقطع لأوزان اهتمام الذات الخام أولا عبر وظيفة RELU للحفاظ على عدم السلبية وإدخال Sparsity، ثم اضربها مع معاملات إعادة التحجيم لترميز معلومات حقيقية عن مسافة عن بعد. تظهر تجارب واسعة على خمسة مجموعات بيانات قياسية أن DA-Transformer يمكن أن يحسن بشكل فعال أداء العديد من المهام وتفوق محول الفانيليا وعدة من المتغيرات.

distance-aware transformer bert and gpt محول عن بعد بيرت و GPT. صناعة حمض الفوسفور

تحسين التعلم الموحد لتحليل المعنويات المستندة إلى جانب جانب من جانب ذكريات الموضوع

698 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

يتنبأ تحليل المعنويات المستندة إلى جانب الجسيم (ABASA) بقبولية المعنويات نحو مصطلح معين معين في جملة، وهي مهمة مهمة في تطبيقات العالم الحقيقي. لأداء ABSA، يلزم النموذج المدرب أن يكون له فهم جيد للمعلومات السياقية، وخاصة الأنماط الخاصة التي تشير إلى ق طبية المعنويات. ومع ذلك، تختلف هذه الأنماط عادة في جمل مختلفة، خاصة عندما تأتي الجمل من مصادر مختلفة (المجالات)، مما يجعل ABSA لا يزال صعبا للغاية. على الرغم من الجمع بين البيانات المسمى عبر مصادر مختلفة (المجالات) هو حل واعد لمعالجة التحدي، في التطبيقات العملية، عادة ما يتم تخزين هذه البيانات المسمى في مواقع مختلفة وقد لا يمكن الوصول إليها لبعضها البعض بسبب الخصوصية أو المخاوف القانونية (مثل البيانات مملوكة لشركات مختلفة). لمعالجة هذه المشكلة واستخدم أفضل استخدام لجميع البيانات المسمى، نقترح نموذج ABSA الجديد مع التعلم الفيدرالي (FL) المعتمد للتغلب على قيود عزل البيانات وإدماج ذاكرة الموضوع (TM) المقترح اتخاذ حالات البيانات من مصادر متنوعة (المجالات) في الاعتبار. خاصة، تهدف TM إلى تحديد مصادر البيانات المختلفة المعزولة بسبب عدم إمكانية الوصول إلى البيانات من خلال توفير معلومات فئة مفيدة للتنبؤات المحلية. توضح النتائج التجريبية على بيئة محاكاة لثلاثة عقد مع ثلاث عقود فعالية نهجنا، حيث تتفوق TM-FL على خطوط أساس مختلفة بما في ذلك بعض أطر FL مصممة جيدا.

الاستدلال في الدوران المتعدد صناعة حمض الفوسفور

الأسئلة المقترحة

شرح تقنية التعرف على الصوت Voice Recognition

1731 - 0 - - تم طرحه بمساحة (الذكاء الاصناعي)

التعرف على الصوت التعرف على الكلام التعرف على الكلام التلقائي

سجل دخول لتتمكن من نشر تعليقات

التعليقات

جاري جلب التعليقات

سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها

جامعة حماه

تفاصيل إضافية المزيد من الجامعات

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد

طبقات محول الأعلاف هي ذكريات القيمة الرئيسية

Transformer Feed-Forward Layers Are Key-Value Memories

اسأل ChatGPT حول البحث

اقرأ أيضاً

الأسئلة المقترحة