ترغب بنشر مسار تعليمي؟ اضغط هنا

أقرب طرازات لغة الجار

Efficient Nearest Neighbor Language Models

371   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعلم نماذج اللغة العصبية غير المعلمة (NLMS) التوزيعات التنبؤية للنص باستخدام مصدر بيانات خارجي، والذي يسمح لهم بالتعلم من خلال حفظ مخطط Datapooints التدريبي بشكل صريح.في حين أن هذه النماذج فعالة، فإن هذه النماذج غالبا ما تتطلب استرجاع من مؤشرات بيانات كبيرة في وقت الاختبار، مما يزيد بشكل كبير من تسليم الاستدلال، وبالتالي يحد من نشر NLMS غير المعلم في التطبيقات العملية.في هذه الورقة، نأخذ نموذج لغة Geature K-Neave المقترح مؤخرا كمثال، استكشاف الطرق لتحسين كفاءتها على طول الأبعاد المختلفة.تبين التجارب في معيار Wikitext-103 القياسي ومجموعات بيانات التكيف عن المجال أن أساليبنا قادرة على تحقيق ما يصل إلى سرعة 6X في سرعة الاستدلال مع الاحتفاظ بأداء مماثل.قد يوفر التحليل التجريبي الذي نقدمه مبادئ توجيهية للبحث في المستقبل يسعى إلى تطوير أو نشر أكثر كفاءة غير رسمية غير رسمية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

كشف العاطفة مهمة مهمة يمكن تطبيقها على بيانات وسائل التواصل الاجتماعي لاكتشاف المعرفة الجديدة.في حين أن استخدام طرق التعلم العميق لهذه المهمة كان سائدا، فهي نماذج من الصندوق الأسود، مما يجعل قراراتها بجد لتفسير مشغل بشري.لذلك، في هذه الورقة، نقترح نه جا باستخدام Kevent Kearbors المرجح (KNN)، وهو نموذج تعليمي بسيط وسهل تنفيذي وشرحه.هذه الصفات يمكن أن تساعد في تعزيز موثوقية النتائج وتحليل الأخطاء التوجيه.على وجه الخصوص، نطبق نموذج KNN المرجح بمهمة الكشف عن العاطفة المشتركة في تغريدات Semeval-2018.يتم تمثيل التغريدات باستخدام أساليب مختلفة لتضمين نصية وعشرات المفردات المعجمية العاطفة، ويتم التصنيف من قبل مجموعة من نماذج KNN المرجحة.تتمتع أفضل أساليبنا بنتائج تنافسية مع حلول حديثة وفتح مسارا بديلا واعدا لأساليب الشبكة العصبية.
تثبت نماذج اللغة القائمة على المحولات (LMS) على مجموعات نصية كبيرة تخزين ثروة من المعرفة الدلالية. ومع ذلك، 1) أنها ليست فعالة كوسميز الجملة عند استخدامها خارج الرف، و 2) وبالتالي لا تتأخر عادة وراء إعادة احتجازها بشكل تقريبي (E.G.، عبر اختيار الاستج ابة) حول مهام المحادثة مثل الكشف عن النوايا (ID). في هذا العمل، نقترح نقايد، وهو إجراء بسيط وفعالين من مرحلتين يقومون بتحويل أي ما قبل الاحتراق إلى تشفير محادثة عالمية (بعد المرحلة الأولى - Convfit-Conffit-ING) وتشمير الجملة التخصصية للمهام (بعد المرحلة 2). نوضح أن 1) محاكاة محادثة بالكامل غير مطلوبة، وأن LMS يمكن تحويل LMS بسرعة إلى ترميزات محادثة فعالة بكميات أصغر بكثير من البيانات غير المخلفات؛ 2) يمكن أن تكون LMS محددة ضبطها بشكل جيد في تشفير الجملة المتخصصة في المهام، وتحسينها للحصول على الدلالات الفاخرة من مهمة معينة. وبالتالي، تسمح تشفير الجملة المتخصصة بمعرف المعرف باعتباره مهمة تشابه دلالية بسيطة تقوم على استرجاع الجيران القابل للتفسير. نحن نقوم بالتحقق من صحة متانة وإمدادات الإطار النقدي مع مثل هذا الاستدلال القائم على التشابه على مجموعات تقييم الهوية القياسية: يحقق LMS Convfit-ed أداء معرف أحدث في المجال، مع مكاسب معينة في الأكثر تحديا، قليلة STUPS -SHOT.
نقترح معالجة مهام توليد البيانات إلى النص عن طريق الربط مباشرة من جانب شرائح النص من الأزواج المستهدفة من الجيران.على عكس العمل الحديث الذي تقوم بالشروط على الجيران المسترجع ولكن يولد رمزا نصي نصي، من اليسار إلى اليمين، نتعلم السياسة التي تتعامل مباش رة على شرائح النص الجار، عن طريق إدخال أو استبدالها بأجيال مبنية جزئيا.تتطلب التقنيات القياسية للتدريب مثل هذه السياسة عن اشتقاق أوراكل لكل جيل، ونثبت أن العثور على أقصر مثل هذا الاشتقاق يمكن تخفيضها إلى التحليل تحت قواعد محددة معينة خالية من السياق.نجد أن السياسات المستفادة بهذه الطريقة تؤدي على قدم المساواة مع خطوط أساس قوية من حيث التقييم التلقائي والبشري، ولكن السماح لمزيد من الجيل القابل للتفسير والتحكم.
هل يمكن لصق Bert مدربة مسبقا بلغة واحدة و GPT لآخر لترجمة النصوص؟يؤدي التدريب للإشراف على الذات باستخدام بيانات أحادية الأونلينغ فقط إلى نجاح نماذج اللغة المدربة مسبقا (ملثمين) في العديد من مهام NLP.ومع ذلك، فإن ربط بيرت مباشرة كتشفير و GPT حيث أن وح دة فك ترميز يمكن أن يكون تحديا في الترجمة الآلية، وفصول النماذج التي تشبه gpt إلى مكون متقاطع مكون مطلوب في فك تشفير SEQ2SEQ.في هذه الورقة، نقترح Graformer إلى الكسب غير المشروع نماذج اللغة المدربة مسبقا (ملثمين) للترجمة الآلية.مع بيانات أحادية الأبعاد لبيانات التدريب المسبق والتوازي لتدريب تطعيم، نستفيد إلى حد ما من استخدام كلا النوعين من البيانات.تظهر التجارب في 60 اتجاهات أن طريقتنا تحقق متوسط التحسينات من 5.8 بلو في X2EN و 2.9 بلو في اتجاهات EN2X مقارنة مع المحول متعدد اللغات من نفس الحجم.
النمذجة اللغوية المعقدة (MLM) هي واحدة من المهام الفرعية الرئيسية في محاكاة لغة الرؤية. في الإعداد عبر الوسائط، يتم ملثمين الرموز في الجملة بشكل عشوائي، والنموذج يتوقع أن تكون الرموز الممكنة التي أعطتها الصورة والنص. في هذه الورقة، نلاحظ العديد من عي وب MLM الرئيسية في هذا الإعداد. أولا، حيث تميل التسميات التوضيحية إلى أن تكون قصيرة، في ثلث الجمل لا يتم أخذ عينات من الجمل. ثانيا، غالبية الرموز الملثمين هي التوقف عن الكلمات وعلامات الترقيم، مما يؤدي إلى نقص في الاستخدام للصورة. إننا نحقق في مجموعة من استراتيجيات التقنيع البديلة المحددة لإعداد العرض المتعلق الذي يتناول هذه أوجه القصور، تهدف إلى توصيف أفضل من النص والصورة في التمثيل المستفاد. عند تدريب ما قبل التدريب على نموذج LXMERT، تتحسن استراتيجياتنا البديلة الخاصة بنا باستمرار عبر استراتيجية التقنيع الأصلية على ثلاثة مهام أسفل المصب، خاصة في إعدادات الموارد المنخفضة. علاوة على ذلك، يتفوق نهجنا قبل التدريب بشكل كبير على نموذج الأساس في مهمة التحقيق الفورية المصممة لاستنباط كائنات الصورة. تشير هذه النتائج وتحليلنا إلى أن طريقتنا تسمح باستفادة أفضل من بيانات التدريب.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا