ترغب بنشر مسار تعليمي؟ اضغط هنا

تقطير السياق اللغوي لضغط نموذج اللغة

Distilling Linguistic Context for Language Model Compression

318   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تكمن الشبكة العصبية الباهظة الثمنية والذاكرة الكثيفة وراء النجاح الأخير لتعلم تمثيل اللغة. نقل المعرفة، وهي تقنية رئيسية لنشر مثل هذا النموذج اللغوي الواسع في البيئات النادرة من الموارد، ينقل المعرفة المتعلقة بتمثيلات الكلمات الفردية المستفادة دون قيود. في هذه الورقة، مستوحاة من الملاحظات الأخيرة أن تمثيلات اللغة في وضع معرفة نسبيا ولديها معرفة أكثر دلالة ككل، نقدم هدف تقطير معارف جديد لتعلم تمثيل اللغة الذي ينقل المعرفة السياقية عبر نوعين من العلاقات عبر الإنترنت: علاقة كلمة وطبقة تحول العلاقة. على عكس تقنيات التقطير الأخيرة الأخرى لنماذج اللغة، فإن تقطيرنا السياقي ليس لديه أي قيود على التغييرات المعمارية بين المعلم والطالب. نحن نقوم بالتحقق من فعالية طريقتنا حول المعايير الصعبة لمهام فهم اللغة، ليس فقط في بنية الأحجام المختلفة ولكن أيضا بالاشتراك مع Dynabert، طريقة تشذيب الحجم التكيفي المقترح مؤخرا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الدراسة، نقترح طريقة تعلم الإشراف على الذات التي تطبق تمثيلات معنى الكلمات في السياق من نموذج لغة ملثم مسبقا مسبقا. تعد تمثيلات الكلمات هي الأساس للدلالات المعجمية في السياق وتقديرات التشابه المنصوصية الدلالية غير المرفوعة (STS). تقوم الدراسة السابقة بتحويل التمثيلات السياقية التي تستخدم تضمين كلمة ثابتة لإضعاف الآثار المفرطة لمعلومات السياقية. على النقيض من ذلك، تستمد الأسلوب المقترح على تمثيلات كلمة معنى في السياق مع الحفاظ على معلومات السياق المفيدة سليمة. على وجه التحديد، تتعلم طريقةنا الجمع بين مخرجات الطبقات المخفية المختلفة التي تستخدم الانتباه عن الذات من خلال التعلم الذاتي الخاضع للإشراف مع كائن تدريب تلقائيا تلقائيا. لتقييم أداء النهج المقترح، أجرينا تجارب مقارنة باستخدام مجموعة من المهام القياسية. تؤكد النتائج أن تمثيلاتنا أظهرت أداء تنافسي مقارنة بسلطة حديثة من الأسلوب لتحويل التمثيلات السياقية للمهام الدلالية المعجمية السياقة وتفوقها على تقدير STS.
حققت نماذج اللغة المدربة مسبقا (PLMS) مثل بيرت تقدما كبيرا في NLP. عادة ما تحتوي المقالات الإخبارية على معلومات نصية غنية، ويحتوي plms على إمكانات تعزيز نمذجة نص الأخبار لمختلف تطبيقات الأخبار الذكية مثل التوصية الإخبارية واسترجاعها. ومع ذلك، فإن معظ م plms الموجودة كبيرة الحجم مع مئات الملايين من المعلمات. تحتاج العديد من تطبيقات الأخبار عبر الإنترنت إلى خدمة ملايين المستخدمين الذين يعانون من تسامح الكمون المنخفض، مما يطرح تحديات كبيرة لإدماج PLMS في هذه السيناريوهات. يمكن تقنيات تقطير المعرفة ضغط plm كبيرة في واحدة أصغر بكثير، وفي الوقت نفسه يبقي الأداء الجيد. ومع ذلك، فإن نماذج اللغة الحالية مدربة مسبقا وتقليدها على Corpus العامة مثل Wikipedia، والتي تحتوي على ثغرات مع مجال الأخبار وقد تكون فرعية نفسية بالنسبة للذكاء الأخبار. في هذه الورقة، نقترح Newsbert، والتي يمكن أن تقطير plms لذكاء الأخبار الفعال والفعال. في نهجنا، نقوم بتصميم إطار التعلم المشترك والتقطير المشترك للمعلم لتعليم كل من نماذج المعلم والطلاب، حيث يمكن أن يتعلم نموذج الطالب من تجربة التعلم لنموذج المعلم. بالإضافة إلى ذلك، نقترح طريقة تقطير الزخم من خلال دمج تدرجات نموذج المعلم في تحديث نموذج الطلاب لتحسين المعرفة التي تعلمتها نموذج المعلم. تجارب شاملة على رقمين في العالم الحقيقي مع ثلاث مهام تظهر أن Newsbert يمكن أن تمكن العديد من تطبيقات الأخبار الذكية مع نماذج أصغر بكثير.
باللغة العربية، يتم استخدام علامات التشكيل لتحديد المعاني وكذلك النطق.ومع ذلك، غالبا ما يتم حذف الدروع من النصوص المكتوبة، مما يزيد من عدد المعاني والنطوقتين المحتملة.هذا يؤدي إلى نص غامض ويجعل العملية الحسابية على النص غير المسموح به أكثر صعوبة.في ه ذه الورقة، نقترح نموذج إعماري لغوي للترشف عن النص العربي (لاماد).في لاماد، يتم تقديم تمثيل ميزة لغوية جديدة، والذي يستخدم كل من ملامح الكلمة والأحرف السياقية.بعد ذلك، يقترح آلية الاهتمام اللغوي التقاط الميزات اللغوية المهمة.بالإضافة إلى ذلك، نستكشف تأثير الميزات اللغوية المستخرجة من النص على درج النص العربي (ATD) عن طريق إدخالها لآلية الاهتمام اللغوي.توضح النتائج التجريبية الواسعة على ثلاث مجموعات بيانات بأحجام مختلفة أن لاماد تتفوق على النماذج الحالية للحالة.
مع الاستخدام المتزايد لأحكام الخوارزميات المدفوعة بالجهاز، من الأهمية بمكان تطوير النماذج القوية في المدخلات المتطورة أو التلاعب بها.نقترح تحليلا واسع النطاق من المتانة النموذجي ضد التباين اللغوي في تحديد الكشف الأخبار الخادع، وهي مهمة مهمة في سياق ا لمعلومات الخاطئة المنتشرة عبر الإنترنت.نحن نفكر في مهام التنبؤ ومقارنة ثلاثة من المدينات الحديثة لتسليط الضوء على الاتجاهات المتسقة في الأداء النموذجي، وتظليل الثقة العالي، والإخفاقات عالية التأثير.من خلال قياس فعالية استراتيجيات الدفاع المشددي وتقييم الحساسية النموذجية للهجمات الخصومة باستخدام نص غير مضطرب للشخصية، نجد أن الطابع أو النماذج المختلطة هي الدفاعات الأكثر فعالية وأن تكتيكات الهجوم القائم على الاضطرابات الأكثر نجاحا.
التعاطف هو الرابط بين الذات والآخرين.اكتشاف وفهم التعاطف هو عنصر أساسي لتحسين التفاعل بين الإنسان.ومع ذلك، فإن التعليق البيانات للكشف عن التعاطف على نطاق واسع هو مهمة صعبة.توظف هذه الورقة تدريبات متعددة المهام مع تقطير المعرفة لدمج المعرفة من الموارد المتاحة (العاطفة والشعور) للكشف عن التعاطف عن اللغة الطبيعية في مجالات مختلفة.يؤدي هذا النهج إلى تحقيق نتائج أفضل على مجموعة بيانات التعاطف ذات الصلة بالأخبار مقارنة مع خطوط الأساس القوية.بالإضافة إلى ذلك، نبني مجموعة بيانات جديدة للتنبؤ بالتعاطف مع اتجاه التعاطف المحبوب الجميل، أو البحث عن أو توفير التعاطف، من تويتر.نطلق سراح DataSet لدينا لأغراض البحث.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا