ترغب بنشر مسار تعليمي؟ اضغط هنا

هل هناك نماذج اللغة الطويلة المدى تستخدم في الواقع سياق طويل المدى؟

Do Long-Range Language Models Actually Use Long-Range Context?

225   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتم تدريب نماذج اللغة بشكل عام على تسلسل المدخلات القصيرة والمتقطعة، والتي تحد من قدرتها على استخدام معلومات مستوى الخطاب الموجودة في سياق طويل المدى لتحسين تنبؤاتها. أدت الجهود الأخيرة لتحسين كفاءة اهتمام الذات إلى انتشار نماذج لغة محول طويلة المدى، والتي يمكن أن تعالج تسلسل أطول بكثير من نماذج الماضي. ومع ذلك، تبقى الطرق التي تستفيد منها هذه النماذج من السياق الطويل المدى غير واضح. في هذه الورقة، نقوم بإجراء تحليل جيد الحبيبات من طرازات لغة محول طويلة المدى (بما في ذلك محول التوجيه، والذي يحقق حيرة من الفن الحيرة على مجموعة بيانات BG-19 المتسلسلة LM Transmark) التي تقبل المدخلات تسلسل يصل إلى 8K الرموز. نتائجنا تكشف عن توفير سياق طويل المدى (أي، خارج الرموز 2K السابقة) لهذه النماذج يحسن فقط تنبؤاتها على مجموعة صغيرة من الرموز (على سبيل المثال، تلك التي يمكن نسخها من السياق البعيد) ولا يساعد على الإطلاق لمهام التنبؤ على مستوى الجملة. أخيرا، نكتشف أن PG-19 تحتوي على مجموعة متنوعة من أنواع المستندات والمجالات المختلفة، وأن السياق الطويل المدى يساعد معظمها على الروايات الأدبية (بدلا من الكتب المدرسية أو المجلات).

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

عثرت نمذجة اللغة الإحصائية والترجمة مع المحولات العديد من التطبيقات الناجحة في فهم البرنامج ومهام الجيل، وتحديد معايير عالية للأدوات في بيئات تطوير البرمجيات الحديثة. ومع ذلك، فإن نافذة السياق المحدودة لهذه النماذج العصبية تعني أنهم لن يكونوا غير قاد رين على الاستفادة من السياق الكامل بأكمله من الملفات والحزم الكبيرة لأي مهمة معينة. في حين أن هناك العديد من الجهود المبذولة لتوسيع نافذة السياق، فإننا نقدم نهجا مستقلا بالهندسة المعمارية للاستفادة من التسلسلات الهيدروجسية النحوية من التعليمات البرمجية المصدرية لإدماج سياق كامل مستوى الملف في نافذة ذات طول ثابت. باستخدام أشجار بناء جملة الخرسانة من كل ملف مصدر نستخرج التسلسلات الهرمية النحوية ودمجها في نافذة السياق عن طريق إزالة بشكل انتقائي من عرض نطاقات أكثر تحديدا وأقل أهمية لمهمة معينة. نقوم بتقييم هذا النهج على مهام توليد التعليمات البرمجية والترجمة المشتركة للغة الطبيعية ومزدئة المصدر في لغة البرمجة الثابتة، وتحقيق حالة جديدة من بين الفن في إكمال التعليمات البرمجية وتلخيص Python في معيار Codexglue. نقدم أيضا معايير CodexGlue جديدة للمهام الدوافع المتعلقة بتجربة المستخدمين: إكمال التعليمات البرمجية مع الحرفيات الطبيعية، طريقة إتمام الأسلوب / تلخيص / رمز رمز مكيف في سياق مستوى الملفات.
تحظى طرازات اللغة واسعة النطاق (LMS) في كورسورا هائلة من النص، مثل GPT-2، هي مولدات نصية مفتوحة قوية. ومع ذلك، نظرا لأن الفحص المنهجي الخاص بنا يكشف، فمن لا يزال يمثل تحديا لهذه النماذج لتوليد ممرات طويلة طويلة متماسكة من النص (على سبيل المثال، 1000 رمز)، خاصة عند ضبط النماذج بشكل جيد إلى المجال المستهدف على كائن صغير. تندرج أساليب التخطيط السابقة عند إيلاء إيناء نص طويل في المجالات المختلفة. للتغلب على القيود، نقترح طريقة بسيطة ولكنها فعالة لتوليد النص بطريقة تقدمية، مستوحاة من خلال توليد الصور من أدنى مستوى إلى دقة عالية. تقوم طريقةنا أولا بإنتاج الكلمات الرئيسية للمحتوى الخاص بالمجال ومن ثم تقوم بتطريصها تدريجيا في مقاطع كاملة في مراحل متعددة. يسمح التصميم البسيط لنهجنا الاستفادة من LMS المحدد في كل مرحلة وتكييف فعال مع أي مجال مستهدف معين فقط مجموعة صغيرة من الأمثلة. نقوم بإجراء دراسة تجريبية شاملة مع مجموعة واسعة من مقاييس التقييم، وإظهار أن نهجنا يحسن بشكل كبير على LMS الكبيرة التي تم ضبطها بشكل كبير وأساليب التخطيط والمنشدة المختلفة من حيث الجودة وكفاءة العينات. يتحقق التقييم البشري أيضا أن أجيال النماذج لدينا أكثر متماسكة.
تعتبر تقنية التطوير بعيد المدى "LTE" من أحدث تقنيات الاتصالات التي تندرج ضمن تقنيات الجيل الرابع من الاتصالات الخلوية، و التي تدعم سرعات عالية و عرض حزمة كبير، بالإضافة لتقديمها إمكانيات للتعامل مع جودة الخدمة المرتبطة بأنواع محددة من البيانات، ن تيجةً لذلك فإنها تحظى باهتمام واسع و كبير من الباحثين و المستخدمين. إن التحدي الأكبر الذي يواجه شبكات التطوير بعيد المدى "LTE" هو القدرة على ضمان جودة الخدمة لكل مستخدمي الشبكة طالما هذه الشبكات تخدّم كل من مستخدمي الصوت و البيانات بنفس الوقت، لذلك جاءت دراستنا لتبين أثر مجموعة من خوارزميات الجدولة على انتقال بيانات "TCP" و بيانات صوتية و فيديوية.
قياس الحدث أمر ضروري في فهم القصص.تأخذ هذه الورقة طريقة غير مخالفة مؤخرا للكشف عن الصيغة المستمدة من القارب الكاردينال ونظريات مفاجأة وتطبيقها على أشكال سردية أطول.نحن نحسن نموذج لغة المحولات القياسية من خلال دمج قاعدة معرفة خارجية (مشتقة من توليد اس ترجاع المعزز) وإضافة آلية ذاكرة لتعزيز الأداء في أعمال أطول.نحن نستخدم نهج رواية لاستخلاص شرح Salience باستخدام ملخصات الفصل الانحياز من شمس كوربوس للأعمال الأدبية الكلاسيكية.يوضح تقييمنا ضد هذه البيانات أن نموذج الكشف عن ملحقاتنا يحسن الأداء فوقه ونموذج اللغة غير المعدلة والذاكرة، وكلاهما ضروري لهذا التحسن.
وقد شكلت الشيخوخة السكان تحديا للعديد من البلدان بما في ذلك تايوان، ومعهم يأتون قضية الرعاية الطويلة الأجل.بالنظر إلى السياق الحالي، كان الهدف من هذه الدراسة هو استكشاف الفرعي المناقش أعلاه في مجال الرعاية الطويلة الأجل، وتحديد ميزاته من خلال NLP.تقد مت هذه الدراسة TF-IDF، نموذج الانحدار اللوجستي، ومصنف البايز الساذج لمعالجة البيانات.باختصار، أظهرت النتائج أنها وصلت إلى أفضل درجة F1 من 0.920 في تحديد الهوية، وأفضل دقة 0.708 في التصنيف.يمكن استخدام نتائج هذه الدراسة كمرجع للتطبيقات المتعلقة بالرعاية الطويلة الأجل في المستقبل.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا