يتم تدريب نماذج اللغة بشكل عام على تسلسل المدخلات القصيرة والمتقطعة، والتي تحد من قدرتها على استخدام معلومات مستوى الخطاب الموجودة في سياق طويل المدى لتحسين تنبؤاتها. أدت الجهود الأخيرة لتحسين كفاءة اهتمام الذات إلى انتشار نماذج لغة محول طويلة المدى، والتي يمكن أن تعالج تسلسل أطول بكثير من نماذج الماضي. ومع ذلك، تبقى الطرق التي تستفيد منها هذه النماذج من السياق الطويل المدى غير واضح. في هذه الورقة، نقوم بإجراء تحليل جيد الحبيبات من طرازات لغة محول طويلة المدى (بما في ذلك محول التوجيه، والذي يحقق حيرة من الفن الحيرة على مجموعة بيانات BG-19 المتسلسلة LM Transmark) التي تقبل المدخلات تسلسل يصل إلى 8K الرموز. نتائجنا تكشف عن توفير سياق طويل المدى (أي، خارج الرموز 2K السابقة) لهذه النماذج يحسن فقط تنبؤاتها على مجموعة صغيرة من الرموز (على سبيل المثال، تلك التي يمكن نسخها من السياق البعيد) ولا يساعد على الإطلاق لمهام التنبؤ على مستوى الجملة. أخيرا، نكتشف أن PG-19 تحتوي على مجموعة متنوعة من أنواع المستندات والمجالات المختلفة، وأن السياق الطويل المدى يساعد معظمها على الروايات الأدبية (بدلا من الكتب المدرسية أو المجلات).
Language models are generally trained on short, truncated input sequences, which limits their ability to use discourse-level information present in long-range context to improve their predictions. Recent efforts to improve the efficiency of self-attention have led to a proliferation of long-range Transformer language models, which can process much longer sequences than models of the past. However, the ways in which such models take advantage of the long-range context remain unclear. In this paper, we perform a fine-grained analysis of two long-range Transformer language models (including the Routing Transformer, which achieves state-of-the-art perplexity on the PG-19 long-sequence LM benchmark dataset) that accept input sequences of up to 8K tokens. Our results reveal that providing long-range context (i.e., beyond the previous 2K tokens) to these models only improves their predictions on a small set of tokens (e.g., those that can be copied from the distant context) and does not help at all for sentence-level prediction tasks. Finally, we discover that PG-19 contains a variety of different document types and domains, and that long-range context helps most for literary novels (as opposed to textbooks or magazines).
المراجع المستخدمة
https://aclanthology.org/
عثرت نمذجة اللغة الإحصائية والترجمة مع المحولات العديد من التطبيقات الناجحة في فهم البرنامج ومهام الجيل، وتحديد معايير عالية للأدوات في بيئات تطوير البرمجيات الحديثة. ومع ذلك، فإن نافذة السياق المحدودة لهذه النماذج العصبية تعني أنهم لن يكونوا غير قاد
تحظى طرازات اللغة واسعة النطاق (LMS) في كورسورا هائلة من النص، مثل GPT-2، هي مولدات نصية مفتوحة قوية. ومع ذلك، نظرا لأن الفحص المنهجي الخاص بنا يكشف، فمن لا يزال يمثل تحديا لهذه النماذج لتوليد ممرات طويلة طويلة متماسكة من النص (على سبيل المثال، 1000
تعتبر تقنية التطوير بعيد المدى "LTE" من أحدث تقنيات الاتصالات التي تندرج ضمن تقنيات
الجيل الرابع من الاتصالات الخلوية، و التي تدعم سرعات عالية و عرض حزمة كبير، بالإضافة
لتقديمها إمكانيات للتعامل مع جودة الخدمة المرتبطة بأنواع محددة من البيانات، ن
قياس الحدث أمر ضروري في فهم القصص.تأخذ هذه الورقة طريقة غير مخالفة مؤخرا للكشف عن الصيغة المستمدة من القارب الكاردينال ونظريات مفاجأة وتطبيقها على أشكال سردية أطول.نحن نحسن نموذج لغة المحولات القياسية من خلال دمج قاعدة معرفة خارجية (مشتقة من توليد اس
وقد شكلت الشيخوخة السكان تحديا للعديد من البلدان بما في ذلك تايوان، ومعهم يأتون قضية الرعاية الطويلة الأجل.بالنظر إلى السياق الحالي، كان الهدف من هذه الدراسة هو استكشاف الفرعي المناقش أعلاه في مجال الرعاية الطويلة الأجل، وتحديد ميزاته من خلال NLP.تقد