ترغب بنشر مسار تعليمي؟ اضغط هنا

قالب ملء مع محولات التوليد

Template Filling with Generative Transformers

349   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يعالج ملء القالب عموما من قبل خط أنابيب لنظمين تحت إشراف منفصلين - واحدة لاستخراج الدوران وآخر للاعتراف بالقوالب / الحدث.نظرا لأن خطوط الأنابيب تنظر في الأحداث بمعزل، فيمكنها أن تعاني من انتشار الأخطاء.نقدم إطارا يعتمد على المحولات الإندانية الطرفية لهذه المهمة (I.E.، GTT).من الطبيعي طرز الاعتماد بين الكيانات داخل حدث واحد وعبر الأحداث المتعددة الموصوفة في وثيقة.توضح التجارب أن هذا الإطار يتفوق بشكل كبير على الأساليب القائمة على خط الأنابيب، وغيرها من خطوط الأساس شبه إلى النهائي التي لا تضع طراز بين التبعيات بين الحدث.نظهر كذلك أن إطار عملنا يحسن على وجه التحديد الأداء على المستندات التي تحتوي على أحداث متعددة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أظهرت المحولات أداء محسنة عند مقارنتها بالبنية السابقة لمعالجة التسلسل مثل RNNS.على الرغم من مكاسب أدائها الكبيرة، كما اقترح مؤخرا، فإن النموذج باهظ الثمن بشكل حسابي للتدريب ومع ميزانية معلمة عالية.في ضوء هذا، نستكشف أساليب تقاسم المعلمات في المحولات بتركيز محدد على النماذج الإدارية.نحن نقوم بإجراء تحليل لأساليب تقاسم / تخفيض المعلمات المختلفة وتطوير النموذج الفرعي.يجمع نموذجنا بين مشاركة المعلمات على غرار ساندويتش، مما يتغلب على مشاركة المعلمة الساذجة عبر الطبقات في نماذج توليدية، وتعامل التضمين الذاتي الذاتي (آمن).تشير التجارب على الترجمة الآلية، وإظهار التلخيص المبشور ونمذجة اللغة أن العنصر الفرعي يمكن أن يتفوق على المحول حتى عند استخدام المعلمات أقل بكثير.
في مجال التعلم، من الضروري تحقيق محاذاة قوية بين نموذج مدرب مسبقا ومهمة مهام في المصب. فعلت العمل المسبق هذا من خلال اقتراح أهداف التدريب المحددة مسبقا بمهام المهام، مما يضح أن قابلية التوسع الكامنة للنموذج التعلم في مجال النقل. بدلا من ذلك، نحقق محا ذاة قوية من خلال تعديل النموذج المدرب مسبقا في وقت واحد وصياغة مهمة المصب، وهي أكثر كفاءة وتحافظ على قابلية تحويل التعلم. نقوم بتقديم GENSF (ملء فتحة الإنتاجية)، والتي تتمتع بنموذج مربع حوار مفتوح مدرب مسبقا مسبقا لملء الفتحة. Gensf (1) تتكيف مع النموذج المدرب مسبقا من خلال دمج التحيزات الاستقرائي حول المهمة و (2) تتكيف المهمة المصب من خلال إعادة صياغة فتحة ملء لتحسين الاستفادة من إمكانيات النموذج المدربة مسبقا. يحقق Gensf نتائج حديثة على مجموعة بيانات ملء الفتحة مع مكاسب قوية في إعدادات قليلة بالرصاص وأعدادات طلقة صفرية. نحن نحقق تحسن درجة 9 F1 في ملء فتحة صفرية بالرصاص. هذا يسلط الضوء على قيمة المحاذاة القوية بين النموذج المدرب مسبقا ومهمة المصب.
تحتوي المهام القياسية الحالية لمعالجة اللغة الطبيعية على نص مختلف عن النص المستخدم في اليومي غير الرسمي إلى الاتصال الرقمي اليومي. أدى هذا التناقض إلى تدهور الأداء الشديد لنماذج NLP الحديثة عندما يتم ضبطها بشكل جيد على بيانات العالم الحقيقي. طريقة وا حدة لحل هذه المشكلة هي من خلال التطبيع المعجمي، وهي عملية تحويل النص غير القياسي، وعادة ما تكون من وسائل التواصل الاجتماعي، إلى نموذج أكثر موحدة. في هذا العمل، نقترح نموذج تسلسل تسلسل على مستوى الجملة بناء على MBART، مما يؤدي إلى إطارات المشكلة بمثابة مشكلة ترجمة آلية. نظرا لأن النص الصاخب يمثل مشكلة منتشرة عبر اللغات، وليس الإنجليزية فقط، فإننا نستفيد من التدريب المسبق متعدد اللغات ل MBART لضبطه إلى بياناتنا. في حين أن الأساليب الحالية تعمل بشكل رئيسي على مستوى الكلمة أو الكلمات الفرعية، فإننا نجادل بأن هذا النهج واضح واضح من وجهة نظر تقنية ويبني على شبكات المحولات الموجودة مسبقا. تظهر نتائجنا أنه في حين أن مستوى الكلمة، جوهري، فإن تقييم الأداء هو وراء الطرق الأخرى، فإن نموذجنا يحسن الأداء على مهام خارجية ومصمبة من خلال التطبيع مقارنة بالنماذج التي تعمل على نص وسائل التواصل الاجتماعي الخام وغير المجهزة.
تم اعتماد اهتمام الذات مؤخرا لمجموعة واسعة من مشاكل النمذجة التسلسلية. على الرغم من فعاليته، فإن اهتمام الذات يعاني من حساب التربيعي ومتطلبات الذاكرة فيما يتعلق بطول التسلسل. تركز النهج الناجحة للحد من هذا التعقيد على حضور النوافذ المنزلق المحلية أو مجموعة صغيرة من المواقع مستقلة عن المحتوى. يقترح عملنا تعلم أنماط الانتباه ديناميكية متناثرة تتجنب تخصيص الحساب والذاكرة لحضور المحتوى غير المرتبط باستعلام الفائدة. يبني هذا العمل على سطرين من الأبحاث: فهو يجمع بين مرونة النمذجة للعمل المسبق على اهتمام متمرد للمحتوى مع مكاسب الكفاءة من الأساليب القائمة على الاهتمام المحلي والزموني المتناثر. نموذجنا، محول التوجيه، ينفذ عن النفس مع وحدة توجيه متناثرة تعتمد على الوسائل K عبر الإنترنت مع تقليل التعقيد العام للانتباه إلى O (N1.5D) من O (N2D) لطول التسلسل N وبعد المخفي D. نظرا لأن نموذجنا يتفوق على نماذج انتباه متناثرة قابلة للمقارنة على نمذجة اللغة على Wikitext-103 (15.8 مقابل 18.3 حيرة)، وكذلك على جيل الصورة على Imagenet-64 (3.43 مقابل 3.44 بت / خافت) أثناء استخدام طبقات أقل من الاهتمام الذاتي. بالإضافة إلى ذلك، وضعنا مجموعة جديدة من مجموعة جديدة من مجموعة بيانات PG-19 التي تم إصدارها حديثا، والحصول على اختبار حيرة من 33.2 مع نموذج محول توجيه 22 طبقة مدرب على تسلسل الطول 8192. نحن نفتح المصدر لتحويل التوجيه في Tensorflow.1
تلقى الكشف عن اللغة الهجومية (القديم) اهتماما متزايدا بسبب تأثيرها المجتمعي.يوضح العمل الحديث أن الأساليب القائمة على المحولات ثنائية الاتجاه تحصل على أداء مثير للإعجاب في القديم.ومع ذلك، فإن هذه الأساليب تعتمد عادة على مجموعات البيانات القديمة ذات ا لمسمى على نطاق واسع لتدريب النماذج.لمعالجة مسألة ندرة البيانات / التسمية في القديم، في هذه الورقة، نقترح نهج بسيط في مجال تكيف مجال بسيط ولكنه فعال لتدريب المحولات ثنائية الاتجاه.تقدم نهجنا إجراءات التدريب على التكيف (DA) إلى ألبرت، بحيث يمكنها استغلال البيانات المساعدة الفعالة من مجالات المصدر لتحسين الأداء القديم في مجال مستهدف.تظهر النتائج التجريبية على مجموعات البيانات القياسية أن نهجنا، ألبرت (دا)، يحصل على الأداء الحديثة في معظم الحالات.على وجه الخصوص، فإن نهجنا يستفيد بشكل كبير من الدروس الممثلة بشكل كبير وغير مصنوع من الأداء، مع تحسن كبير على ألبرت.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا