ترغب بنشر مسار تعليمي؟ اضغط هنا

Econet: الاحيلية المستمرة الفعالة من نماذج اللغة للحدث المنطقي الزمني

ECONET: Effective Continual Pretraining of Language Models for Event Temporal Reasoning

394   0   3   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في حين أن طرازات اللغة المدربة مسبقا (PTLMS) حققت نجاحا ملحوظا في العديد من مهام NLP، إلا أنها ما زالوا يكافحون من أجل المهام التي تتطلب منطق الحدث الزمني، وهو أمر ضروري للتطبيقات المرن في الحدث. نقدم نهجا مستمرا مسبقا يزود PTLMS مع المعرفة المستهدفة حول العلاقات الزمنية للحدث. نقوم بتصميم أهداف التعلم ذات الإشراف الذاتي لاستعادة الحدث الملثمان والمؤشرات الزمنية وتمييز الأحكام من نظرائهم الفاسد (حيث تم استبدال الحدث أو المؤشرات الزمنية). بمزيد من التدريب مسبقا PTLM مع هذه الأهداف بشكل مشترك، نعزز انتباهها إلى الحدث والمعلومات الزمنية، مما أدى إلى تعزيز القدرة المعززة على المنطق الزمني للحدث. هذا ** e ** ffective ** con ** إطار ما قبل التدريب المعدني ** ه ** تنفيس ** T ** منطق Emporal (Econet) يحسن عروض الضبط الدقيقة PTLMS عبر خمسة استخراج العلاقات والسؤال وتحقق عروضا جديدة أو على قدم المساواة في معظم مهامنا المصب لدينا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

منطق العموم الزمني هي مهمة صعبة لأنها تتطلب المعرفة الزمنية عادة غير صريحة في النص.في هذا العمل، نقترح نموذج فرقة لسبب المنظمات الزمنية.يعتمد نموذجنا على تمثيلات سياقية مدربة مسبقا من نماذج اللغة القائمة على المحولات (IE، Bert)، وعلى مجموعة متنوعة من طرق التدريب لتعزيز تعميم النموذج: 1) ضبط غرامة متعددة الخطوات باستخدام المهام العاطفية المحددة بعناية ومجموعات البيانات، و2) مهمة نموذجية مصممة مصممة خصيصا له مهمة تهدف إلى التقاط معرفة العمليات الزمنية.يتفوق نموذجنا إلى حد كبير على نهج ضبط الدقيقة القياسية والقواعد الأساسية القوية على DataSet MC-Taco.
الكشف عن الأحداث وتطورها عبر الزمن مهمة حاسمة في فهم اللغة الطبيعية. المناهج العصبية الأخيرة لحدث استخراج العلاقات الزمنية عادة الأحداث عادة إلى التشرد في مساحة Euclidean وتدريب مصنف للكشف عن العلاقات الزمنية بين أزواج الأحداث. ومع ذلك، لا يمكن للمشر وع في الفضاء الإقليدية التقاط علاقات غير متماثلة أكثر ثراء مثل العلاقات الزمنية الحدث. وبالتالي اقترحنا تضمين الأحداث في المساحات القطعي، والتي هي موجهة نحو جوهرها في نمذجة الهياكل الهرمية. نقدم نهجين لتشفير الأحداث وعلاقاتهم الزمنية في المساحات القطعية. نهج واحد يرفع إلى تضمينات الزائفة لعلاقات الحدث المستخلصة مباشرة من خلال عمليات هندسية بسيطة. في المرتبة الثانية، ابتعدنا عن وضع بنية نهاية إلى نهاية مؤلفة من الوحدات العصبية الزمنية المصممة لمهمة استخراج العلاقة الزمنية. أظهرت تقييمات تجريبية شاملة عن مجموعات البيانات المستخدمة على نطاق واسع فوائد إعادة النظر في المهام على مساحة هندسية مختلفة، مما أدى إلى أداء حديثة في العديد من المقاييس القياسية. أخيرا، أبرزت دراسة الاجتثاث والعديد من التحليلات النوعية دلالات الأحداث الغنية المشفرة ضمنيا في المساحات الزائفة.
أداء النماذج العصبية للتعرف على الكيان المسمى يتحلل مع مرور الوقت، أصبحت قديمة.هذا التدهور يرجع إلى الانجراف الزمني، والتغيير في الخصائص الإحصائية المتغيرات المستهدفة لدينا مع مرور الوقت.هذه المسألة مشكلة خاصة لبيانات وسائل التواصل الاجتماعي، حيث تتغ ير المواضيع بسرعة.من أجل التخفيف من المشكلة، فإن شرح البيانات وإعادة تدريب النماذج أمر شائع.على الرغم من فائدتها، فإن هذه العملية مكلفة وتستغرق وقتا طويلا، مما يحفز بحثا جديدا على التحديث النموذجي الفعال.في هذه الورقة، نقترح نهجا بديهيا لقياس الوعي المحتمل للتغريدات واستخدام هذا المقياس لتحديد أكثر الحالات إعلامية للاستخدام للتدريب.نقوم بإجراء تجارب على ثلاث نماذج من أحدث طراز على مجموعة بيانات Twitter الزمنية.يظهر نهجنا زيادة أكبر في دقة التنبؤ مع بيانات تدريب أقل من البدائل، مما يجعلها حل جذابة وعملية.
تعرض مشكلة الإجابة على الأسئلة التي تستخدم المعرفة من طرازات اللغة المدربة مسبقا (LMS) ورسم الرسوم البيانية المعرفة (KGS) تحديين: بالنظر إلى سياق ضمان الجودة (اختيار الأسئلة والأجوبة)، فإن الأساليب تحتاج إلى (I) تحديد المعرفة ذات الصلة من KGS الكبيرة ،و (2) أداء التفكير المشترك في سياق ضمان الجودة و KG.هنا نقترح نموذجا جديدا، QA-GNN، الذي يتناول التحديات المذكورة أعلاه من خلال ابتكارات رئيسيتين: (ط) تسجيل الملاءمة، حيث نستخدم LMS لتقدير أهمية عقد KG بالنسبة إلى سياق ضمان الجودة المحدد، و (2) مشتركالتفكير، حيث نتواصل مع سياق ضمان الجودة و KG لتشكيل رسم بياني مشترك، وتحديث خصائصها المتبادلة من خلال رسالة الرسوم البيانية القائمة على الرسم البياني.نقوم بتقييم QA-GNN على مجموعات بيانات Commonsenseenseqa و OpenBookqa، وإظهار تحسنها على نماذج LM و LM + KG الحالية، وكذلك قدرتها على أداء التفكير القابل للتفسير والمنظم، على سبيل المثال، المناولة الصحيحة في الأسئلة.
يحقق نماذج اللغة المستردة مسبقا للمحولات نتائج رائعة في العديد من معايير NLU المعروفة. ومع ذلك، في حين أن أساليب المحاكمات مريحة للغاية، فهي مكلفة من حيث الوقت والموارد. هذا يدعو إلى دراسة تأثير حجم البيانات المحدد على معرفة النماذج. نستكشف هذا التأث ير على القدرات النحوية لروبيرتا، باستخدام النماذج المدربة على الأحجام الإضافية لبيانات النص الخام. أولا، نستخدم التحقيقات الهيكلية النحوية لتحديد ما إذا كانت الطرز المحددة على مزيد من البيانات ترمز كمية أعلى من المعلومات النحوية. ثانيا، نقوم بإجراء تقييم نصلي مستهدف لتحليل تأثير حجم البيانات المحدد على أداء التعميم النحوي للنماذج. ثالثا، قارنا أداء النماذج المختلفة على ثلاثة تطبيقات المصب: وضع علامات جزء من الكلام وتحليل التبعية وإعادة صياغة الحساب. نحن نتكمل دراستنا بتحليل مفاضلة التكلفة - المنفعة للتدريب مثل هذه النماذج. تظهر تجاربنا أنه في حين أن النماذج المحددة على مزيد من البيانات ترمز المزيد من المعرفة النحوية وأداء أفضل في تطبيقات المصب، فإنها لا تقدم دائما أداء أفضل عبر الظواهر الأساسية المختلفة وتأتي بتكلفة مالية وبيئية أعلى.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا