ترغب بنشر مسار تعليمي؟ اضغط هنا

تعزيز تصنيف الوثائق مع التدريب على المهام-التكيفية وآلية الاسترداد الرمز الممزز

Enhancing Document Ranking with Task-adaptive Training and Segmented Token Recovery Mechanism

157   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نقترح نموذجا جديدا تصنيفا جديدا، مما يحسن مهمة استرجاع المستندات (DR) من خلال عملية تدريبية على تكيفه المهام وآلية استرداد رمزية مجزأة (Strm). في التدريب التكيفي المهمة، نقوم أولا بتدريب Dr-Bert Transly-editive، ثم جعل ضبط الطورين الدقيقين. في ضبط الطور الأول، يتعلم النموذج أنماط مطابقة المستندات للاستعلام فيما يتعلق بأنواع الاستعلام المختلفة بطريقة مدفوعة. بعد ذلك، في ضبط الطور الثاني، يتعلم النموذج ميزات الترتيب على مستوى المستند وتصنيف المستندات فيما يتعلق باستعلام معين بطريقة مدرجة. تتيح هذا الزائد Plus Plus Tunning النموذج لتقليل الأخطاء في تصنيف المستند عن طريق دمج الإشراف المحدد في الترتيب. في هذه الأثناء، يستخدم النموذج المستمد من الأضواء بشكل رائع أيضا للحد من الضوضاء في البيانات التدريبية للضبط بشكل جيد. من ناحية أخرى، نقدم Strm والتي يمكنها حساب تمثيل كلمة OOV والسياق بشكل أكثر دقة في النماذج القائمة على بيرت. كاستراتيجية فعالة في Dr-Bert، يحسن Strem Perfromance مطابقة كلمات OOV بين الاستعلام وثيقة. والجدير بالذكر أن نموذج الدكتور برت يحتفظ في المراكز الثلاثة الأولى على المتصدرين MS MARCO منذ 20 مايو 2020.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

من أجل تخفيف الطلب الكبير على مجموعات البيانات المشروح للمهام المختلفة، اعتمدت العديد من مجموعات بيانات معالجة اللغات الطبيعية الحديثة خطوط أنابيب آلية للبيانات القابلة للاستخدام السريع. ومع ذلك، فإن التدريب النموذجي مع مثل هذه البيانات يشكل تحديا لأ ن أهداف التحسين الشائعة ليست قوية لتسمية الضوضاء الناجمة عن عملية توليد التوضيحية. تم اقتراح العديد من الخسائر القوية للضوضاء وتقييمها في المهام في رؤية الكمبيوتر، لكنها تستخدم عموما فرط DataSet-WiseParamter واحد للتحكم في قوة مقاومة الضوضاء. يقترح هذا العمل أطر تدريبية جديدة على سبيل المثال لتغيير فرط بيانات DataSet واحد من مقاومة الضوضاء في مثل هذه الخسائر لتكون مثالا. توقع هؤلاء مثيل - Hyperparameters مقاومة للضوضاء من خلال تنبؤات ذات جودة عالية على مستوى التصنيف، والتي يتم تدريبها مع نماذج التصنيف الرئيسية. تظهر تجارب مجموعات بيانات NLP الصاخبة والفساد أن أطر التدريب على سبيل المثال المقترحة على سبيل المثال تساعد في زيادة متانة الضوضاء التي توفرها هذه الخسائر، وتعزيز استخدام الأطر والأطر الخسائر المرتبطة بها في نماذج NLP المدربة مع بيانات صاخبة.
في التحقق الآلي المطالبة، نسترجع الأدلة من قاعدة المعرفة لتحديد صحة المطالبة.بشكل حدسي، يلعب استرجاع الأدلة الصحيحة دورا حاسما في هذه العملية.في كثير من الأحيان، يتم تناول اختيار الأدلة بمثابة مهمة تصنيف جملة الزوجية، أي نحن ندرب نموذجا للتنبؤ بكل جم لة على حدة ما إذا كان دليلا على المطالبة.في هذا العمل، نحن نغلق محولات مستوى المستندات لاستخراج جميع الأدلة من وثيقة ويكيبيديا في وقت واحد.نظل أن هذا النهج ينفذ أفضل من الأحكام المصنفة للنموذج القابل للمقارنة بشكل فردي على جميع مقاييس اختيار الأدلة ذات الصلة في الحمى.ينتج بناء خط أنابيبنا الكامل على إجراء اختيار الأدلة هذا نتيجة جديدة للحمى، وهو معيار التحقق من المطالبات الشعبية.
نقترح التحكم في إعادة صياغة إعادة صياغة الصياغة من خلال الهياكل النحوية المستهدفة المختارة بعناية لتوليد المزيد من صياغة أعلى جودة أعلى وجودة.نموذجنا، Aesop، يرفع نموذج لغة مسبقين ويضيف عن عمد تم اختيار عنصر تحكم ترنيع عمدا عبر وحدة التحديد القائمة ع لى استرجاع لإنشاء صیر بطلاقة.تشير التجارب إلى أن إيسوب يحقق عروضا حديثة على الحفظ الدلالي والتشطيب النحوي في مجموعات بيانات قياسية مع السيطرة النحوية من الحقيقة الأرضية من النماذج المشروح البشرية.علاوة على ذلك، مع وحدة اختيار بناء الجملة المستهدفة المستندة إلى الاسترجاع، يولد AESOP إعادة صياغة مع صفات أفضل من أفضل النماذج الحالية باستخدام التقييم النحوي المستهدف البشري وفقا للتقييم البشري.نوضح فعاليات AESOP لتحسين نماذج تصنيف النماذج على الإقلاع النحوي عن طريق تكبير البيانات على مهام الغراء.
تصف هذه الورقة نظامنا للتحقق من العبارات مع الجداول في مهمة Semeval-2021 9. قمنا بتطوير نظام للتحقق من مرحلتين يعتمد على أحدث طراز Grappa المدرب مسبقا على الطاولة.يتم وضع شبكات متعددة للتحقق من أنواع مختلفة من العبارات في DataSet المسابقة وتطبق تقنية تكيفية نموذجية نموذجية على نماذج الفرقة في كلتا المراحل.يتم استخدام وحدة عملية تشغيل رمزية قائمة على البيان في نظامنا في نظامنا لتعزيز أداء النظام واستقراره.يحقق نموذجنا المركز الثاني في التصنيف ثلاثي الاتجاه والمركز الرابع في تقييم التصنيف الثاني في الاتجاه.تظهر العديد من التجارب الاجتثاث فعالية الوحدات المختلفة المقترحة في هذه الورقة.
Dual-Encoders هي آلية واعدة لاسترجاع الإجابة في أنظمة الإجابة على الأسئلة (QA). حاليا معظم التشفير المزدوج التقليدية تعلم التمثيل الدلالي للأسئلة والأجوبة فقط من خلال نقاط مطابقة. اقترح الباحثون تقديم ميزات تفاعلات ضمان الجودة في وظيفة التهديف ولكن ب تكلفة منخفضة الكفاءة في مرحلة الاستدلال. للحفاظ على الترميز المستقل للأسئلة والأجوبة أثناء مرحلة الاستدلال، يتم تقديم التشفير التلقائي التلقائي بشكل أكبر لإعادة بناء الإجابات (الأسئلة) من Asceddings من السؤال (الإجابة) بمثابة مهمة مساعدة لتعزيز تفاعل QA في مرحلة التدريب في مرحلة التدريب في مرحلة التدريب في مرحلة التدريب في مرحلة التدريب. ومع ذلك، فإن احتياجات جيل النص واسترجاع الإجابة مختلفة، مما يؤدي إلى صلابة في التدريب. في هذا العمل، نقترح إطارا لتعزيز نموذج المشفرين المزدوجين مع الإجابة على السؤال وآلية محاذاة هندسية جديدة (GAM) لمواءمة الهندسة من المدينات من الترميز المزدوج مع ذلك من التشفير عبر التشفير. تظهر النتائج التجريبية الواسعة أن إطارنا يحسن بشكل كبير من طراز الترميز المزدوج وتفوق على الطريقة التي تظهر على مجموعة بيانات استرجاع الإجابة المتعددة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا