في هذه الورقة، نقترح نموذجا جديدا تصنيفا جديدا، مما يحسن مهمة استرجاع المستندات (DR) من خلال عملية تدريبية على تكيفه المهام وآلية استرداد رمزية مجزأة (Strm). في التدريب التكيفي المهمة، نقوم أولا بتدريب Dr-Bert Transly-editive، ثم جعل ضبط الطورين الدقيقين. في ضبط الطور الأول، يتعلم النموذج أنماط مطابقة المستندات للاستعلام فيما يتعلق بأنواع الاستعلام المختلفة بطريقة مدفوعة. بعد ذلك، في ضبط الطور الثاني، يتعلم النموذج ميزات الترتيب على مستوى المستند وتصنيف المستندات فيما يتعلق باستعلام معين بطريقة مدرجة. تتيح هذا الزائد Plus Plus Tunning النموذج لتقليل الأخطاء في تصنيف المستند عن طريق دمج الإشراف المحدد في الترتيب. في هذه الأثناء، يستخدم النموذج المستمد من الأضواء بشكل رائع أيضا للحد من الضوضاء في البيانات التدريبية للضبط بشكل جيد. من ناحية أخرى، نقدم Strm والتي يمكنها حساب تمثيل كلمة OOV والسياق بشكل أكثر دقة في النماذج القائمة على بيرت. كاستراتيجية فعالة في Dr-Bert، يحسن Strem Perfromance مطابقة كلمات OOV بين الاستعلام وثيقة. والجدير بالذكر أن نموذج الدكتور برت يحتفظ في المراكز الثلاثة الأولى على المتصدرين MS MARCO منذ 20 مايو 2020.
In this paper, we propose a new ranking model DR-BERT, which improves the Document Retrieval (DR) task by a task-adaptive training process and a Segmented Token Recovery Mechanism (STRM). In the task-adaptive training, we first pre-train DR-BERT to be domain-adaptive and then make the two-phase fine-tuning. In the first-phase fine-tuning, the model learns query-document matching patterns regarding different query types in a pointwise way. Next, in the second-phase fine-tuning, the model learns document-level ranking features and ranks documents with regard to a given query in a listwise manner. Such pointwise plus listwise fine-tuning enables the model to minimize errors in the document ranking by incorporating ranking-specific supervisions. Meanwhile, the model derived from pointwise fine-tuning is also used to reduce noise in the training data of the listwise fine-tuning. On the other hand, we present STRM which can compute OOV word representation and contextualization more precisely in BERT-based models. As an effective strategy in DR-BERT, STRM improves the matching perfromance of OOV words between a query and a document. Notably, our DR-BERT model keeps in the top three on the MS MARCO leaderboard since May 20, 2020.
المراجع المستخدمة
https://aclanthology.org/
من أجل تخفيف الطلب الكبير على مجموعات البيانات المشروح للمهام المختلفة، اعتمدت العديد من مجموعات بيانات معالجة اللغات الطبيعية الحديثة خطوط أنابيب آلية للبيانات القابلة للاستخدام السريع. ومع ذلك، فإن التدريب النموذجي مع مثل هذه البيانات يشكل تحديا لأ
في التحقق الآلي المطالبة، نسترجع الأدلة من قاعدة المعرفة لتحديد صحة المطالبة.بشكل حدسي، يلعب استرجاع الأدلة الصحيحة دورا حاسما في هذه العملية.في كثير من الأحيان، يتم تناول اختيار الأدلة بمثابة مهمة تصنيف جملة الزوجية، أي نحن ندرب نموذجا للتنبؤ بكل جم
نقترح التحكم في إعادة صياغة إعادة صياغة الصياغة من خلال الهياكل النحوية المستهدفة المختارة بعناية لتوليد المزيد من صياغة أعلى جودة أعلى وجودة.نموذجنا، Aesop، يرفع نموذج لغة مسبقين ويضيف عن عمد تم اختيار عنصر تحكم ترنيع عمدا عبر وحدة التحديد القائمة ع
تصف هذه الورقة نظامنا للتحقق من العبارات مع الجداول في مهمة Semeval-2021 9. قمنا بتطوير نظام للتحقق من مرحلتين يعتمد على أحدث طراز Grappa المدرب مسبقا على الطاولة.يتم وضع شبكات متعددة للتحقق من أنواع مختلفة من العبارات في DataSet المسابقة وتطبق تقنية
Dual-Encoders هي آلية واعدة لاسترجاع الإجابة في أنظمة الإجابة على الأسئلة (QA). حاليا معظم التشفير المزدوج التقليدية تعلم التمثيل الدلالي للأسئلة والأجوبة فقط من خلال نقاط مطابقة. اقترح الباحثون تقديم ميزات تفاعلات ضمان الجودة في وظيفة التهديف ولكن ب