غالبا ما تستخدم أنظمة استرجاع المستندات على نطاق واسع أنماطين من نماذج الشبكة العصبية التي تعيش في طرفي مختلفين للحساب المشترك مقابل الدقة. النمط الأول هو طرازات تشفير مزدوجة (أو برج ثنائي)، حيث يتم حساب استعلام وتمثيلات المستند بشكل مستقل تماما ومجتمعة مع عملية منتج بسيطة DOT. النمط الثاني هو النماذج المتقاطعة، حيث يتم تسليم ميزات الاستعلام والوثائق في طبقة الإدخال ويستند جميع الحساب على تمثيل مستند الاستعلام المشترك. عادة ما تستخدم نماذج التشفير المزدوج للاسترجاع وإعادة التعتيم العميق، في حين عادة ما يتم استخدام نماذج الانتباه عبر الترتيب الضحل. في هذه الورقة، نقدم بنية خفيفة الوزن تستكشف هذه التكلفة المشتركة مقابل إيقاف تشغيل الدقة بناء على اهتمام متعدد ناقلات (MVA). نحن نقيم بدقة طريقتنا على مجموعة بيانات استرجاع MS-MARCO وإظهار كيفية التجارة الكفاءة من دقة الاسترجاع مع حساب مشترك وتكلفة تخزين المستندات دون اتصال. نظرا لأن تمثيل مستند مضغوط للغاية وسيتم تحقيق حساب مشترك غير مكلف من خلال مزيج من الرموز التجارية المستفادة التجمع والزواج العدواني. لدينا التعليمات البرمجية ونقاط التفتيش مفتوحة ومتاحة على Github.
Large-scale document retrieval systems often utilize two styles of neural network models which live at two different ends of the joint computation vs. accuracy spectrum. The first style is dual encoder (or two-tower) models, where the query and document representations are computed completely independently and combined with a simple dot product operation. The second style is cross-attention models, where the query and document features are concatenated in the input layer and all computation is based on the joint query-document representation. Dual encoder models are typically used for retrieval and deep re-ranking, while cross-attention models are typically used for shallow re-ranking. In this paper, we present a lightweight architecture that explores this joint cost vs. accuracy trade-off based on multi-vector attention (MVA). We thoroughly evaluate our method on the MS-MARCO passage retrieval dataset and show how to efficiently trade off retrieval accuracy with joint computation and offline document storage cost. We show that a highly compressed document representation and inexpensive joint computation can be achieved through a combination of learned pooling tokens and aggressive downprojection. Our code and model checkpoints are open-source and available on GitHub.
المراجع المستخدمة
https://aclanthology.org/
تعتبر تمثيلات ناقلات الكلمات جزءا أساسيا من منهج NLP.هنا، نصف الواجبات المنزلية التي لديها طلاب تنفيذ طريقة شعبية لتعلم مجاهاجر Word، Word2VEC.يقوم الطلاب بتنفيذ الأجزاء الأساسية للطريقة، بما في ذلك إعادة النظر في النص، وأخذ العينات السلبية، وهبوط ال
يجذب اهتمام الذات متعدد الرأس مؤخرا اهتماما هائلا بسبب وظائفه المتخصصة، والحساب المتوازي الهامة، والقابلية للتمويل المرن. ومع ذلك، تظهر الدراسات التجريبية الحديثة للغاية أن بعض رؤساء الانتباه الذاتي يكسبون مساهمة ضئيلة ويمكن تقليم رؤوس زائدة عن الحاج
تقدم هذه الورقة الحل المقترح من قبل فريق 1213LI ل Subtask 3 في مهمة Semeval-2021: تحديد تقنيات الإقناع المتعددة المستخدمة في المحتوى متعدد الوسائط للميمي.استكشفنا مناهج مختلفة في استخراج ميزة الكشف عن ملصقات الإقناع.توظف نموذجنا النهائي النماذج المدر
مكنت نماذج اللغة العصبية العميقة مثل بيرت التطورات الأخيرة في العديد من مهام معالجة اللغة الطبيعية. ومع ذلك، نظرا للجهد والتكلفة الحاسوبية المشاركة في التدريب المسبق لها، يتم إدخال هذه النماذج عادة فقط لعدد صغير من لغات الموارد عالية الوزن مثل اللغة
تفتح الأسئلة الاستخراجية المفتوحة الإجابة تعمل بشكل جيد على البيانات النصية من خلال استرداد النصوص المرشحة أولا ثم استخراج الإجابة من هؤلاء المرشحين. ومع ذلك، لا يمكن الإجابة على بعض الأسئلة بالنص وحدها ولكنها تتطلب معلومات مخزنة في الجداول. في هذه ا