تقوم المشفر المزدح المجرقة بإجراء استرجاع من خلال ترميز المستندات والاستعلامات في متجهات كثيفة منخفضة الأبعاد، حيث سجل كل وثيقة عن طريق المنتج الداخلي مع الاستعلام.نحن نبحث في قدرة هذه الهندسة المعمارية بالنسبة إلى نماذج كيس من الكلمات المتفرقة والشبكات العصبية الاهتمام.باستخدام كل من التحليلات النظرية والتجريبية، نقوم بإنشاء اتصالات بين بعد ترميز، الهامش بين الذهب والوثائق ذات المرتبة الأدنى، وطول الوثيقة، مما يشير إلى حد قيود في سعة الترميزات ذات الطول الثابت لدعم استرجاع الدقة الدقيقة للوثائق الطويلة.بناء على هذه الأفكار، نقترح نموذجا عصبا بسيطا يجمع بين كفاءة الترميز المزدوج مع بعض التعبير عن هياكل التعبير الأكثر تكلفة، واستكشاف الهجينة الكثيفة المتنارية للاستفادة من دقة الاسترجاع المتناقضة.تتفوق هذه النماذج بدائل قوية في استرجاع واسع النطاق.
Abstract Dual encoders perform retrieval by encoding documents and queries into dense low-dimensional vectors, scoring each document by its inner product with the query. We investigate the capacity of this architecture relative to sparse bag-of-words models and attentional neural networks. Using both theoretical and empirical analysis, we establish connections between the encoding dimension, the margin between gold and lower-ranked documents, and the document length, suggesting limitations in the capacity of fixed-length encodings to support precise retrieval of long documents. Building on these insights, we propose a simple neural model that combines the efficiency of dual encoders with some of the expressiveness of more costly attentional architectures, and explore sparse-dense hybrids to capitalize on the precision of sparse retrieval. These models outperform strong alternatives in large-scale retrieval.
المراجع المستخدمة
https://aclanthology.org/
يمكن أن تسترجع إمكانات المطابقة الدلالية لاسترجاع المعلومات العصبية مشاكل المرادفات والبوليزيميمي من الأساليب الرمزية.ومع ذلك، فإن التمثيلات الكثيفة النماذج العصبية أكثر ملاءمة لإعادة الترتيب، بسبب عدم كفاءةها.تمثيلات متفرق، إما في شكل رمزي أو كامن،
غالبا ما يتطلب الإجابة على السؤال المجمع إيجاد سلسلة من التفكير يتكون من قطع أدلة متعددة.تتضمن الأساليب الحالية نقاط قوة المعرفة والنص غير منظم، بافتراض النص النحاسي نصف منظم.بناء على طرق استرجاع كثيفة، نقترح نهجا جديدا استرجاع متعدد الخطوات (BEAMDR)
باللغة العربية، يتم استخدام علامات التشكيل لتحديد المعاني وكذلك النطق.ومع ذلك، غالبا ما يتم حذف الدروع من النصوص المكتوبة، مما يزيد من عدد المعاني والنطوقتين المحتملة.هذا يؤدي إلى نص غامض ويجعل العملية الحسابية على النص غير المسموح به أكثر صعوبة.في ه
حققت استرجاع النص العصبي الكثيف نتائج واعدة حول السؤال المفتوح للنطاق الرد (QA)، حيث يتم استغلال تمثيلات كامنة للأسئلة والمراجيات للحصول على أقصى قدر من البحث الداخلي في عملية الاسترجاع. ومع ذلك، فإن المستردات الكثيفة الحالية تتطلب تقسيم المستندات إل
يعيد نظام استرجاع النص للتعلم اللغوي مواد القراءة في مستوى الصعوبة المناسب للمستخدم.يحافظ النظام عادة على نموذج متعلم على معرفة المفردات للمستخدم، وتحدد النصوص التي تناسب النموذج.مع زيادة الكفاءة في اللغة للمستخدم، تكون التحديثات النموذجية ضرورية لاس