تصف هذه الورقة نموذجا مدمجا وفعالا لاسترجاع مرور الكمون المنخفض في البحث عن المحادثة بناء على تمثيلات كثيفة علمية. قبل عملنا، يستخدم النهج الواحد من بين الفنون خط أنابيب متعدد المراحل يشتمل على وحدات إعادة صياغة استعلام محادثة واسترجاع المعلومات. على الرغم من فعاليته، غالبا ما يتضمن هذا الخط الأنابيب نماذج عصبية متعددة تتطلب أوقات الاستدلال الطويلة. بالإضافة إلى ذلك، تحسين كل وحدة بشكل مستقل يتجاهل التبعيات بينهم. لمعالجة هذه العيوب، نقترح دمج إعادة صياغة استعلام المحادثة مباشرة في نموذج استرجاع كثيف. للمساعدة في هذا الهدف، نقوم بإنشاء مجموعة بيانات مع ملصقات ذات صلة زائفة للبحث عن المحادثة للتغلب على عدم وجود بيانات تدريب واستكشاف استراتيجيات تدريب مختلفة. نوضح أن نموذجنا يعيد كتابة استعلامات المحادثة بشكل فعال كتمثيلات كثيفة في البحث عن المحادثة والفتح عن نطاق البيانات. أخيرا، بعد مراعاة أن طرازنا يتعلم ضبط نموذج L2 من Arquer Token Ageddings، فإننا نستفيد من هذه الخاصية لاسترجاع الهجين ودعم تحليل الأخطاء.
This paper describes a compact and effective model for low-latency passage retrieval in conversational search based on learned dense representations. Prior to our work, the state-of-the-art approach uses a multi-stage pipeline comprising conversational query reformulation and information retrieval modules. Despite its effectiveness, such a pipeline often includes multiple neural models that require long inference times. In addition, independently optimizing each module ignores dependencies among them. To address these shortcomings, we propose to integrate conversational query reformulation directly into a dense retrieval model. To aid in this goal, we create a dataset with pseudo-relevance labels for conversational search to overcome the lack of training data and to explore different training strategies. We demonstrate that our model effectively rewrites conversational queries as dense representations in conversational search and open-domain question answering datasets. Finally, after observing that our model learns to adjust the L2 norm of query token embeddings, we leverage this property for hybrid retrieval and to support error analysis.
المراجع المستخدمة
https://aclanthology.org/
Requery Rewrite (QR) هو مكون ناشئ في أنظمة المحادثة AI، مما يقلل من عيب المستخدم.سبب عيب المستخدم لأسباب مختلفة، مثل الأخطاء في نظام الحوار المنطوق أو عروض المستخدمين للسان أو لغتهم المختصرة.ينبع العديد من عيوب المستخدمين من العوامل الشخصية، مثل نمط
نقترح إطارا لنموذج نفي محادثة تشغيلية من خلال تطبيق السياق الدنيوي (المعرفة السابقة) على النفي المنطقي في دلالات التوزيع التركيبية.بالنظر إلى كلمة، يمكن لإطارنا أن يخلق نفيها مما يشبه كيفية إدراك البشر النفي.يقوم الإطار بتصحيح النفي المنطقي معاني الو
تم إلقاء اللوم على الاستقطاب المتزايد لوسائل الإعلام الإخبارية بسبب عدم الخلاف والجدل وحتى العنف. وبالتالي فإن التعرف المبكر للمواضيع المستقطبة هو مسألة عاجلة يمكن أن تساعد في تخفيف الصراع. ومع ذلك، لا يزال القياس الدقيق للاستقطاب الحكيم في الموضوع ت
ويعتقد أن وضع العلامات الدلالية الدلالية للمحادثة (CSRL) هي خطوة حاسمة نحو فهم الحوار.ومع ذلك، لا يزال يمثل تحديا كبيرا لمحلل CSRL الحالي للتعامل مع المعلومات الهيكلية للمحادثة.في هذه الورقة، نقدم بنية بسيطة وفعالة ل CSRL التي تهدف إلى معالجة هذه الم
دفع نجاح ترميزات ثنائية الاتجاه باستخدام نماذج لغة ملثم، مثل بيرت، في العديد من مهام معالجة اللغة الطبيعية، بباحثي المحاولة لإدماج هذه النماذج المدربة مسبقا في أنظمة الترجمة الآلية العصبية (NMT). ومع ذلك، فإن الأساليب المقترحة لإدماج النماذج المدربة