ترغب بنشر مسار تعليمي؟ اضغط هنا

لفائف: إعادة النظر في المباراة المعجمية الدقيقة في استرجاع المعلومات مع القائمة المقلوبة من السياق

COIL: Revisit Exact Lexical Match in Information Retrieval with Contextualized Inverted List

179   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعتمد أنظمة استرجاع المعلومات الكلاسيكية مثل BM25 على المباراة المعجمية الدقيقة ويمكنها تنفيذ البحث بكفاءة مع فهرس قائمة مقلوب.تتحول نماذج الأشعة تحت الحديثة الأخيرة نحو ناعم مطابقة شروط مستندات الاستعلام، لكنها تفقد كفاءة حساب أنظمة المطابقة الدقيقة.تقدم هذه الورقة لفائف، وهي عبارة عن بنية استرجاع مطابقة محددة في السياق، حيث تعتمد التهديف على تمثيلات محكومتي استفسارات الاستعلام المتداخلة.تخزن الهندسة المعمارية الجديدة تمثيلات الرمز المميز للسيتق في القوائم المقلوبة، مما يوفر كفاءة المباراة الدقيقة وقوة التمثيل لنماذج اللغة العميقة.تظهر النتائج التجريبية لدينا لفائف تفوق المستردات المعجمية الكلاسيكية واسترجاع LM العميق الحديثة مع الكمون مماثل أو أصغر.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تفرض فرضية كثافة المعلومات الموحدة (UID) تفضيل بين مستخدمي اللغة للكلمات المهنية بحيث يتم توزيع هذه المعلومات بشكل موحد عبر إشارة. في حين أن آثارها على الإنتاج اللغوي قد تم استكشافها جيدا، إلا أن الفرضية يحتمل أن تجعل تنبؤات حول فهم اللغة والقبول الل غوي أيضا. علاوة على ذلك، من غير الواضح كيف ينبغي قياس التوحيد في إشارة لغوية --- أو عدم وجوده --- والوحدة اللغوية، على سبيل المثال، الحكم أو مستوى اللغة، يجب أن تعقد هذه التوحيد. نحن هنا التحقيق في هذه الجوانب من الفرضية UID باستخدام وقت القراءة وبيانات القبول. في حين أن نتائج وقت القراءة لدينا تعمل بشكل عام مع العمل السابق، فإنها تتفق أيضا مع تأثير خطي ضعيف ضعيف، والتي ستكون متوافقة مع توقعات UID. للحصول على أحكام القبول، نجد دليلا أكثر وضوحا على أن عدم التوحيد في كثافة المعلومات هو التنبؤ بانخفاض القبول. ثم نستكشف عمليات تشغيل متعددة من UID، بدافع من تفسيرات مختلفة للفرضية الأصلية، وتحليل النطاق الذي تمارسه الضغط نحو التوحيد. تشير القوة التوضيحية المتمثلة في مجموعة فرعية من عمليات الفرعية المقترحة إلى أن أقوى الاتجاه قد يكون الانحدار نحو مفاجأة يعني في جميع أنحاء اللغة، بدلا من العبارة أو الجملة أو الوثيقة --- اكتشاف يدعم تفسير نموذجي ل UID، أي أنه هو المنتج الثانوي للمستخدمين اللغويين تعظيم استخدام قناة اتصال (افتراضية).
يُعتبر الويب الدلالي ثورة جديدة في عالم الويب، حيث تصبح المعلومات و البيانات قابلة للمعالجة منطقياً من قِبل برامج الحاسوب، بحيث تتحول تلك المعلومات و البيانات إلى شبكة معارف ذات معنى مُحدّد. يُشكّل الويب الدلالي مستقبل الويب الحالي مع الإشارة إلى أن البحوث و الدراسات العربية ما زالت قليلة نسبياً في هذا المجال. نعرض في هذه الورقة دراسة مرجعية عن الويب الدلالي و الطرق المختلفة لاستكشاف المعارف و استنباط المعلومات المفيدة من الكم الهائل من البيانات التي يوفرها الويب. كما نُقدّم مثال برمجي قمنا بتطويره كتطبيق لبعض التقانات التي يُقدمها الويب الدلالي و لاسيما طرق استكشاف المعارف فيه. نوفر في هذا المثال البرمجي المبسط بعض الخدمات المتعلقة بالتعليم العالي الحكومي السوري، مثل معلومات عن الجامعات الحكومية السورية كاسم الجامعة (الافتراضية، دمشق، تشرين، حلب و البعث)، موقع الجامعة، عنوان موقعها على شبكة الويب، عدد الطلاب فيها، و ملخص عن الجامعة، مما يُساعد العملاء الأذكياء على إيجاد تلك الخدمات ديناميكيا.
التنبؤ بالعلامة المستنيرة عن مجموعة من النصوص وقواعد المعرفة المنوية، يجمع بين إكمال الرسوم البيانية المعرفة مع استخراج العلاقات، هي مهمة درس صغيرة نسبيا.النظام الذي يمكن أن يؤدي هذه المهمة له القدرة على تمديد مجموعة تعسفية من جداول قاعدة البيانات ال علائقية مع المعلومات المستخرجة من Corpus Document.يتناول OpenKi [1] هذه المهمة من خلال استخراج الكيانات المسماة ويستند عبر أدوات Openie، ثم تعلم تضمين العلاقات من الرسم البياني لعلاقة الكيانات الناتجة عن التنبؤ بالعلاقة، مما يتفوق على النهج السابقة.نقدم امتدادا من Openki الذي يشتمل على مذكرات من التمثيلات القائمة على النصوص للكيانات والعلاقات.نوضح أن هذا يؤدي إلى زيادة كبيرة في الأداء على نظام دون هذه المعلومات.
RAIMY (1999؛ 2000A؛ 2000b) اقترحت الشكليات الرسومية لإدراج النمذجة، والتي تركز بشكل أصلا على التكرار الصوتي في إطار مشتق.يعرف هذا الإطار الآن باسم علم الصوتيات المستندة إلى الأسبقية أو علم الصوتيات متعدد المعتدل.فكرة راسي هي أن القطاعات في المدخلات إ لى علم الصويا لا تطلبها الأسبقية بالكامل.تتناول هذه الورقة تحديا نشأ مع عمل Raimy، وتطوير خوارزمية تسلسل حتمية كجزء من اشتقاق الأشكال السطحية.تتطلب خوارزمية توسيع المباراة التي أدخلت هنا على افتراضات أقل وأصيب أكثر إحكاما إلى التصنيف الذي يشهد.تحتوي الخوارزمية أيضا على أي معلمة أو قيود خاصة بالرسوم البيانية أو الطوبولوجيا الفردية، على عكس المقترحات السابقة.يتطلب تمديد المباراة شيئا ما عدا معرفة آخر مجموعة إضافية من الروابط.
إن إدخال طلاب المعلوماتيين الطبية الحيوية (BMI) للمعالجة اللغوية الطبيعية (NLP) يتطلب موازنة العمق الفني مع المعرفة العملية لمعالجة الاحتياجات التي تركز على التطبيق.قمنا بتطوير مجموعة من ثلاثة أنشطة إدخال طلاب BMI تمهيدي لاسترجاع المعلومات مع NLP، وا لغطاء استراتيجيات تمثيل المستندات ونماذج اللغة من TF-IDF إلى Bert.تزود هذه الأنشطة الطلاب بتجربة عملية مستهدفة نحو حالات الاستخدام المشترك، وإدخال مكونات أساسية من سير العمل NLP لمجموعة واسعة من التطبيقات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا