ترغب بنشر مسار تعليمي؟ اضغط هنا

تمثيلات متناثرة، كثيفة، ويهما عن استرجاع النص

Sparse, Dense, and Attentional Representations for Text Retrieval

391   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقوم المشفر المزدح المجرقة بإجراء استرجاع من خلال ترميز المستندات والاستعلامات في متجهات كثيفة منخفضة الأبعاد، حيث سجل كل وثيقة عن طريق المنتج الداخلي مع الاستعلام.نحن نبحث في قدرة هذه الهندسة المعمارية بالنسبة إلى نماذج كيس من الكلمات المتفرقة والشبكات العصبية الاهتمام.باستخدام كل من التحليلات النظرية والتجريبية، نقوم بإنشاء اتصالات بين بعد ترميز، الهامش بين الذهب والوثائق ذات المرتبة الأدنى، وطول الوثيقة، مما يشير إلى حد قيود في سعة الترميزات ذات الطول الثابت لدعم استرجاع الدقة الدقيقة للوثائق الطويلة.بناء على هذه الأفكار، نقترح نموذجا عصبا بسيطا يجمع بين كفاءة الترميز المزدوج مع بعض التعبير عن هياكل التعبير الأكثر تكلفة، واستكشاف الهجينة الكثيفة المتنارية للاستفادة من دقة الاسترجاع المتناقضة.تتفوق هذه النماذج بدائل قوية في استرجاع واسع النطاق.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يمكن أن تسترجع إمكانات المطابقة الدلالية لاسترجاع المعلومات العصبية مشاكل المرادفات والبوليزيميمي من الأساليب الرمزية.ومع ذلك، فإن التمثيلات الكثيفة النماذج العصبية أكثر ملاءمة لإعادة الترتيب، بسبب عدم كفاءةها.تمثيلات متفرق، إما في شكل رمزي أو كامن، أكثر كفاءة مع مؤشر مقلوب.أخذ مزايا التمثيلات المتناثرة والكثيفة، نقترح مخطط تمثيل ثنائي الأبعاد للغاية (UHD) مجهز بمرضية يمكن السيطرة عليها مباشرة.سعة UHD الكبيرة والحد الأدنى من الضوضاء والتدخل بين الأبعاد تسمح بالتمثيل الثنائي، والتي تعتبر فعالة للغاية للتخزين والبحث.المقترح أيضا طريقة دلامية، حيث يتم اختيار / دمج الأشرطة من طبقات متعددة من بيرت / دمجها لتمثيل الجوانب اللغوية المتنوعة.نقوم باختبار نماذجنا باستخدام سيارة MS MARCO و TREC، والتي تبين أن نماذجنا تفوقت على نماذج غير متفرقة أخرى.
غالبا ما يتطلب الإجابة على السؤال المجمع إيجاد سلسلة من التفكير يتكون من قطع أدلة متعددة.تتضمن الأساليب الحالية نقاط قوة المعرفة والنص غير منظم، بافتراض النص النحاسي نصف منظم.بناء على طرق استرجاع كثيفة، نقترح نهجا جديدا استرجاع متعدد الخطوات (BEAMDR) يشكل بشكل متكرر سلسلة دليل من خلال البحث في شعاع في تمثيلات كثيفة.عند تقييمها على الإجابة على السؤال المتعدد القفز، فإن Beamdr منافسة النظم الحديثة، دون استخدام أي معلومات شبه منظمة.من خلال تكوين الاستعلام في الفضاء الكثيف، يلتقط Beamdr العلاقات الضمنية بين الأدلة في سلسلة المنطق.الرمز متاح في HENREZHAO5852 / BEAMDR.
باللغة العربية، يتم استخدام علامات التشكيل لتحديد المعاني وكذلك النطق.ومع ذلك، غالبا ما يتم حذف الدروع من النصوص المكتوبة، مما يزيد من عدد المعاني والنطوقتين المحتملة.هذا يؤدي إلى نص غامض ويجعل العملية الحسابية على النص غير المسموح به أكثر صعوبة.في ه ذه الورقة، نقترح نموذج إعماري لغوي للترشف عن النص العربي (لاماد).في لاماد، يتم تقديم تمثيل ميزة لغوية جديدة، والذي يستخدم كل من ملامح الكلمة والأحرف السياقية.بعد ذلك، يقترح آلية الاهتمام اللغوي التقاط الميزات اللغوية المهمة.بالإضافة إلى ذلك، نستكشف تأثير الميزات اللغوية المستخرجة من النص على درج النص العربي (ATD) عن طريق إدخالها لآلية الاهتمام اللغوي.توضح النتائج التجريبية الواسعة على ثلاث مجموعات بيانات بأحجام مختلفة أن لاماد تتفوق على النماذج الحالية للحالة.
حققت استرجاع النص العصبي الكثيف نتائج واعدة حول السؤال المفتوح للنطاق الرد (QA)، حيث يتم استغلال تمثيلات كامنة للأسئلة والمراجيات للحصول على أقصى قدر من البحث الداخلي في عملية الاسترجاع. ومع ذلك، فإن المستردات الكثيفة الحالية تتطلب تقسيم المستندات إل ى مقاطع قصيرة تحتوي عادة على سياق محلي جزئي ومحازي في بعض الأحيان، وتعتمد بشدة على عملية تقسيم. ونتيجة لذلك، قد تسفر عن تعويضات مخفية غير دقيقة ومضللة، مما تدهور نتيجة الاسترجاع النهائي. في هذا العمل، نقترح استرجاع هرمي هرمي كثيف (DHR)، وهو إطار هرمي يمكنه إنشاء تمثيلات كثيفة دقيقة من الممرات من خلال الاستفادة من كل من الدلالات الكبيرة في الوثيقة والدليل المجهري المحدد لكل مقطع. على وجه التحديد، يحدد المسترد على مستوى المستند أولا المستندات ذات الصلة، من بينها يتم استرداد المقاطع ذات الصلة من خلال المسترد لمستوى المقاطع. سيتم معايرة ترتيب الممرات المستردة من خلال دراسة أهمية مستوى الوثيقة. بالإضافة إلى ذلك، يتم التحقيق في هيكل العنوان الهرمي واستراتيجيات أخذ العينات السلبية (I.E.، في السلبيات في السلبيات) في السلبيات). نطبق DHR إلى مجموعات بيانات QA مفتوحة على نطاق واسع. تتفوق DHR بشكل كبير على استرداد المقطع الكثيف الأصلي، ويساعد نظام ضمان الجودة في نهاية إلى نهاية يتفوق على الأساس القوي على معايير QA متعددة النطاق.
يعيد نظام استرجاع النص للتعلم اللغوي مواد القراءة في مستوى الصعوبة المناسب للمستخدم.يحافظ النظام عادة على نموذج متعلم على معرفة المفردات للمستخدم، وتحدد النصوص التي تناسب النموذج.مع زيادة الكفاءة في اللغة للمستخدم، تكون التحديثات النموذجية ضرورية لاس ترداد النصوص مع التعقيد المعجمي المقابل.نحن نتحقق في نموذج متعلم مفتوح يتيح تعديل المستخدم لمحتواه، وتقييم فعاليته فيما يتعلق بمبلغ جهد تحديث المستخدم.قارنا هذا النموذج مع النهج المتدرج، حيث يقوم النظام بإرجاع النصوص في الصف الأمثل.عندما يقوم المستخدم بإجراء ما لا يقل عن نصف التحديثات المتوقعة لنموذج المتعلم المفتوح، تظهر نتائج المحاكاة أنه يتفوق على النهج المتدرج في استرجاع النصوص التي تناسب تفضيلات المستخدم كثافة كلمة جديدة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا