توسيع المستند غير المقترح لاسترجاع المعلومات مع توليد النص الاستوكاستك


الملخص بالعربية

إحدى التحديات في استرجاع المعلومات (IR) هي مشكلة عدم تطابق المفردات، والتي تحدث عندما تكون الشروط بين الاستفسارات والمستندات مختلفة بشكل جذابي ولكنها مماثلة دلالة. في حين اقترح العمل الحديث توسيع الاستعلامات أو المستندات من خلال إثراء تمثيلاتها مع مصطلحات ذات صلة إضافية لمعالجة هذا التحدي، فإنها عادة ما تتطلب حجم كبير من أزواج المستندات لتدريب نموذج التوسع. في هذه الورقة، نقترح توسيع مستندات غير محفوظة مع إطار عمل جيل (UDEG) مع نموذج لغة مدرب مسبقا، مما يولد جمل تكميلية متنوعة للمستند الأصلي دون استخدام تسميات على أزواج المستندات للاستعلام للتدريب. لتوليد الجمل، فإننا ناضطنا بشكل غير منتفضل بإداراتهم لتوليد جمل أكثر تنوعا للتوسع المستند. نحن نتحقق من صحة إطار عملائنا على مجموعة بيانات القياسية القياسية. تظهر النتائج أن إطارنا يتفوق بشكل كبير على خطوط الأساس التوسع ذات الصلة إلى الأشعة تحت الحمراء.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث