ترغب بنشر مسار تعليمي؟ اضغط هنا

توسيع المستند غير المقترح لاسترجاع المعلومات مع توليد النص الاستوكاستك

Unsupervised Document Expansion for Information Retrieval with Stochastic Text Generation

789   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

إحدى التحديات في استرجاع المعلومات (IR) هي مشكلة عدم تطابق المفردات، والتي تحدث عندما تكون الشروط بين الاستفسارات والمستندات مختلفة بشكل جذابي ولكنها مماثلة دلالة. في حين اقترح العمل الحديث توسيع الاستعلامات أو المستندات من خلال إثراء تمثيلاتها مع مصطلحات ذات صلة إضافية لمعالجة هذا التحدي، فإنها عادة ما تتطلب حجم كبير من أزواج المستندات لتدريب نموذج التوسع. في هذه الورقة، نقترح توسيع مستندات غير محفوظة مع إطار عمل جيل (UDEG) مع نموذج لغة مدرب مسبقا، مما يولد جمل تكميلية متنوعة للمستند الأصلي دون استخدام تسميات على أزواج المستندات للاستعلام للتدريب. لتوليد الجمل، فإننا ناضطنا بشكل غير منتفضل بإداراتهم لتوليد جمل أكثر تنوعا للتوسع المستند. نحن نتحقق من صحة إطار عملائنا على مجموعة بيانات القياسية القياسية. تظهر النتائج أن إطارنا يتفوق بشكل كبير على خطوط الأساس التوسع ذات الصلة إلى الأشعة تحت الحمراء.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

العروض التقديمية مهمة للتواصل في جميع مجالات حياتنا، ومع ذلك فإن إنشاء الطوابق الشريحة غالبا ما تكون مملة وتستهلك الوقت.كان هناك بحث محدود يهدف إلى أتمتة عملية توليد المستندات إلى الشرائح وجميع مواجهة التحدي الحرج: لا توجد مجموعة بيانات متاحة للجمهور للتدريب والمعايير.في هذا العمل، فإننا نساهم أولا في مجموعة بيانات جديدة، Sciduet، تتكون من أزواج من الأوراق وحوابق الشرائح المقابلة من مؤتمرات NLP و ML الأخيرة (E.G.، ACL).ثانيا، نقدم D2S، وهو نظام جديد يتناول مهمة المستندات إلى الشرائح مع نهج من خطوتين: 1) استخدم عناوين الشريحة لاسترداد النص والأرقام والجشطة ذات الصلة والجاذبية؛2) لخص السياق المسترجع في نقاط رصاصة مع الإجابة على سؤال طويل الشكل.يشير تقييمنا إلى أن ضميز ضمنيا طويل النموذج يتفوق على خطوط الأساس الملخص لحدي الفن على كل من مقاييس الحمر التلقائي والتقييم البشري النوعي.
يمكن أن تسترجع إمكانات المطابقة الدلالية لاسترجاع المعلومات العصبية مشاكل المرادفات والبوليزيميمي من الأساليب الرمزية.ومع ذلك، فإن التمثيلات الكثيفة النماذج العصبية أكثر ملاءمة لإعادة الترتيب، بسبب عدم كفاءةها.تمثيلات متفرق، إما في شكل رمزي أو كامن، أكثر كفاءة مع مؤشر مقلوب.أخذ مزايا التمثيلات المتناثرة والكثيفة، نقترح مخطط تمثيل ثنائي الأبعاد للغاية (UHD) مجهز بمرضية يمكن السيطرة عليها مباشرة.سعة UHD الكبيرة والحد الأدنى من الضوضاء والتدخل بين الأبعاد تسمح بالتمثيل الثنائي، والتي تعتبر فعالة للغاية للتخزين والبحث.المقترح أيضا طريقة دلامية، حيث يتم اختيار / دمج الأشرطة من طبقات متعددة من بيرت / دمجها لتمثيل الجوانب اللغوية المتنوعة.نقوم باختبار نماذجنا باستخدام سيارة MS MARCO و TREC، والتي تبين أن نماذجنا تفوقت على نماذج غير متفرقة أخرى.
تبنت النهج الحديثة التجريدية لجيل النص إلى النص بنية فك التشفير الناجحة للغاية أو المتغيرات منها.تولد هذه النماذج نصا يجيد (ولكن في كثير من الأحيان غير دقيقة) وإجراء سيئة للغاية عند تحديد المحتوى المناسب وطلبه بشكل متماسك.للتغلب على بعض هذه القضايا، نقترح نموذجا عصبا بمرحلة تخطيط ماكرو تذكرنا مرحلة جيل تذكرنا بالطرق التقليدية التي تعتنق وحدات منفصلة للتخطيط وإعمال السطح.تمثل خطط الماكرو تنظيما رفيع المستوى للمحتوى الهام مثل الكيانات والأحداث وتفاعلاتها؛يتم تعلمهم من البيانات وإتاحة كمدخلات للمولد.تبين تجارب واسعة على معايير بيانات إلى نصية (Rotowire و MLB) أن نهجنا يتفوق على خطوط أساس تنافسية من حيث التقييم التلقائي والبشري.
استرجاع المرور والترتيب هو مهمة رئيسية في الإجابة على الأسئلة المفتوحة واسترجاع المعلومات. تعتمد الأساليب الفعالة الحالية في الغالب على المستردين المعتمدين على النموذج العميق المدربين مسبقا. تم عرض هذه الأساليب نموذجا بفعالية المطابقة الدلالية بين ال استعلامات والمرورات، أيضا في وجود عدم تطابق الكلمات الرئيسية، أي الممرات ذات الصلة بالاستعلام ولكن لا تحتوي على كلمات رئيسية مهمة. في هذه الورقة، نعتبر المسترد الكثيف (DR) وطريقة استرجاع الممر، و Re-Ranker Reveer، وهي طريقة إعادة ترتيب الشعبية. في هذا السياق، نحقق رسميا كيفية استجابة هذه النماذج والتكيف مع نوع معين من عدم تطابق الكلمة الرئيسية - التي تحدث عن طريق الكلمة الأساسية التي تحدث في استفسارات. من خلال التحقيق التجريبي، نجد أن الأخطاء المطبعية يمكن أن تؤدي إلى انخفاض كبير في فعالية الاسترجاع والترتيب. بعد ذلك اقترحنا إطارا بسيطا للتدريب في الطباعة المطبعية عن DR و Bert Re-Ranker لمعالجة هذه المسألة. نظرا لنتائجنا التجريبية على مجموعة بيانات مرتبة مرور MS MARCO، بإظهار مجموعة بيانات MS MARCO، من خلال التدريب على الأخطاء المطبعية المقترحة، يمكن أن يصبح تدريب DR و Bert Re-Ranker قويا للمخططات المطبعية في الاستفسارات، مما يؤدي إلى تحسين فعالية محسنة بشكل كبير مقارنة بالنماذج المدربة دون محاسبة بشكل مناسب عن الأخطاء المطبعية.
تأخذ مهمة نقل النمط (النمط هنا بمعنى "هنا" مع العديد من الجوانب بما في ذلك التسجيل، وهيكل الجملة، واختيار المفردات) إجراء إدخال النص وإعادة كتابةها في نمط مستهدف محدد يحافظ على المعنى، ولكن تغيير نمط نص المصدر لمطابقة ذلك من الهدف. يعتمد الكثير من ال أبحاث الموجودة في هذه المهمة على استخدام مجموعات البيانات المتوازية. في هذا العمل، نوظف نتائج مؤخرا في نمذجة اللغة المتقاطعة غير المتبادلة (XLM) والترجمة الآلية لنقل النمط أثناء التعامل مع بيانات الإدخال كما غير إجمالي. أولا، نوضح أن إضافة تضمين المحتوى "" إلى XLM والتي تلتقط مجموعة الموضوعات المحددة للإنسان يمكن أن تحسن الأداء على الطراز الأساسي. غالبا ما تعتمد تقييم نقل النمط على المقاييس المصممة للترجمة الآلية التي تلقت انتقاد مدى ملاءمتها لهذه المهمة. كمساهمة ثانية، نقترح استخدام مجموعة من الأنماط الكلاسيكية ككمل مفيد للتقييم. نقوم باختيار بعض هذه التدابير وتشمل هذه في تحليل نتائجنا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا