ترغب بنشر مسار تعليمي؟ اضغط هنا

أسئلة بسيطة التركيز على الكيان تحدي المتسترجين الكثيف

Simple Entity-Centric Questions Challenge Dense Retrievers

286   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

انفجرت الإجابة على الأسئلة المفتوحة في مجال الشعبية مؤخرا بسبب نجاح نماذج استرجاع كثيفة، والتي تجاوزت النماذج المتناقضة باستخدام بعض الأمثلة التدريبية الإشراف فقط. ومع ذلك، في هذه الورقة، نوضح النماذج الكثيفة الحالية ليست بعد الجراد المقدس من استرجاعها. نقوم أولا بإنشاء المنفيات، وهي مجموعة من الأسئلة البسيطة والغنية للكيان بناء على حقائق من Wikidata (على سبيل المثال، أين ولد الفرح؟ نحن نبحث في هذه القضية والكشف عن أن المستردات الكثيفة لا يمكن أن تعمم فقط إلى الكيانات المشتركة ما لم يلاحظ أن نمط السؤال صراحة أثناء التدريب. نحرق اثنين من الحلول البسيطة نحو معالجة هذه المشكلة الحاسمة. أولا، نوضح أن تكبير البيانات غير قادر على إصلاح مشكلة التعميم. ثانيا، نجيد أن تشفير مرور أكثر قوة يساعد في تسهيل التكيف بشكل أفضل باستخدام تشفير الأسئلة المتخصصة. نأمل أن يتم إلقاء عملنا الضوء على التحديات في إنشاء مسترد كثيف قوي، يعمل بشكل جيد عبر توزيعات المدخلات المختلفة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

لقد أظهر استرجاع كثيف نجاحا كبيرا لمرتبة المرور باللغة الإنجليزية.ومع ذلك، لا تزال فعاليتها للغات غير الإنجليزية غير مستكشفة بسبب الحد من الموارد التدريبية.في هذا العمل، نستكشف تقنيات نقل مختلفة لتحقيق تصنيف الوثيقة من التوضيح باللغة الإنجليزية إلى ا للغات غير الإنجليزية.تكشف تجاربنا أن التحويل المستندة إلى نموذج الطلقة الصفرية باستخدام mbert يحسن جودة البحث.نجد أن التحويل اللغوي المستهدف الأكثر إشرافا ضعيفا قادرة على المنافسة مقارنة بنقل اللغة المستهدفة القائمة على الجيل، والذي يتطلب نماذج الترجمة.
لتدقيق متانة نماذج التعرف على الكيان المسماة (NER)، نقترح روكر، وسيلة بسيطة ولكنها فعالة لإنشاء أمثلة خصومة طبيعية. على وجه التحديد، على مستوى الكيان، نحل محل الكيانات المستهدفة مع كيانات أخرى من نفس الطبقة الدلالية في ويكيداتا؛ على مستوى السياق، نست خدم نماذج اللغة المدربة مسبقا (E.G.، Bert) لتوليد بدائل النصية. معا، تنتج مستويين AT- TACH أمثلة مخدرة طبيعية تؤدي إلى توزيع تحول من البيانات التدريبية التي تم تدريب نماذجنا المستهدفة عليها. نحن نطبق الطريقة المقترحة على مجموعة بيانات Ontonotes وإنشاء معيار جديد يدعى OnTorock لتقييم متانة النماذج NER الحالية عبر بروتوكول تقييم منهجي. تجاربنا وتحليلنا تكشف أنه حتى أفضل نموذج له انخفاض كبير في الأداء، ويبدو أن هذه النماذج تحفز أنماط كيان داخل المجال بدلا من التفكير من السياق. يدرس عملنا أيضا آثار عدد قليل من أساليب تكبير البيانات البسيطة لتحسين متانة نماذج NER.
تهدف محاذاة الكيان المتبادل (EA) إلى إيجاد الكيانات المكافئة بين Crosslingual KGS (الرسوم البيانية المعرفة)، وهي خطوة حاسمة لإدماج KGS.في الآونة الأخيرة، يتم اقتراح العديد من طرق EA القائمة على GNN وإظهار تحسينات الأداء اللائق على العديد من مجموعات ا لبيانات العامة.ومع ذلك، فإن طرق EA القائمة القائمة على GNN ترثت حتما بشكل حتمة الترجمة الشفوية والكفاءة المنخفضة من الشبكات العصبية.تحفزه افتراض ISOMORPHIC من الأساليب القائمة على GNN، ونحن نجح في تحويل مشكلة EA عبر اللغات في مشكلة مهمة.بناء على هذا التعريف، نقترح طريقة محاذاة كيان بسيطة ولكنها فعالة بشكل محبط (SEU) دون شبكات عصبية.أجريت تجارب واسعة لإظهار أن نهجنا المقترح غير المقترح حتى يدق طرق متقدمة تحت إشراف على جميع مجموعات البيانات العامة مع ارتفاع الكفاءة والتفسيرية والاستقرار.
اعتمدت نهج استخراج المعلومات الحديثة على تدريب النماذج العصبية العميقة. ومع ذلك، يمكن أن تتجاوز هذه النماذج بسهولة الملصقات الصاخبة وتعاني من تدهور الأداء. في حين أنه من المكلف للغاية تصفية الملصقات الصاخبة في موارد تعليمية كبيرة، فإن الدراسات الحديث ة تظهر أن مثل هذه الملصقات تتخذ المزيد من الخطوات التدريبية التي سيتم حفظها وتكون نسيانها بشكل أكثر تواترا من الملصقات النظيفة، وبالتالي يتم تحديدها في التدريب. بدافع من هذه الخصائص، نقترح إطارا بسيطا بانتظام بسيطة لاستخراج المعلومات التركز على الكيان، والذي يتكون من العديد من النماذج العصبية مع هياكل متطابقة ولكن تهيئة معلمة مختلفة. يتم تحسين هذه النماذج بشكل مشترك مع الخسائر الخاصة بالمهمة ويتم تنظيمها لتوليد تنبؤات مماثلة تستند إلى فقدان اتفاقية، تمنع التجديدات الخارجية على الملصقات الصاخبة. تظهر تجارب واسعة على نطاق واسع على نطاق واسع ولكن صاخبة لاستخراج المعلومات، Tacred و Conll03، فعالية إطار عملنا. نطلق سرد علاماتنا للمجتمع للبحث في المستقبل.
الملخص ندرس التعلم التعرف على الكيان المسمى في وجود التعليقات التوضيحية في الكيان المفقود.نحن نقترب من هذا الإعداد باسم وضع علامات مع المتغيرات الكامنة واقتراح خسارة جديدة، ونسبة الكيان المتوقعة، لتعلم النماذج بحضور العلامات المفقودة بشكل منهجي.نظرا لأن نهجنا صوتي من الناحية النظرية ومفيدة تجريبيا.تجريفيا، نجد أنه يجتمع أو يتجاوز أداء خطوط أساس قوية وحديثة من بين الفنون عبر مجموعة متنوعة من اللغات والسيناريوهات التوضيحية ومبالغ البيانات المسمى.على وجه الخصوص، نجد أنه يتفوق بشكل كبير على الطرق السابقة من الأساليب السابقة من Mayhew et al.(2019) ولي وآخرون.(2021) بواسطة +12.7 و +2.3 F1 النتيجة في بيئة صعبة مع فقط 1000 عرض توضيحية متحيزة، بلغ متوسطها عبر 7 مجموعات من مجموعات البيانات.نظهر أيضا أنه عندما يقترن نهجنا، فإن مخطط التعليق التوضيحي رواية متفوقة تفوق التعليق التوضيحي الشامل لميزانيات التوضيحية المتواضعة

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا