ترغب بنشر مسار تعليمي؟ اضغط هنا

الأهمية المرشد الإشراف على OpenQa مع Colbert

Relevance-guided Supervision for OpenQA with ColBERT

264   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعتمد أنظمة مجردة للاستفادة من النطاق المفتوح (OpenQA) بشكل عام على المسترد لإيجاد مقاطع مرشحة في كوربس كبيرة وقارئ لاستخراج إجابات من تلك الممرات.في العمل الحديث بكثير، المسترد هو عنصر تعلم يستخدم تمثيلات ناقلات الخشنة من الأسئلة والمرورات.نقول أن خيار النمذجة هذا غير معبرة بما فيه الكفاية للتعامل مع تعقيد أسئلة اللغة الطبيعية.لمعالجة هذا، نحدد Colbert-Qa، الذي يتكيف مع نموذج استرجاع العصبي القابل للتطوير كولبيرت إلى OpenQA.Colbert يخلق تفاعلات جيدة المحبوس بين الأسئلة والمرورات.نقترح استراتيجية إشرافية ضعيفة فعالة تستخدم Colbert لإنشاء بيانات التدريب الخاصة بها.هذا يحسن إلى حد كبير استرجاع OpenQA على الأسئلة الطبيعية والتشكيني و Triviaqa، ويقوم النظام الناتج بأداء OpenQa الاستخراجي من بين الفن على جميع مجموعات البيانات الثلاثة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يحتاج تحليل الأدبيات العلمي إلى التعرف على الكيان المسمى بشكل جيد (NER) لتوفير مجموعة واسعة من المعلومات للاكتشاف العلمي. على سبيل المثال، يحتاج أبحاث الكيمياء إلى دراسة العشرات إلى مئات أنواع الكيانات المتميزة والجمالية المميزة، مما يجعل التعليق الت وضيحي ثابت ودقيقا صعبا حتى للحشود من خبراء المجال. من ناحية أخرى، يمكن الوصول بسهولة إلى أونتالولوجيات خاصة بالمجال وقواعد المعرفة (KBS) بسهولة، أو شيدت، أو متكامل، مما يجعل الإشراف البعيد واقعية للكيمياء النيذبة الناشئة. في الإشراف البعيد، يتم إنشاء تسميات التدريب عن طريق مطابقة تذكر في وثيقة مع المفاهيم في قواعد المعرفة (KBS). ومع ذلك، فإن هذا النوع من مطابقة KB يعاني من تحديين رئيسيين: التعليق التوضيحي غير الكامل والشروح الصاخبة. نقترح كيمنر، وهي طريقة توجيهية، تحت مضاد المسترد بها، تحت إشراف صاخبة للكيمياء النيذاري المحبوسين عن هذه التحديات. إنه يرفع هيكل OnTology لنوع الكيمياء لتوليد ملصقات بعيدة مع أساليب رواية من الغموض متعددة الأطراف متعددة الأطباق متعددة الأطباق. إنه يحسن بشكل كبير من توليد التسمية البعيدة للتدريب على تسلسل التسلسل اللاحق. نحن نقدم أيضا مجموعة بيانات من الخبراء، وكيمياء NER مع 62 نوعا من كيمياء كيمياء دقيقة (على سبيل المثال، المركبات الكيميائية والتفاعلات الكيميائية). تظهر النتائج التجريبية أن CHEMMNER فعالة للغاية، مما يتفوق بشكل كبير على أساليب NER-Artication NER (مع تحسن درجة F1 المطلقة).
تتطلب شبكات العصبية العميقة الحديثة من بين الفن بيانات تدريبية ذات صلة واسعة النطاق غالبا ما تكون مكلفة للحصول على أو غير متوفرة للعديد من المهام. لقد ثبت أن الإشراف ضعيف في شكل قواعد خاصة بالمجال مفيدا في مثل هذه الإعدادات لإنشاء بيانات التدريب المس مى ضعيف. ومع ذلك، فإن التعلم مع القواعد الضعيفة يتحدى بسبب طبيعته المهمة والصاخبة المتأصلة. تحدي إضافي هو تغطية القاعدة والتداخل، حيث يعتبر العمل المسبق على الإشراف الضعيف فقط الحالات التي تغطيها قواعد ضعيفة، وبالتالي تاركة بيانات قيمة غير مسفدة وراءها. في هذا العمل، نطور إطارا ضعيفا للإشراف (Astra) الذي يرفع جميع البيانات المتاحة لمهمة معينة. تحقيقا لهذه الغاية، نستفيد البيانات الخاصة بمهارات العمل من خلال التدريب الذاتي مع نموذج (الطالب) الذي يعتبر تمثيلات السياق ويتوقع التسميات الزائفة على الحالات التي قد لا تغطيها قواعد ضعيفة. ونحن نضع كذلك شبكة انتباه القاعدة (المعلم) التي تتعلم كيفية إجمالي الملصقات الزائفة الطلابية مع ملصقات القاعدة الضعيفة، مشروطة بإخلاصها والسياق الأساسي للمثيل. أخيرا، نقوم بإنشاء هدف تعليمي شبه إشراف للتدريب المنتهي بالبيانات غير المستمرة والقواعد الخاصة بالمجال، وكمية صغيرة من البيانات المسمى. توضح تجارب واسعة على ستة مجموعات بيانات قياسية لتصنيف النص فعالية نهجنا مع تحسينات كبيرة على خطوط الأساس الحديثة.
أحد كتل المبنى الأولى لإنشاء مساعد صوت يتعلق بمهمة وضع علامة الكيانات أو السمات في استعلامات المستخدم. يمكن أن يكون هذا تحديا بشكل خاص عندما تكون الكيانات في العاشر من الملايين، كما هو الحال على سبيل المثال كتالوجات الموسيقى. تتطلب نماذج وضع العلامات التدريبية التدريبية على نطاق صناعي كميات كبيرة من استفسارات المستخدم المسمى بدقة، والتي غالبا ما تكون صعبة ومكلفة لجمعها. من ناحية أخرى، جمع المساعدون الصوتيين عادة الكثير من الاستفسارات غير المستمرة التي لا تزال غير منفصلة في كثير من الأحيان. تقدم هذه الورقة منهجية خاضعة للإشراف ضعيفا لتسمية كميات كبيرة من سجلات الاستعلام الصوتية، معززة مع خطوة تصفية يدوية. تظهر التقييمات التجريبية لدينا أن نماذج علامات الشريعة المدربة على البيانات المتفوقة على البيانات التي تجريب ضعيف تدربت على البيانات المشروحة باليد أو الاصطناعية، بتكلفة أقل. علاوة على ذلك، يؤدي التصفية اليدوية للبيانات الخاضعة للإشراف إلى انخفاض كبير في معدل خطأ العقوبة، مع السماح لنا بتقليل جهود الرعاية البشرية بشكل كبير من أسابيع إلى ساعات، فيما يتعلق بالتعليق اليدوي للاستفسارات. يتم تطبيق الطريقة بنجاح Bootstrap نظام علامات Slot لخدمة تدفق الموسيقى الرئيسية التي تخدم حاليا العديد من عشرات الآلاف من الاستفسارات الصوتية اليومية.
يمكن للبشر التمييز بين فئات جديدة بكفاءة للغاية مع عدد قليل من الأمثلة، إلى حد كبير بسبب حقيقة أن البشر يمكنهم الاستفادة من المعرفة التي تم الحصول عليها من المهام ذات الصلة.ومع ذلك، يميل نموذج تصنيف النص في التعلم العميق إلى الكفاح لتحقيق أداء مرض عن دما تكون البيانات المسمى نادرة.مستوحاة من الذكاء البشري، نقترح تقديم المعرفة الخارجية إلى سلطة قليلة التعلم لتقليد المعرفة الإنسانية.يتم التحقيق في شبكة مولدات المعلمة الرواية بهذا الغاية، والتي تتمكن من استخدام المعرفة الخارجية لتوليد مقاييس مختلفة لمهام مختلفة.المسلحة مع هذه الشبكة، يمكن لمهام مماثلة استخدام مقاييس مماثلة في حين تستخدم المهام المختلفة مقاييس مختلفة.من خلال التجارب، نوضح أن أسلوبنا تتفوق على نماذج تصنيف النص القليلة لقلة سوتا.
نحن نقدم Rackbert، وهي طريقة ما قبل التدريب التي تزيد من طرازات اللغة بالقدرة على السبب في العلاقات الطويلة المدى والسياقات المختلفة المحتملة. على عكس أساليب ما قبل التدريب الموجودة التي تحصدها فقط إشارات تعليمية فقط من السياقات المحلية للنصوص التي ت حدث بشكل طبيعي، نقترح فكرة عمومية للإشراف البعيد توصيل قطع النص والجداول متعددة تلقائيا لإنشاء أمثلة تدريبية مسبقا تتطلب منطق طويل المدى. يتم محاكاة أنواع مختلفة من المنطق، بما في ذلك تقاطع أجزاء متعددة من الأدلة، مدفوعة من قطعة واحدة من الأدلة إلى آخر، والكشف عن الحالات التي لا يمكن إجراؤها. نقوم بإجراء تقييم شامل حول مجموعة متنوعة من الأسئلة الاستخراجية التي تربط عن مجموعات البيانات التي تتراوح من قفزة واحدة من قفصات متعددة ومنصات فقط إلى الجدول فقط إلى الهجين والتي تتطلب إمكانيات التفكير المختلفة وإظهار أن Rackberber يحقق تحسنا ملحوظا على مجموعة من القوية خطوط الأساس. تظهر تجارب قليلة أكثر أن طريقتنا السابقة للتدريب على تحسين كفاءة عينة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا