ترغب بنشر مسار تعليمي؟ اضغط هنا

نموذج استرجاع منظم في سيامي في بيرت

A BERT-based Siamese-structured Retrieval Model

284   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نظرا لتطوير التعلم العميق، حققت مهام معالجة اللغة الطبيعية تقدم كبيرا من خلال الاستفادة من تمثيل التشفير الثنائي الاتجاه من المحولات (بيرت). الهدف من استرجاع المعلومات هو البحث في أكثر النتائج ذات الصلة لاستعلام المستخدم من مجموعة كبيرة من المستندات. على الرغم من أن نماذج استرجاع مقرها بيرت أظهرت نتائج ممتازة في العديد من الدراسات، إلا أن هذه النماذج تعاني عادة من الحاجة إلى كميات كبيرة من الحسابات و / أو مسافات تخزين إضافية. في ضوء العيوب، يتم اقتراح نموذج استرجاع منظم في سيامي في بيرت (Bess) في هذه الورقة. لا يرث BESS فقط مزايا نماذج اللغة المدربة مسبقا، ولكن يمكن أيضا إنشاء معلومات إضافية لتعويض الاستعلام الأصلي تلقائيا. علاوة على ذلك، يتم تقديم استراتيجية تعليم التعزيز لجعل النموذج أكثر قوة. وفقا لذلك، نقيم BESS على ثلاثة كوربورا عامة المتاحة، وتتضح النتائج التجريبية كفاءة نموذج الاسترجاع المقترح.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في الآونة الأخيرة، تم تحقيق أداء مثير للإعجاب على مختلف مهام فهم اللغة الطبيعية من خلال دمج بناء الجملة والمعلومات الدلالية في النماذج المدربة مسبقا، مثل بيرت وروبرتا.ومع ذلك، يعتمد هذا النهج على ضبط النماذج الدقيقة الخاصة بالمشكلات، وعلى نطاق واسع، تظهر نماذج BERT-يشبئون الأداء، وهي غير فعالة، عند تطبيقها على مهام مقارنة التشابه غير المدعومة.تم اقتراح الحكم - بيرت (SBERT) كطريقة تضمين عقوبة عامة للأغراض العامة، مناسبة لكل من مقارنة التشابه والمهام المصب.في هذا العمل، نظهر أنه من خلال دمج المعلومات الهيكلية في SBERT، فإن النموذج الناتج يتفوق على SBERTT وتميز الجملة العامة السابقة على مجموعات بيانات التشابه الدلالي غير المنصوص عليها ومهام تصنيف النقل.
الهوية واللغة القياسية الهوية هي مهام حاسمة للعديد من تطبيقات معالجة اللغة العربية.في هذه الورقة، نقدم نظامنا القائم على التعلم العميق، المقدم إلى المهمة المشتركة الثانية من النادي الثاني لتحديد المستوى القطري على مستوى المحافظة على اللغة العربية الم عيارية الحديثة (MSA) واللهولية العربية (DA).يعتمد النظام على نموذج تعليمي عميق متعدد الإنهائي (MTL) لمعالجة كلا من الرتبة البلد والمستوى من المستوى MSA / DA.يتكون نموذج MTL الأخير من محولات تمثيل ترميز ترميز مشترك (بيرت)، طبقات اهتمام خاصتين بمهام العمل، واثنين من المصنفين.تتمثل فكرتنا الرئيسية في الاستفادة من كل من التمييز على المهمة والميزات المشتركة بين المهام للبلد والمقاطعة MSA / DA الهوية.تظهر النتائج التي تم الحصول عليها أن نموذج MTL يتفوق على نماذج مهمة واحدة في معظم المهام الفرعية.
استرجاع المرور والترتيب هو مهمة رئيسية في الإجابة على الأسئلة المفتوحة واسترجاع المعلومات. تعتمد الأساليب الفعالة الحالية في الغالب على المستردين المعتمدين على النموذج العميق المدربين مسبقا. تم عرض هذه الأساليب نموذجا بفعالية المطابقة الدلالية بين ال استعلامات والمرورات، أيضا في وجود عدم تطابق الكلمات الرئيسية، أي الممرات ذات الصلة بالاستعلام ولكن لا تحتوي على كلمات رئيسية مهمة. في هذه الورقة، نعتبر المسترد الكثيف (DR) وطريقة استرجاع الممر، و Re-Ranker Reveer، وهي طريقة إعادة ترتيب الشعبية. في هذا السياق، نحقق رسميا كيفية استجابة هذه النماذج والتكيف مع نوع معين من عدم تطابق الكلمة الرئيسية - التي تحدث عن طريق الكلمة الأساسية التي تحدث في استفسارات. من خلال التحقيق التجريبي، نجد أن الأخطاء المطبعية يمكن أن تؤدي إلى انخفاض كبير في فعالية الاسترجاع والترتيب. بعد ذلك اقترحنا إطارا بسيطا للتدريب في الطباعة المطبعية عن DR و Bert Re-Ranker لمعالجة هذه المسألة. نظرا لنتائجنا التجريبية على مجموعة بيانات مرتبة مرور MS MARCO، بإظهار مجموعة بيانات MS MARCO، من خلال التدريب على الأخطاء المطبعية المقترحة، يمكن أن يصبح تدريب DR و Bert Re-Ranker قويا للمخططات المطبعية في الاستفسارات، مما يؤدي إلى تحسين فعالية محسنة بشكل كبير مقارنة بالنماذج المدربة دون محاسبة بشكل مناسب عن الأخطاء المطبعية.
إن الاستدلال اللغوي الطبيعي هو طريقة لإيجاد الاستدلالات في نصوص اللغة.فهم معنى الجملة واستدلالها أمر ضروري في العديد من تطبيقات معالجة اللغة.في هذا السياق، نعتبر مشكلة الاستدلال بلغة Dravidian، مالايالام.تدرب شبكات سيامي أزواج فرضية النص مع Adgedding s Word و Argeddings اللازم، ويتم تقييم النتائج مقابل مقاييس التصنيف للتصنيف الثنائي في دروس الاستقصاء والتناقض.توفر XLM-R AMBEBINGS القائم على الهندسة المعمارية السيامية باستخدام الوحدات المتكررة الدائرية وشبكات الذاكرة القصيرة الأجل الثنائية لفترة طويلة نتائج واعدة لمشكلة التصنيف هذه.
المهمة المشتركة بشأن الميمات البغيضة هي تحدي يهدف إلى اكتشاف المحتوى البغيض في الميمات من خلال دعوة تنفيذ النظم التي تفهم الميمات، يحتمل أن تجمع بين الصورة والمعلومات النصية.يتكون التحدي من ثلاثة مهام اكتشاف: الكراهية، الفئة المحمية ونوع الهجوم.الأول هو مهمة تصنيف ثنائية، في حين أن الاثنين الآخران مهام التصنيف متعدد العلامات.تضمنت مشاركتنا خط الأساس بيرت القائم على النص (TXTBERT)، وهو نفسه ولكن إضافة معلومات من الصورة (IMGBERT)، ونهج الاسترجاع العصبي.لقد جربنا أيضا نماذج التصنيف المعزز للاسترجاع.وجدنا أن مجموعة Txtbert و Imgbert تحقق أفضل أداء من حيث النتيجة AUC ROC في قسمين من المهام الثلاث في مجموعة التطوير الخاصة بنا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا