ترغب بنشر مسار تعليمي؟ اضغط هنا

كيانات ويكيبيديا كما rendezvous عبر اللغات: تأريض نماذج لغات متعددة اللغات من خلال التنبؤ برقائق ويكيبيديا

Wikipedia Entities as Rendezvous across Languages: Grounding Multilingual Language Models by Predicting Wikipedia Hyperlinks

354   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أصبحت نماذج لغة ملثم بسرعة قياسي فعلي عند معالجة النص. في الآونة الأخيرة، اقترح العديد من الأساليب زيادة إثراء تمثيلات Word مع مصادر المعرفة الخارجية مثل الرسوم البيانية المعرفة. ومع ذلك، يتم وضع هذه النماذج وتقييمها في إعداد أحادي فقط. في هذا العمل، نقترح مهمة تنبؤات كيان مستقلة في اللغة كإجراء تدريب متوسط ​​لتمثيلات الكلمات البرية على دلالات الكيان وجسم الفجوة عبر لغات مختلفة عن طريق المفردات المشتركة للكيانات. نظهر أن نهجنا يضجع بفعالية إلى معرفة جديدة من المعرفة المعجمية في النماذج العصبية، مما يحسن أدائها في مهام دلالية مختلفة في إعداد Croadlingual Zero-Shot. كميزة إضافية، لا يتطلب التدريب الوسيط لدينا أي مدخلات تكميلية، مما يسمح بتطبيق نماذجنا على مجموعات بيانات جديدة على الفور. في تجاربنا، نستخدم مقالات ويكيبيديا تصل إلى 100 لغة وتراقب بالفعل مكاسب متسقة مقارنة مع خطوط الأساس القوية عند التنبؤ بالكيانات باستخدام فقط Wikipedia الإنجليزية. يؤدي إضافة لغات إضافية أخرى إلى تحسينات في معظم المهام حتى نقطة معينة، ولكن عموما وجدنا أنها غير تافهة على تحسين التحسينات في عملية تحويل النموذج عن طريق التدريب على كميات متزايدة من أي وقت مضى لغات ويكيبيديا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

كيف تشرح بيل غيتس إلى الألمانية؟يرتبط بتأسيس شركة في الولايات المتحدة، لذلك ربما يمكن للمؤسس الألماني كارل بنز أن يقف في البوابات في تلك السياقات.يسمى هذا النوع من الترجمة التكيف في مجتمع الترجمة.حتى الآن، لم تتم هذه المهمة بشكل حسابي.يمكن استخدام ال تكيف التلقائي في معالجة اللغة الطبيعية للترجمة الآلية وغير مباشرة لتوليد سؤالا جديدا يرد على مجموعات البيانات والتعليم.نقترح طريقتان تلقائيا ومقارنتها عن نتائج بشرية لهذه المهمة الرواية NLP الرواية.أولا، تتكيف قاعدة المعرفة المهيكلة الكيانات المسماة باستخدام خصائصها المشتركة.ثانيا، أساليب تعيينات التضمين الحسابية والمتعاملة التعاملية تحدد المرشحين أفضل، ولكن على حساب الميزات القابلة للتفسير.نقيم أساليبنا من خلال مجموعة بيانات جديدة من التكيف البشري.
نطلق سراح Foodwice (FM2 لفترة قصيرة)، وهي مجموعة بيانات كبيرة من أزواج الاستلام الصعبة التي تم جمعها من خلال لعبة متعة متعددة اللاعبين.تشجع Gameification على الأمثلة العدائية، وخفضت بشكل كبير عدد الأمثلة التي يمكن حلها باستخدام اختصارات "مقارنة بمشار ات البيانات الاستقالة الأخرى.يتم عرض اللاعبين بمهامين.تطلب المهمة الأولى من اللاعب كتابة مطالبة معقولة بناء على الأدلة من صفحة ويكيبيديا.والثاني يظهر اثنين من المطالبات المعقولة التي كتبها لاعبين آخرون، واحدة منها خاطئة، والهدف هو تحديد الأمر قبل أن ينفد الوقت.يدفع اللاعبون "" لرؤية القرائن المستردة من مجموعة الأدلة: كلما زاد عدد الأدلة على احتياجات اللاعب، فإن المطالبة الصعبة.تؤدي اللعبة - اللعب بين اللاعبين الدوافع إلى استراتيجيات متنوعة لصياغة المطالبات، مثل الاستدلال الزمني وتحويل الأدلة غير المرتبطة، ونتائج بيانات عالية الجودة لمهام استرجاع الأدلة والأدلة.نحن نفتح المصدر DataSet ورمز اللعبة.
تقوم هذه الدراسات الورقية بالتحويل عبر اللغات الصفرية إلى نماذج لغة الرؤية. على وجه التحديد، نركز على البحث عن نص متعدد اللغات والفيديو واقتراح نموذجا يستند إلى المحولات التي تتعلم أن تضمينات السياق متعددة اللغات متعددة اللغات. تحت إعداد طلقة صفرية، نوضح تجريبيا أن الأداء يتحلل بشكل كبير عند الاستعلام عن نموذج الفيديو النصي متعدد اللغات مع جمل غير إنجليزية. لمعالجة هذه المشكلة، نقدم استراتيجية متعددة الاستخدامات متعددة الاستخدامات متعددة اللغات، وجمع مجموعة بيانات تعليمية متعددة اللغات متعددة اللغات (متعدد HOWTO100M) للتدريب المسبق. تشير التجارب في VTT إلى أن طريقتنا تعمل بشكل كبير على تحسين البحث عن الفيديو في اللغات غير الإنجليزية دون شروح إضافية. علاوة على ذلك، عند توفر التعليقات التوضيحية متعددة اللغات، تتفوقت طريقة لدينا على خطوط الأساس الحديثة بواسطة هامش كبير في البحث عن نص متعدد اللغات للفيديو على VTT و Vatex؛ وكذلك في البحث النص متعدد اللغات إلى الصورة على multi30k. يتوفر نموذجنا ومتعدد HOWTO100M على http://github.com/berniebear/multi-ht100m.
تم تطبيق نهج التعلم العميقة الخاضعة للإشراف على مربع الحوار الموجه في المهام وأثبت أنها فعالة لتطبيقات المجال واللغة المحدودة عند توفر عدد كاف من الأمثلة التدريبية. في الممارسة العملية، تعاني هذه الأساليب من عيوب التصميم الذي يحركه المجال ولغات أقل م ن الموارد. من المفترض أن تنمو نماذج المجال واللغة وتتغير مع تطور مساحة المشكلة. من ناحية، أظهرت الأبحاث حول تعلم التعلم القدرة المتبادلة من النماذج القائمة على المحولات متعددة اللغات لتعلم تمثيلات غنية بالدليل. من ناحية أخرى، بالإضافة إلى الأساليب المذكورة أعلاه، مكنت التعلم التلوي تطوير خوارزميات التعلم المهمة واللغة القادرة على تعميم البعيد. من خلال هذا السياق، تقترح هذه المقالة التحقيق في التحويل عبر اللغات المتبادلة باستخدام التعلم القليل من التآزر مع الشبكات العصبية النموذجية والنماذج القائمة على المحولات متعددة اللغات. تجارب في مجال التفاهم الطبيعي فهم المهام على Multiatis + Corpus يدل على أن نهجنا يحسن بشكل كبير من العروض التعليمية الملحقة بالتنقل بين لغات الموارد المنخفضة والعالية. بشكل عام، تؤكد نهجنا بشكل عام أن المساحة الكامنة ذات الأغلب المستفادة في لغة معينة يمكن تعميمها للتسامح غير المرئي وغير الموارد باستخدام التعلم التلوي.
وقد تبين أن نماذج اللغة متعددة اللغات المحددة تعمل بشكل جيد في العديد من اللغات لمجموعة متنوعة من مهام NLP المصب. ومع ذلك، من المعروف أن هذه النماذج تتطلب الكثير من البيانات التدريبية. وبالتالي يترك هذا نسبة كبيرة من لغات العالم لأنها نقص الموارد. عل اوة على ذلك، فإن الدافع الرئيسي وراء هذه النماذج هو أن لغات الموارد المنخفضة تستفيد من التدريب المشترك بلغات الموارد العليا. في هذا العمل، نتحدى هذا الافتراض وتقديم المحاولة الأولى لتدريب نموذج لغة متعددة اللغات على لغات الموارد المنخفضة فقط. نظهر أنه من الممكن تدريب نماذج لغة متعددة اللغات التنافسية على أقل من 1 غيغابايت من النص. يغطي نموذجنا، يدعى Afriberta، 11 لغة إفريقية، بما في ذلك نموذج اللغة الأول لمدة 4 من هذه اللغات. التقييمات حول التعرف على الكيان المسمى وتصنيف النص يشير إلى 10 لغات تظهر أن النموذج لدينا تفوقت على mbert و xlm-rin عدة لغات وتنافسية للغاية بشكل عام. تشير النتائج إلى أن نهج بياناتنا الصغير بناء على لغات مماثلة قد يعمل في بعض الأحيان أفضل من التدريب المشترك على مجموعات البيانات الكبيرة مع لغات موارد عالية. يتم إصدار الرمز والبيانات والنماذج في https://github.com/keleog/afriberta.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا