ترغب بنشر مسار تعليمي؟ اضغط هنا

إلمو متعدد اللغات وتأثيرات أخذ العينات Corpus

Multilingual ELMo and the Effects of Corpus Sampling

264   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تكتسب نماذج اللغة المحددة مسبقا بسرعة شعبية بسرعة في أنظمة NLP للغات غير الإنجليزية.تتميز معظم هذه النماذج بخطوة أخذ عينات مهمة مهمة في عملية تتراكم بيانات التدريب بلغات مختلفة، للتأكد من أن الإشارة من لغات الموارد الأفضل لا تغرق منها أكثر الموارد.في هذه الدراسة، ندرب العديد من النماذج اللغوية المتكررة متعددة اللغات، بناء على بنية ELMO، وتحليل تأثير نسب حجم Corpus المتغير على الأداء المصب، بالإضافة إلى اختلاف الأداء بين نماذج أحادية الألوان لكل لغة، ونماذج لغة متعددة اللغات الأوسعوبعدكجزء من هذا الجهد، نجعل هذه النماذج المدربة المتاحة للاستخدام العام.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نقدم العمل في التقدم الذي يهدف إلى تطوير مجموعة بيانات جديدة للصورة مع كائنات مشروح. تتكون Corpus Image متعددة اللغات من طبولوجيا الكائنات المرئية (بناء على WordNet) ومجموعة من الصور ذات الصلة بشكل موضوعي المشروح مع أقنعة تجزئة وفئات ا لكائنات. حددنا 277 فصولا مهيمنة و 1،037 فصالا من الوالدين والسماء، وتجميعها إلى 10 مجالات مواضيعية مثل الرياضة والطب والتعليم والغذاء والأمن، وما إلى ذلك بالنسبة للفصول المختارة يتم إجراء بحث على شبكة الإنترنت واسعة النطاق من أجل ترجمة مجموعة كبيرة من الصور ذات حقوق الطبع والنشر عالية الجودة. إن تركيز الورق هو بروتوكول التوضيح الذي أنشأناه لتسهيل عملية التوضيحية: ontology للأشياء المرئية والاتفاقيات للاطلاع على الصورة وتجزئة الكائنات. تم تصميم DataSet لكل من تصنيف الصور والكشف عن الكائن والتجزئة الدلالي. بالإضافة إلى ذلك، سيتم تزويد التعليقات التوضيحية للكائن بأوصاف متعددة اللغات باستخدام Wordnets المتاحة بحرية.
في معظم سيناريوهات جهاز التقطير أو سرقة الترجمة الآلية العصبية، يتم استخدام فرضية التسجيل أعلى النموذج المستهدف (المعلم) لتدريب نموذج جديد (طالب).إذا كانت الترجمات المرجعية متاحة أيضا، فيمكن إظهار الفرضيات الأفضل (فيما يتعلق بالمراجع) وفرضيات فقراء إ ما إما إما إما أو إشرافها.تستكشف هذه الورقة طريقة مشهد أخذ العينات (تشذيب، فرضية ترشيحها وتشكيلها، واستكريسيا ومجمديها) مع الإنجليزية إلى التشيكية والإنجليزية إلى طرازات MT الألمانية باستخدام مقاييس تقييم MT القياسية.نظرا لأن الإرتفاع الدقيق والتركيبة مع البيانات الأصلية يؤدي إلى أداء أفضل عند مقارنتها بالتدريب فقط على البيانات الأصلية أو المركبة أو تركيها المباشر.
في التسمية التوضيحية للصورة، غالبا ما يتم توفير التسميات التوضيحية المتعددة كحقائق أرضية، لأن التسمية التوضيحية الصالحة ليست مصممة بشكل فريد.الأساليب التقليدية حدد بشكل عشوائي توضيحية واحدة وتعاملها على أنها صحيحة، ولكن كانت هناك عدد قليل من طرق التد ريب الفعالة التي تستخدم عمليات توضيحية متعددة المعينة.في هذه الورقة، اقترحنا تقنية تدريبين لاتخاذ استخدام فعال للتسميات التوضيحية المرجعية المتعددة: 1) أخذ عينات التسمية التوضيحية المستندة إلى الصلاحية (VBCS)، والتي تعطي الأولوية لاستخدام التسميات التوضيحية التي تقدر أنها صالحة للغاية أثناء التدريب، و 2) التسمية التوضيحية المرجحتجانس (WCS)، والتي تنطبج فقط على الكلمات ذات الصلة التسمية التوضيحية المرجعية لتعكس التعويضات المرجعية المتعددة في وقت واحد.تظهر التجارب أن أساليبنا المقترحة تعمل على تحسين عصير التفاح بمقدار 2.6 نقطة وبليست بنسبة 0.9 نقطة من خط الأساس في مجموعة بيانات MSCOCO.
تميل نماذج التعليم العميق لمهام توليد اللغة إلى إنتاج إخراج متكرر.تم اقتراح طرق مختلفة لتشجيع التنوع المعجمي أثناء فك التشفير، ولكن هذا غالبا ما يأتي بتكلفة إلى الطلاقة المتصورة وكفاية الإنتاج.في هذا العمل، نقترح قم بتحسين هذه التكلفة باستخدام نهج تع ليمي تقليد لاستكشاف مستوى التنوع الذي يمكن أن ينتج عنه نموذج توليد اللغة بشكل موثوق.على وجه التحديد، نزيد عملية فك التشفير مع تصنيف META مدربين على التمييز بين الكلمات الموجودة في أي وقت معينة ستؤدي إلى إخراج عالية الجودة.نحن نركز تجاربنا على جيل المفاهيم إلى النص حيث تكون النماذج حساسة لإدراج الكلمات غير ذات الصلة بسبب العلاقة الصارمة بين المدخلات والإخراج.يوضح تحليلنا أن الأساليب السابقة للتنوع غير الأدبي في هذا الإعداد، في حين أن التقييم البشري يشير إلى أن طريقةنا المقترحة تحقق مستوى عال من التنوع مع الحد الأدنى من التأثير على طلاقة الإخراج والفوضي.
نحن نتطلع إلى اختناق بيانات التوضيحية لتصنيف التسلسل.على وجه التحديد نسأل السؤال: إذا كان لدى المرء ميزانية التوضيحية N، ما هي العينات التي يجب أن نختارها للتعليق التوضيحي؟الحل الذي نقترحه يبحث عن التنوع في العينة المحددة، من خلال تعظيم كمية المعلوما ت المفيدة لخوارزمية التعلم، أو معادل عن طريق تقليل التكرار من العينات في الاختيار.يتم صياغة هذا في سياق التعلم الطيفي للوظائف المتكررة لتصنيف التسلسل.تمثل طريقةنا البيانات غير المسبقة في شكل مصفوفة Hankel، وتستخدم فكرة الحجم الطيفي الأقصى للعثور على كتلة فرعية مضغوطة يتم رسم عينات التعليق التوضيحي.تؤكد التجارب المعنية بتصنيف التسلسل أن استراتيجية أخذ العينات الطيفية لدينا هي في الواقع فعالة وتجسد نماذج جيدة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا