ترغب بنشر مسار تعليمي؟ اضغط هنا

تقليل جهود التوضيحية عبر أخذ العينات الطيفية بحجم الحد الأقصى

Minimizing Annotation Effort via Max-Volume Spectral Sampling

429   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نحن نتطلع إلى اختناق بيانات التوضيحية لتصنيف التسلسل.على وجه التحديد نسأل السؤال: إذا كان لدى المرء ميزانية التوضيحية N، ما هي العينات التي يجب أن نختارها للتعليق التوضيحي؟الحل الذي نقترحه يبحث عن التنوع في العينة المحددة، من خلال تعظيم كمية المعلومات المفيدة لخوارزمية التعلم، أو معادل عن طريق تقليل التكرار من العينات في الاختيار.يتم صياغة هذا في سياق التعلم الطيفي للوظائف المتكررة لتصنيف التسلسل.تمثل طريقةنا البيانات غير المسبقة في شكل مصفوفة Hankel، وتستخدم فكرة الحجم الطيفي الأقصى للعثور على كتلة فرعية مضغوطة يتم رسم عينات التعليق التوضيحي.تؤكد التجارب المعنية بتصنيف التسلسل أن استراتيجية أخذ العينات الطيفية لدينا هي في الواقع فعالة وتجسد نماذج جيدة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تكتسب نماذج اللغة المحددة مسبقا بسرعة شعبية بسرعة في أنظمة NLP للغات غير الإنجليزية.تتميز معظم هذه النماذج بخطوة أخذ عينات مهمة مهمة في عملية تتراكم بيانات التدريب بلغات مختلفة، للتأكد من أن الإشارة من لغات الموارد الأفضل لا تغرق منها أكثر الموارد.في هذه الدراسة، ندرب العديد من النماذج اللغوية المتكررة متعددة اللغات، بناء على بنية ELMO، وتحليل تأثير نسب حجم Corpus المتغير على الأداء المصب، بالإضافة إلى اختلاف الأداء بين نماذج أحادية الألوان لكل لغة، ونماذج لغة متعددة اللغات الأوسعوبعدكجزء من هذا الجهد، نجعل هذه النماذج المدربة المتاحة للاستخدام العام.
في معظم سيناريوهات جهاز التقطير أو سرقة الترجمة الآلية العصبية، يتم استخدام فرضية التسجيل أعلى النموذج المستهدف (المعلم) لتدريب نموذج جديد (طالب).إذا كانت الترجمات المرجعية متاحة أيضا، فيمكن إظهار الفرضيات الأفضل (فيما يتعلق بالمراجع) وفرضيات فقراء إ ما إما إما إما أو إشرافها.تستكشف هذه الورقة طريقة مشهد أخذ العينات (تشذيب، فرضية ترشيحها وتشكيلها، واستكريسيا ومجمديها) مع الإنجليزية إلى التشيكية والإنجليزية إلى طرازات MT الألمانية باستخدام مقاييس تقييم MT القياسية.نظرا لأن الإرتفاع الدقيق والتركيبة مع البيانات الأصلية يؤدي إلى أداء أفضل عند مقارنتها بالتدريب فقط على البيانات الأصلية أو المركبة أو تركيها المباشر.
في التسمية التوضيحية للصورة، غالبا ما يتم توفير التسميات التوضيحية المتعددة كحقائق أرضية، لأن التسمية التوضيحية الصالحة ليست مصممة بشكل فريد.الأساليب التقليدية حدد بشكل عشوائي توضيحية واحدة وتعاملها على أنها صحيحة، ولكن كانت هناك عدد قليل من طرق التد ريب الفعالة التي تستخدم عمليات توضيحية متعددة المعينة.في هذه الورقة، اقترحنا تقنية تدريبين لاتخاذ استخدام فعال للتسميات التوضيحية المرجعية المتعددة: 1) أخذ عينات التسمية التوضيحية المستندة إلى الصلاحية (VBCS)، والتي تعطي الأولوية لاستخدام التسميات التوضيحية التي تقدر أنها صالحة للغاية أثناء التدريب، و 2) التسمية التوضيحية المرجحتجانس (WCS)، والتي تنطبج فقط على الكلمات ذات الصلة التسمية التوضيحية المرجعية لتعكس التعويضات المرجعية المتعددة في وقت واحد.تظهر التجارب أن أساليبنا المقترحة تعمل على تحسين عصير التفاح بمقدار 2.6 نقطة وبليست بنسبة 0.9 نقطة من خط الأساس في مجموعة بيانات MSCOCO.
تميل نماذج التعليم العميق لمهام توليد اللغة إلى إنتاج إخراج متكرر.تم اقتراح طرق مختلفة لتشجيع التنوع المعجمي أثناء فك التشفير، ولكن هذا غالبا ما يأتي بتكلفة إلى الطلاقة المتصورة وكفاية الإنتاج.في هذا العمل، نقترح قم بتحسين هذه التكلفة باستخدام نهج تع ليمي تقليد لاستكشاف مستوى التنوع الذي يمكن أن ينتج عنه نموذج توليد اللغة بشكل موثوق.على وجه التحديد، نزيد عملية فك التشفير مع تصنيف META مدربين على التمييز بين الكلمات الموجودة في أي وقت معينة ستؤدي إلى إخراج عالية الجودة.نحن نركز تجاربنا على جيل المفاهيم إلى النص حيث تكون النماذج حساسة لإدراج الكلمات غير ذات الصلة بسبب العلاقة الصارمة بين المدخلات والإخراج.يوضح تحليلنا أن الأساليب السابقة للتنوع غير الأدبي في هذا الإعداد، في حين أن التقييم البشري يشير إلى أن طريقةنا المقترحة تحقق مستوى عال من التنوع مع الحد الأدنى من التأثير على طلاقة الإخراج والفوضي.
تمت دراسة AcoNecoders Varitional كهدوء واعد لنموذج تعيينات واحدة إلى العديد من السياق للاستجابة في توليد استجابة الدردشة.ومع ذلك، غالبا ما تفشل في تعلم التعيينات المناسبة.أحد أسباب هذا الفشل هو التناقض بين الاستجابة وأخذ عينات متغير كامنة من توزيع تق ريبي في التدريب.أخذ عينات من غير لائق للمتغيرات الكامنة عليق النماذج من بناء مساحة كامنة بتعديل.نتيجة لذلك، تتوقف النماذج عن التعامل مع عدم اليقين في المحادثات.لحل ذلك، نقترح أخذ العينات المضاربة للمتغيرات الكامنة.تختار طريقتنا الأكثر احتمالا من متغيرات كامنة العينات بشكل زمني لربط المتغير مع استجابة معينة.نحن نؤكد فعالية طريقتنا في توليد الاستجابة مع بيانات حوار هائلة مصنوعة من مشاركات تويتر.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا