نحن نتطلع إلى اختناق بيانات التوضيحية لتصنيف التسلسل.على وجه التحديد نسأل السؤال: إذا كان لدى المرء ميزانية التوضيحية N، ما هي العينات التي يجب أن نختارها للتعليق التوضيحي؟الحل الذي نقترحه يبحث عن التنوع في العينة المحددة، من خلال تعظيم كمية المعلومات المفيدة لخوارزمية التعلم، أو معادل عن طريق تقليل التكرار من العينات في الاختيار.يتم صياغة هذا في سياق التعلم الطيفي للوظائف المتكررة لتصنيف التسلسل.تمثل طريقةنا البيانات غير المسبقة في شكل مصفوفة Hankel، وتستخدم فكرة الحجم الطيفي الأقصى للعثور على كتلة فرعية مضغوطة يتم رسم عينات التعليق التوضيحي.تؤكد التجارب المعنية بتصنيف التسلسل أن استراتيجية أخذ العينات الطيفية لدينا هي في الواقع فعالة وتجسد نماذج جيدة.
We address the annotation data bottleneck for sequence classification. Specifically we ask the question: if one has a budget of N annotations, which samples should we select for annotation? The solution we propose looks for diversity in the selected sample, by maximizing the amount of information that is useful for the learning algorithm, or equivalently by minimizing the redundancy of samples in the selection. This is formulated in the context of spectral learning of recurrent functions for sequence classification. Our method represents unlabeled data in the form of a Hankel matrix, and uses the notion of spectral max-volume to find a compact sub-block from which annotation samples are drawn. Experiments on sequence classification confirm that our spectral sampling strategy is in fact efficient and yields good models.
المراجع المستخدمة
https://aclanthology.org/
تكتسب نماذج اللغة المحددة مسبقا بسرعة شعبية بسرعة في أنظمة NLP للغات غير الإنجليزية.تتميز معظم هذه النماذج بخطوة أخذ عينات مهمة مهمة في عملية تتراكم بيانات التدريب بلغات مختلفة، للتأكد من أن الإشارة من لغات الموارد الأفضل لا تغرق منها أكثر الموارد.في
في معظم سيناريوهات جهاز التقطير أو سرقة الترجمة الآلية العصبية، يتم استخدام فرضية التسجيل أعلى النموذج المستهدف (المعلم) لتدريب نموذج جديد (طالب).إذا كانت الترجمات المرجعية متاحة أيضا، فيمكن إظهار الفرضيات الأفضل (فيما يتعلق بالمراجع) وفرضيات فقراء إ
في التسمية التوضيحية للصورة، غالبا ما يتم توفير التسميات التوضيحية المتعددة كحقائق أرضية، لأن التسمية التوضيحية الصالحة ليست مصممة بشكل فريد.الأساليب التقليدية حدد بشكل عشوائي توضيحية واحدة وتعاملها على أنها صحيحة، ولكن كانت هناك عدد قليل من طرق التد
تميل نماذج التعليم العميق لمهام توليد اللغة إلى إنتاج إخراج متكرر.تم اقتراح طرق مختلفة لتشجيع التنوع المعجمي أثناء فك التشفير، ولكن هذا غالبا ما يأتي بتكلفة إلى الطلاقة المتصورة وكفاية الإنتاج.في هذا العمل، نقترح قم بتحسين هذه التكلفة باستخدام نهج تع
تمت دراسة AcoNecoders Varitional كهدوء واعد لنموذج تعيينات واحدة إلى العديد من السياق للاستجابة في توليد استجابة الدردشة.ومع ذلك، غالبا ما تفشل في تعلم التعيينات المناسبة.أحد أسباب هذا الفشل هو التناقض بين الاستجابة وأخذ عينات متغير كامنة من توزيع تق