ترغب بنشر مسار تعليمي؟ اضغط هنا

تكبير البيانات غير المزعجة مع زيادة ساذجة وبدون بيانات غير مسافة

Unsupervised Data Augmentation with Naive Augmentation and without Unlabeled Data

331   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعظيم البيانات غير المزعجة (UDA) هي تقنية شبه بيئية تنطبق على فقدان الاتساق لمعاقبة الاختلافات بين تنبؤات النماذج على (أ) أمثلة ملحوظة (غير مسفحة)؛ و (ب) الأمثلة الواضحة المقابلة التي تم إنتاجها عبر تكبير البيانات. في حين أن UDA اكتسبت شعبية لتصنيف النصوص، فإن الأسئلة المفتوحة باقية من قرارات التصميم ضرورية وكيفية تمديد الطريقة لتسلسل مهام وضع العلامات. في هذه الورقة، نعيد فحص UDA وإظهار فعاليتها في العديد من المهام المتسلسلة. مساهمتنا الرئيسية هي دراسة تجريبية ل UDA لتأسيس مكونات الخوارزمية التي تمنح استحقاقات NLP. وخاصة، على الرغم من أن العمل السابق قد أكد على استخدام تقنيات تكبير ذكية بما في ذلك الترجمة ذات الترجمة المرجانية، نجد أن التناسق بين التنبؤات المخصصة للكلمات الملحوظة والمستبدلة غالبا ما تسفر عن فوائد قابلة للمقارنة (أو أكبر) مقارنة بنماذج الاضطرابات الأكثر تعقيدا. علاوة على ذلك، نجد أن تطبيق فقدان اتساق UDA يوفر مكاسب ذات مغزى دون أي بيانات غير قابلة للتحقيق على الإطلاق، أي في إعداد قياسي إشرافي. باختصار، لا تحتاج UDA إلى عدم إدراكها لتحقيق الكثير من فوائدها المذكورة، ولا تتطلب تكبير بيانات معقدة لتكون فعالة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن نتطلع إلى تحدي التركيب المقدم من مؤشر المسح.باستخدام تكبير البيانات وتعديل هندسة SEQ2SEQ القياسية مع الاهتمام، نحقق نتائج SOTA على جميع المهام ذات الصلة من المعيار، وإظهار أن النماذج يمكن أن تعميم الكلمات المستخدمة في السياقات غير المرئية.نقترح ا متدادا للمعيار من خلال مهمة أصعب، والتي لا يمكن حلها بالطريقة المقترحة.
تعمل السابقة على جيل إعادة صياغة صياغة يتم التحكم فيها بشكل كبير على بيانات إعادة صياغة مباشرة على نطاق واسع غير متوفرة بسهولة للعديد من اللغات والمجالات. في هذه الورقة، نأخذ هذا الاتجاه البحثي إلى أقصى الحدود والتحقيق فيما إذا كان من الممكن تعلم تول يد الصياغة التي يتم التحكم فيها بموجبها مع بيانات غير صلبية. نقترح نموذج إعادة صياغة غير مدهش من غير المستنير عليه بناء على التشفير التلقائي الشرطي (VAE) يمكن أن تولد نصوص في بنية نصنية محددة. خاصة، نقوم بتصميم طريقة تعليمية من مرحلتين لتدريب النموذج بفعالية باستخدام البيانات غير الموازية. يتم تدريب VAE الشرطية على إعادة بناء جملة الإدخال وفقا للإدخال المحدد والهيكل النحامي. علاوة على ذلك، لتحسين قابلية التحكم في النحوية والاتساق الدلالي لشركة VAE الشرطية المدربة مسبقا، نحن نغتنمها باستخدام أهداف التعلم السيطرة على بناء الجملة وإعادة إعمار دورة إعادة إعمار، وتوظيف Gumbel-Softmax الجمع بين أهداف التعلم الجديدة هذه. توضح نتائج التجربة أن النموذج المقترح المدرب فقط على البيانات غير الموازية قادر على توليد صیر متنوعة مع بنية نصنية محددة. بالإضافة إلى ذلك، نحن نقوم بالتحقق من صحة فعالية طريقتنا لتوليد أمثلة خصومة النحوية على مهمة تحليل المعنويات.
نقدم خوارزمية استنادا إلى محولات متعددة الطبقات لتحديد ردود الفعل الدوائية الضارة (ADR) في بيانات وسائل التواصل الاجتماعي.يعتمد نموذجنا على خصائص المشكلة وخصائص ASTDDings Word السياقي لاستخراج وجهات نظرتين من المستندات.ثم يتم تدريب المصنف على كل طريق ة عرض لتسمية مجموعة من المستندات غير المستخدمة لاستخدامها كتهيئة لتصنيف جديد في الرأي الآخر.أخيرا، يتم تدريب المصنف التهيئي في كل طريقة عرض باستخدام أمثلة التدريب الأولي.قمنا بتقييم نموذجنا في أكبر مجموعة بيانات ADR المتاحة للجمهور.تشهد التجارب أن نموذجنا يتفوق بشكل كبير على النماذج القائمة على المحولات مسبقا على البيانات الخاصة بالمجال.
نقترح طريقة تكبير البيانات للترجمة الآلية العصبية.إنه يعمل عن طريق تفسير نماذج اللغة ومحاذاة الجمل الفعلية سببا.على وجه التحديد، فإنه يخلق كورس ترجمة موازية مزعجة عن طريق توليد عبارات محاذاة مضادة للمحاطة (المسار).نحن نولد هذه من خلال أخذ عينات من عب ارات مصدر جديدة من نموذج لغة ملثم، ثم أخذ عينات من عبارة مستهدفة محاذاة محاذاة من خلال الإشارة إلى أن نموذج لغة الترجمة يمكن تفسيره على أنه نموذج سببي هيكلي Gumbel-Max (Oberst و Sontag، 2019).مقارنة بالعمل السابق، تأخذ طريقتنا السياق ومحاذاة في الاعتبار للحفاظ على التماثل بين المصدر والتسلسلات المستهدفة.تجارب على iwslt'15 الإنجليزية → الفيتنامية، WMT'17 الإنجليزية → الألمانية، WMT'18 English → التركية، و WMT'19 قوية الإنجليزية → معرض الفرنسية أن الطريقة يمكن أن تحسن أداء الترجمة والخلفية والترجمة قوية.
غالبا ما يتحلل ترجمة لغة الإشارة (SLT) في التعرف على الفيديو إلى اللمعان والترجمة النصية إلى النص، حيث يكون اللمعان سلسلة من الكلمات اللغوية الموضحة باللغة المنطوقة بالترتيب الذي يتم فيه توقيعه.نحن نركز هنا على الترجمة اللامع إلى النص، والتي نعلمها ك مشكلة ترجمة آلية منخفضة الموارد (NMT).ومع ذلك، على عكس المورد المنخفض التقليدي NMT، تختلف الترجمة من اللمعان إلى النص لأن أزواج النص اللامع في كثير من الأحيان تحتوي على تداخل معجمي أعلى وانخفاض التداخل النحوي أقل من أزواج اللغات المنطوقة.نستفصل هذا التداخل المعجمي والتعامل مع الاختلاف النحوي عن طريق اقتراح اثنين من الاستدلال المستندة إلى القواعد التي تولد أزواج نصية متوازية من النصوص الزائفة من نص اللغة المنطوقة غير المنطوقة.من خلال التدريب المسبق على هذه البيانات الاصطناعية، نحسن الترجمة من لغة الإشارة الأمريكية (ASL) إلى لغة الإشارة الإنجليزية والألمانية إلى الألمانية بنسبة تصل إلى 3.14 و 2.20 بلو، على التوالي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا