ترغب بنشر مسار تعليمي؟ اضغط هنا

تكبير البيانات الاصطناعية للحصول على السؤال الصفر لقطة

Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question Answering

380   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

إلى جانب توفر مجموعات بيانات واسعة النطاق، مكنت هياكل التعلم العميق التقدم السريع في مهمة الإجابة على السؤال.ومع ذلك، فإن معظم مجموعات البيانات هذه باللغة الإنجليزية، وأدائيات النماذج متعددة اللغات الحديثة أقل بكثير عند تقييمها على البيانات غير الإنجليزية.نظرا لتكاليف جمع البيانات العالية، فهي ليست واقعية للحصول على بيانات مشروحة لكل لغة رغبة واحدة لدعمها.نقترح طريقة لتحسين السؤال المتبادل الإجابة على الأداء دون الحاجة إلى بيانات مشروح إضافية، واستفادة نماذج توليد السؤال لإنتاج عينات اصطناعية في أزياء متصلة.نظهر أن الطريقة المقترحة تتيح التوفيق بشكل كبير على خطوط الأساس المدربين على بيانات اللغة الإنجليزية فقط.نبلغ عن أحدث طرف جديد في أربع مجموعات بيانات: MLQA و Xquad و Squad-It و PIAF (FR).



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقترح طريقة بسيطة لتوليد سؤال متعدد اللغات والإجابة على أزواج على نطاق واسع من خلال استخدام نموذج عام واحد.يمكن استخدام هذه العينات الاصطناعية لتحسين الأداء الصفر لقطة من نماذج QA متعددة اللغات على اللغات المستهدفة.يتطلب تدريبنا المتعدد المهام المقتر ح للنموذج الإداري فقط عينات التدريب المسمى باللغة الإنجليزية، مما يؤدي إلى إزالة الحاجة إلى مثل هذه العينات باللغات المستهدفة، مما يجعلها تنطبق على لغات أخرى بكثير من تلك التي تحتوي على البيانات المسمى.تشير التقييمات البشرية إلى أن غالبية مثل هذه العينات صحيحة وناصمة.تظهر النتائج التجريبية أن نهجنا المقترح يمكن أن يحقق مكاسب كبيرة في DataSet Xquad، مما يقلل من الفجوة بين الصفر بالرصاص والأداء الخاضع للإشراف على نماذج QA أصغر بلغات مختلفة.
تكييف ترتيب الكلمات من لغة واحدة إلى أخرى هو مشكلة رئيسية في التنبؤ المنظم عبر اللغات.تشفير الجملة الحالية (على سبيل المثال، RNN، محول مع تضيير الموقف) هي عادة ترتيب الكلمة الحساسة.حتى مع وجود تمثيلات نموذج موحدة (MUSE، MBERT)، قد تؤذي تناقضات ترتيب الكلمات التكيف مع النماذج.في هذه الورقة، نبني نماذج التنبؤ الهيكلية بمدخلات كيس من الكلمات، وإدخال وحدة إعادة ترتيب جديدة لتنظيم الكلمات بعد ترتيب لغة المصدر، والذي يتعلم استراتيجيات إعادة ترتيب محددة المهام من نموذج تنبئ النظام للأغراض العامة.تظهر التجارب على تحليل التبعية المتبادلة الصفرية وعلامات نقاط البيع، والعلامات المورفولوجية أن طرازنا يمكن أن يحسن بشكل كبير من أداء اللغات المستهدفة، وخاصة لغات بعيدة عن اللغة المصدر.
يهدف سؤال متعدد اللغات، الرد على الرسم البياني للمعرفة (KGQA) إلى استخلاص إجابات من الرسم البياني المعرفي (KG) للأسئلة بلغات متعددة. لتكون قابلة للتطبيق على نطاق واسع، نركز على إعداد نقل الطلقة الصفرية. هذا هو، يمكننا فقط الوصول إلى البيانات التدريبي ة فقط بلغة موارد عالية، بينما تحتاج إلى الإجابة على أسئلة متعددة اللغات دون أي بيانات معدنية باللغات المستهدفة. يتم تشغيل نهج مباشر إلى نماذج متعددة اللغات المدربة مسبقا (على سبيل المثال، MBERT) للنقل عبر اللغات، ولكن هناك فجوة كبيرة من الأداء KGQA بين المصدر واللغات المستهدفة. في هذه الورقة، نستمسى تحريض معجم ثنائي اللغة دون مقابل (BLI) لخريطة الأسئلة التدريبية في لغة المصدر في تلك الموجودة في اللغة المستهدفة مثل بيانات التدريب المعزز، والتي تتحل إلى عدم تناسق اللغة بين التدريب والاستدلال. علاوة على ذلك، نقترح استراتيجية تعليمية عدائية لتخفيف اضطراب بناء الجملة في البيانات المعززة، مما يجعل النموذج يميل إلى كل من اللغة والبنيات الاستقلال. وبالتالي، فإن نموذجنا يضيق الفجوة في تحويل صفرية عبر اللغات. التجارب على مجموعة بيانات KGQA متعددة اللغات مع 11 لغة موارد صفرية تحقق من فعاليتها.
غالبا ما يتحلل ترجمة لغة الإشارة (SLT) في التعرف على الفيديو إلى اللمعان والترجمة النصية إلى النص، حيث يكون اللمعان سلسلة من الكلمات اللغوية الموضحة باللغة المنطوقة بالترتيب الذي يتم فيه توقيعه.نحن نركز هنا على الترجمة اللامع إلى النص، والتي نعلمها ك مشكلة ترجمة آلية منخفضة الموارد (NMT).ومع ذلك، على عكس المورد المنخفض التقليدي NMT، تختلف الترجمة من اللمعان إلى النص لأن أزواج النص اللامع في كثير من الأحيان تحتوي على تداخل معجمي أعلى وانخفاض التداخل النحوي أقل من أزواج اللغات المنطوقة.نستفصل هذا التداخل المعجمي والتعامل مع الاختلاف النحوي عن طريق اقتراح اثنين من الاستدلال المستندة إلى القواعد التي تولد أزواج نصية متوازية من النصوص الزائفة من نص اللغة المنطوقة غير المنطوقة.من خلال التدريب المسبق على هذه البيانات الاصطناعية، نحسن الترجمة من لغة الإشارة الأمريكية (ASL) إلى لغة الإشارة الإنجليزية والألمانية إلى الألمانية بنسبة تصل إلى 3.14 و 2.20 بلو، على التوالي.
يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا العمل، نأخذ هذا الاتجاه البحثي إلى المعاكس ودراسة تكبير بيانات المجال عبر المجال لمهمة NER.نحن نبحث في إمكانية الاستفادة من البيانات من مجالات الموارد العالية من خلال إسقاطها في مجالات الموارد المنخفضة.على وجه التحديد، نقترح بنية عصبية رواية لتحويل تمثيل البيانات من الموارد العالية إلى مجال موارد منخفضة من خلال تعلم الأنماط (مثل الأناقة والضوضاء والاختصارات، وما إلى ذلك) في النص الذي يميزها ومساحة ميزة مشتركةحيث يتماشى كلا المجالين.نقوم بتجربة مجموعات بيانات متنوعة وإظهار أن تحويل البيانات إلى تمثيل مجال الموارد المنخفض يحقق تحسينات كبيرة على استخدام البيانات فقط من مجالات الموارد العالية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا