ترغب بنشر مسار تعليمي؟ اضغط هنا

تحسين تنوع إعادة الصياغة غير المنشأة مع مخرجات التضمين

Improving the Diversity of Unsupervised Paraphrasing with Embedding Outputs

274   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم تقنية جديدة لتوليد الصفر عن إعادة صياغة الصفر.المساهمة الرئيسية هي طراز إعادة صياغة متعددة اللغات من طرف تم تدريبه على استخدام كورسرا المتوازي المترجمة لتوليد الصياغة في المساحات المعنى "- استبدال طبقة SoftMax النهائية مع Adgeddings Word.يتيح هذا التعديل المعماري، بالإضافة إلى إجراء تدريبي يشتمل على هدف AutoNCoding، مع المعلمة الفعالة تقاسم لغات لمزيد من إعادة كتابة أحادي الأبعاد بطلاقة، ويسهل الطلاقة والتنوع في المخرجات التي تم إنشاؤها.تتفوق نماذج توليد الناتج المستمر الناتج عن إعادة صياغة خطوط خطوط خطوط إعادة صياغة صفرية عند تقييم لغتين باستخدام بطارية من المقاييس الحسابية وكذلك في التقييم البشري.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعمل السابقة على جيل إعادة صياغة صياغة يتم التحكم فيها بشكل كبير على بيانات إعادة صياغة مباشرة على نطاق واسع غير متوفرة بسهولة للعديد من اللغات والمجالات. في هذه الورقة، نأخذ هذا الاتجاه البحثي إلى أقصى الحدود والتحقيق فيما إذا كان من الممكن تعلم تول يد الصياغة التي يتم التحكم فيها بموجبها مع بيانات غير صلبية. نقترح نموذج إعادة صياغة غير مدهش من غير المستنير عليه بناء على التشفير التلقائي الشرطي (VAE) يمكن أن تولد نصوص في بنية نصنية محددة. خاصة، نقوم بتصميم طريقة تعليمية من مرحلتين لتدريب النموذج بفعالية باستخدام البيانات غير الموازية. يتم تدريب VAE الشرطية على إعادة بناء جملة الإدخال وفقا للإدخال المحدد والهيكل النحامي. علاوة على ذلك، لتحسين قابلية التحكم في النحوية والاتساق الدلالي لشركة VAE الشرطية المدربة مسبقا، نحن نغتنمها باستخدام أهداف التعلم السيطرة على بناء الجملة وإعادة إعمار دورة إعادة إعمار، وتوظيف Gumbel-Softmax الجمع بين أهداف التعلم الجديدة هذه. توضح نتائج التجربة أن النموذج المقترح المدرب فقط على البيانات غير الموازية قادر على توليد صیر متنوعة مع بنية نصنية محددة. بالإضافة إلى ذلك، نحن نقوم بالتحقق من صحة فعالية طريقتنا لتوليد أمثلة خصومة النحوية على مهمة تحليل المعنويات.
استفاد من إعادة صياغة الصياغة على نطاق واسع من التقدم الأخير في تصميم الأهداف التدريبية والبنية النموذجية. ومع ذلك، تركز الاستكشافات السابقة إلى حد كبير على الأساليب الخاضعة للإشراف، والتي تتطلب كمية كبيرة من البيانات المسمى ذات مكلفة لجمعها. لمعالجة هذا العيب، نعتمد نهجا للتعلم ونقله واقتراح خط أنابيب التدريب الذي يتيح نماذج اللغة المدربة مسبقا لتوليد أول اتصالات عالية الجودة في إعداد غير محدد. تتكون وصفة لدينا من تكيف المهام والإشراف الذاتي وخوارزمية فك التشفير الجديدة المسماة حظر ديناميكي (DB). لفرض نموذج سطح متغاضي عن الإدخال، كلما أن نموذج اللغة ينبعث رمز رمزي موجود في تسلسل المصدر، يمنع DB النموذج من إخراج الرمز المميز اللاحق للمصدر خطوة الجيل التالي. نظرا للتقييمات التلقائية والإنسانية أن نهجنا يحقق أداء حديثة من كل من زوج السؤال Quora (QQP) ومجموعات بيانات Paranmt قوية لتحويل المجال بين مجموعة بيانات التوزيعات المميزة. نحن نوضح أيضا تحويلاتنا النموذجية إلى إعادة صياغة لغات أخرى دون أي رسوم إضافية.
تحسن تبسيط النص قابلية قراءة الجمل من خلال العديد من تحويلات إعادة كتابة، مثل إعادة الصياغة المعجمية والحذف والتقشير. تعتبر أنظمة التبسيط الحالية في الغالب نماذج تسلسل التسلسل التي يتم تدريبها على نهاية إلى نهاية لأداء كل هذه العمليات في وقت واحد. وم ع ذلك، فإن هذه الأنظمة تحد من نفسها لحذف الكلمات ويمكنها بسهولة التكيف مع متطلبات الجماهير المستهدفة المختلفة. في هذه الورقة، نقترح نهجا مختلطا هجينا رواية يرفع القواعد ذات الدوافع اللغوية لتقسيم وحذفها، والأزواج مع نموذج إعادة الصياغة العصبية لإنتاج أنماط إعادة كتابة متنوعة. نقدم طريقة جديدة لتعزيز البيانات لتحسين القدرة على إعادة صياغة نموذجنا. من خلال التقييمات التلقائية والدليلية، نوضح أن نموذجنا المقترح يحدد حالة جديدة من بين المهمة، أو إعادة صياغة أكثر من النظم الحالية، ويمكن أن تتحكم في درجة كل عملية تبسيط مطبقة على نصوص الإدخال.
يعد تدريب الاتساق غير الخاضع للتناسق طريقة للتعلم شبه الإشرافه يشجع الاتساق في التنبؤات النموذجية بين البيانات الأصلية والمعزز.للحصول على التعرف على الكيان المسمى (NER)، زيادة النهج الحالية تسلسل الإدخال مع استبدال الرمز المميز، بافتراض التعليقات الت وضيحية على المناصب المستبدة دون تغيير.في هذه الورقة، نستكشف استخدام إعادة الصياغة كمخطط تعزز البيانات أكثر مبدئيا للتدريب على الاتساق غير المدعوم.على وجه التحديد، نقوم بتحويل المجال العشوائي الشرطي (CRF) إلى وحدة تصنيف متعدد العلامات وتشجيع الاتساق على مظهر الكيان بين التسلسلات الأصلية المعززة.تبين التجارب أن طريقتنا فعالة بشكل خاص عندما تكون التعليقات التوضيحية محدودة.
تجزئة موضوع الحوار أمر بالغ الأهمية في العديد من مشاكل نموذج الحوار.ومع ذلك، فإن النهج الشائعة غير المعينة الشائعة لاستغلال الميزات السطحية فقط في تقييم التماسك الموضعي بين الكلام.في هذا العمل، نتعامل مع هذا القيد من خلال الاستفادة من الإشارات الإشرا فية من مهمة التسجيل في اتساق زوج الكلام.أولا، نقدم استراتيجية بسيطة ولكنها فعالة لتوليد كوربوس التدريب لتسجيلات التماسك زوج الكلام.بعد ذلك، ندرب نموذج متماسك نطق برت مقره برت مع Corpus التدريب الذي تم الحصول عليه.أخيرا، يتم استخدام هذا النموذج لقياس الملاءمة الموضعية بين الكلام، والتصرف كأساس لاستدلال التجزئة.تجارب على ثلاث مجموعات بيانات عامة باللغة الإنجليزية والصينية توضح أن اقتراحنا يتفوق على خطوط الأساس الحديثة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا