ترغب بنشر مسار تعليمي؟ اضغط هنا

إثراء DataSet E2E

Enriching the E2E dataset

586   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الدراسة نسخة مخصبة من DataSet E2E، وهي واحدة من موارد اللغة الأكثر شعبية ل NLG البيانات إلى النص.نحن نستخلص من التمثيل الوسيط لمهام خطوط الأنابيب الشعبية مثل ترتيب الخطاب، وهيكال نصية، وتعليم التعبير وإشارة التعبير،، مما يتيح الباحثين على تطوير وتقييم أنظمة خطوط أنابيب البيانات إلى النص بسرعة.يتم استخراج التمثيل الوسيط من خلال محاذاة التمثيلات غير اللغوية والنصية من خلال عملية تسمى Delexicalization، والتي تتألف في استبدال الإدخال بإحالة التعبيرات إلى الكيانات / السمات مع العناصر النائبة.مجموعة البيانات المخصبة متاحة للجمهور.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في الورقة، نقدم عملية إضافة معلومات مورفولوجية إلى Wordnet البولندية (Plwlnet).نحن تصف أسباب هذا الاتصال والحماسات وراء ذلك.نستفصل أيضا الانتباه إلى خصوصية المورفولوجيا البولندية.نظرا لأن المهام التي تعتبرها المعلومات المورفولوجية مهمة وكيف يمكن تطوي ر الطرق من خلال توسيعها لتشمل المعلومات المورفولوجية مجتمعة بناء على WordNet.
تعاني رسوم الرسوم البيانية المعرفة من Sparsity والتي تتحلل من جودة التمثيلات الناتجة عن الطرق المختلفة. في حين أن هناك وفرة من المعلومات النصية في جميع أنحاء الويب والعديد من قواعد المعرفة الموجودة، فإن محاذاة المعلومات في جميع مصادر البيانات المتنوع ة تظل تحديا في الأدبيات. وقد تناولت العمل السابق جزئيا هذه المشكلة عن طريق إثراء كيانات الرسم البياني المعرفي بناء على "حدوث كلمات" بجدية موجودة في كيانات الرسوم البيانية والنص الخارجي، بينما نحقق تكبير "" لينة "من خلال اقتراح إثراء الرسم البياني المعرفي وإطار التضمين اسمه الحافة. بالنظر إلى الرسم البياني المعرفي الأصلي، فإننا نقوم أولا بإنشاء رسم بياني معدني غني ولكن صاخبة يستخدم النصوص الخارجية في المستوى الدلالي والهيكل الهيكلية. لتقطير المعرفة ذات الصلة وقمع الضوضاء المقدمة، نقوم بتصميم مصطلح محاذاة رسم بياني في مساحة تضمين مشتركة بين الرسم البياني الأصلي والرسم البياني المعزز. لتعزيز التعلم التضمين في الرسم البياني المعزز، فإننا نتاجر مواصلة علاقة الموقع بالكيان المستهدف بناء على أخذ العينات السلبية. النتائج التجريبية على أربعة مجموعات بيانات قياسية تثبت متانة وفعالية الحافة في تبديد الارتباط وتصنيف العقدة.
من المعروف أن ميزات كلمة مثل المعلومات اللغوية التي تشير إلى رموز المصدر التي تشير إلى رموز المصدر، لتحسين نتائج أنظمة الترجمة الآلية العصبية في بعض الإعدادات، وعادة ما تكون في البنى المتكررة. تقترح هذه الدراسة تعزيز هندسة الترجمة الآلية الحالية للدو لة القصيرة، والمحول، بحيث يسمح بإدخال المعرفة الخارجية. على وجه الخصوص، يستخدم التعديل المقترح لدينا، المحولات العامل، العوامل اللغوية التي تدرس معرفة إضافية في نظام الترجمة الآلي. بصرف النظر عن استخدام أنواع مختلفة من الميزات، ندرس تأثير التكوينات المعمارية المختلفة. على وجه التحديد، نقوم بتحليل أداء الجمع بين الكلمات والميزات على مستوى التضمين أو على مستوى التشفير، ونحن نقوم بتجربة استراتيجيتين مزيج مختلفين. مع تكوين أفضل تم العثور عليه، نعرض تحسينات من 0.8 بلو عبر محول الأساس في مهمة IWSLT الألمانية إلى الإنجليزية. علاوة على ذلك، نقوم بتجربة معيار فلوريس الإنجليزي إلى النيبالي الأكثر تحديا، والذي يشمل كل من اللغات المنخفضة الموارد والبعيدة للغاية، والحصول على تحسين 1.2 بلو
نقدم مجموعة اختبار Swewinogender، مجموعة بيانات تشخيصية لقياس التحيز بين الجنسين في دقة Aquerence.وهي على غرارها بعد المعيار الإنجليزي الإنجليزي، ويتم إصدارها مع إحصاءات مرجعية بشأن توزيع الرجال والنساء بين المهن والشكام بين الجنسين والاحتلال في مواد الشمال الحديثة.تناقش الورقة تصميم وإنشاء مجموعة البيانات، ويعرض تحقيقا صغيرا في الإحصاءات التكميلية.
كان هناك طلب متزايد لتطوير أنظمة التدريب اللغوية بمساعدة الكمبيوتر (النقص)، والتي يمكن أن توفر ملاحظات حول سوء الأخطاء وتسهيل المتعلمين اللغة الثانية (L2) لتحسين إجادتها الناطقة من خلال الممارسة المتكررة. نظرا لنقص الكلام غير الأصلي لتدريب الوحدة الن مطية للتعرف على الكلام التلقائي (ASR) من نظام النقيب، فإن أداء الكشف عن الأخطاء السخطية المقابلة غالبا ما يتأثر بشكل غالبا بواسطة unffect ASR. وإذ تدرك هذه الأهمية، فإننا في هذه الورقة طرحت طريقة اكتشاف أخطاء أخطاء في مرحلتين. في المرحلة الأولى، تتم معالجة الخطاب الذي ينطقه متعلم L2 من خلال وحدة ASR المناسبة لإنتاج فرضيات تسلسل الهاتف N-Best. في المرحلة الثانية، يتم تغذية هذه الفرضيات في نموذج النطق الذي يسعى إلى التنبؤ بأمانة بفرض رسوم تسلسل الهاتف الذي هو على الأرجح واضحا من قبل المتعلم، وذلك لتحسين أداء اكتشاف أخطاء أخطاء. أجرت التجارب التجريبية مجموعة بيانات قياسية باللغة الإنجليزية تأكيد فائدة طريقتنا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا