ترغب بنشر مسار تعليمي؟ اضغط هنا

نظام تبسيط الجملة Simplener GEM 2021

SimpleNER Sentence Simplification System for GEM 2021

349   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصف هذه الورقة Simplener، وهو نموذج تم تطويره لمهمة تبسيط الجملة في GEM-2021.نظامنا عبارة عن بنية محولات SEQ2SEQ أحادية مونولجة تستخدم الرموز المراقبة معلقة مسبقا إلى البيانات، مما يسمح للنموذج بتشكيل التبسيط الذي تم إنشاؤه وفقا للسمات التي تريدها المستخدم.بالإضافة إلى ذلك، نظهر أن البيانات التدريبية NER - بيانات التدريب قبل الاستخدام يساعد على تثبيت تأثير الرموز السيطرة وتحسين الأداء العام للنظام بشكل كبير.ونحن نوظف أيضا embeddings المسبق للحد من البيانات الخاصة بالبيانات والسماح للنموذج بإنتاج المزيد من النواتج القابلة للتعميم.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

لبناء أنظمة التبسيط الآلي، وهي كورسا من الجمل المعقدة وإصداراتها المبسطة هي الخطوة الأولى لفهم تعقيد الجملة وتمكين تطوير أنظمة تبسيط النص التلقائي.نقدم مجموعة تبسيط الأردية المعجمية والمبسلة بموجبها بتحليل مفصل لعمليات التبسيط المختلفة والتقييم البشر ي لجودة Corpus.لدينا أيضا تحليل شريونا باستخدام تدابير قابلية لقراءة النص وتقديم مقارنة بين الشركات الأصلية المعجمية والمبسطة بسيطة ومبسرة.بالإضافة إلى ذلك، قارنا كوربوس لدينا مع شركة تبسيط موجودة أخرى من خلال بناء أنظمة تبسيط وتقييم هذه الأنظمة باستخدام درجات بلو وسري.يحقق نظامنا أعلى درجة بلو ونتيجة ساري مقارنة بالمقارنة مع الأنظمة الأخرى.ونحن نطلق سرورا تبسيطنا لصالح مجتمع البحث.
إن جودة أنظمة تبسيط النص الآلي بالكامل ليست جيدة بما يكفي للاستخدام في إعدادات العالم الحقيقي؛بدلا من ذلك، يتم استخدام التبسيط البشري.في هذه الورقة، ندرس كيفية تحسين تكلفة وجودة التبسيط البشري من خلال الاستفادة من الجماعة الجماعية.نقدم نهج الانصهار ا لجملة في الرسم البياني لزيادة التبسيط البشري ونهج إعادة النشر لكل من تحديد المبسط عالية الجودة والسماح باستهداف التبسيط بمستويات متفاوتة من البساطة.باستخدام DataSet Newsela (XU et al.، 2015) نظهر تحسينات متسقة على الخبراء في مستويات تبسيط مختلفة وتجد أن تبسيط الانصهار الجملة الإضافية تسمح بإخراج أبسط من التبسيط البشري وحدها.
تصف هذه الورقة التقديم من قبل Nuig-DSI إلى Benchmark GEM 2021. نشارك في المهمة المشتركة النمذجة حيث نقدم مخرجات على أربع مجموعات بيانات للجيل إلى النص، وهي DART، WEBNLG (EN)، E2E و COMMINGEN.نتبع النهج الذي يشبه الواحدة الموصوفة في الورق القياسي GEM حيث نستخدم النموذج T5-Base المدرب مسبقا لتقديمنا.نحن ندرب هذا النموذج على بيانات أحادية الذهاب إضافية حيث نقوم بتجربة استراتيجيات اخفاء مختلفة تركز على وجه التحديد على كيانات إخفاء، وتندب المفاهيم وكذلك استراتيجية إخفاء عشوائية للتدريب المسبق.في نتائجنا، نجد أن الاخفاء العشوائي يؤدي الأفضل من حيث مقاييس التقييم التلقائي، على الرغم من أن النتائج ليست مختلفة بشكل كبير مقارنة باستراتيجيات اخفاء أخرى.
في الآونة الأخيرة، حقق نموذج لغوي كبير مدرب مسبقا يسمى T5 (محول نقل النصوص الموحد للنصوص) أداء حديثة في العديد من مهام NLP.ومع ذلك، لم يتم العثور على أي دراسة باستخدام هذا النموذج المدرب مسبقا على تبسيط النص.لذلك في هذه الورقة، نستكشف استخدام T5 Bric k-Tuning على تبسيط النص الجمع بين آلية يمكن التحكم فيها لتنظيم مخرجات النظام التي يمكن أن تساعد في إنشاء نص مكيفات للجماهير المستهدفة المختلفة.تبين تجاربنا أن نموذجنا يحقق نتائج رائعة مع مكاسب بين +0.69 و +1.41 عبر أحدث الولاية الحالية (بارت + الوصول).نقول أن استخدام نموذج مدرب مسبقا مثل T5، المدربين على عدة مهام مع كميات كبيرة من البيانات، يمكن أن يساعد في تحسين تبسيط النص.
توفر تبسيط الجملة المتوازي (SS) نادرة لأوصوامل SS العصبية. نقترح طريقة غير منشأة لبناء SS Corpora من Translation Translation ثنائي اللغة واسعة النطاق، مما يخفف من الحاجة إلى SS Corporged Corge. يتم تحفيز طريقتنا عن طريق النتائج التالية: يميل نموذج ال ترجمة الآلية العصبية عادة إلى توليد المزيد من الرموز عالية التردد وفرق مستويات التعقيد النصية موجودة بين المصدر واللغة المستهدفة ل Translation Corpus. من خلال أخذ زوج من المصدر الجمل من Corpus Translation وترجمات مراجعها في لغة الجسر، يمكننا إنشاء بيانات SS موازية زائفة واسعة النطاق. بعد ذلك، نبقي أزواج الجملة هذه مع اختلاف أعلى تعقيد كزواج من جملة SS. يمكن أن تلبي المبنى SS Corpora مع نهج غير مدفوع التوقعات بأن الأحكام المحاذاة تحافظ على نفس المعاني وأن يكون لها اختلاف في مستويات تعقيد النص. تظهر النتائج التجريبية أن أساليب SS التي تدربت بها كوربورا تحقق النتائج من أحدث النتائج وتفوق النتائج على نتائج اللغة الإنجليزية في Wikilarge.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا