ترغب بنشر مسار تعليمي؟ اضغط هنا

طريقة غير منشأة لبناء جملة تبسيط كورسا بلغات متعددة

An Unsupervised Method for Building Sentence Simplification Corpora in Multiple Languages

150   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

توفر تبسيط الجملة المتوازي (SS) نادرة لأوصوامل SS العصبية. نقترح طريقة غير منشأة لبناء SS Corpora من Translation Translation ثنائي اللغة واسعة النطاق، مما يخفف من الحاجة إلى SS Corporged Corge. يتم تحفيز طريقتنا عن طريق النتائج التالية: يميل نموذج الترجمة الآلية العصبية عادة إلى توليد المزيد من الرموز عالية التردد وفرق مستويات التعقيد النصية موجودة بين المصدر واللغة المستهدفة ل Translation Corpus. من خلال أخذ زوج من المصدر الجمل من Corpus Translation وترجمات مراجعها في لغة الجسر، يمكننا إنشاء بيانات SS موازية زائفة واسعة النطاق. بعد ذلك، نبقي أزواج الجملة هذه مع اختلاف أعلى تعقيد كزواج من جملة SS. يمكن أن تلبي المبنى SS Corpora مع نهج غير مدفوع التوقعات بأن الأحكام المحاذاة تحافظ على نفس المعاني وأن يكون لها اختلاف في مستويات تعقيد النص. تظهر النتائج التجريبية أن أساليب SS التي تدربت بها كوربورا تحقق النتائج من أحدث النتائج وتفوق النتائج على نتائج اللغة الإنجليزية في Wikilarge.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

من المعروف أن الأساليب التاريخية تحتوي على أخطاء قدمتها أساليب OCR (التعرف على الأحرف البصرية) المستخدمة في عملية الرقمنة، غالبا ما يقال إنها مهينة أداء أنظمة NLP.تصحيح هذه الأخطاء يدويا هي عملية تستغرق وقتا طويلا، وقد تم الاعتماد على جزء كبير من الأ ساليب التلقائية على القواعد أو تعلم الآلات الخاضعة للإشراف.نحن نبني على العمل السابق على استخراج مواز تلقائي بالكامل لبيانات متوازية لتدريب نموذج NMT تسلسل تستند إلى الطرف (الترجمة الآلية العصبية) لإجراء تصحيح خطأ OCR المصمم للغة الإنجليزية، وتكييفه إلى الفنلندية من خلال اقتراح الحلول التي تأخذالمورفولوجيا الغنية للغة في الاعتبار.تظهر طريقة جديدة لدينا أداء متزايد في حين تبقى غير مؤسس بالكامل، مع الاستفادة الإضافية للتطبيع الإملائي.تتوفر شفرة المصدر والنماذج على Github و Zenodo.
تصف هذه الورقة Simplener، وهو نموذج تم تطويره لمهمة تبسيط الجملة في GEM-2021.نظامنا عبارة عن بنية محولات SEQ2SEQ أحادية مونولجة تستخدم الرموز المراقبة معلقة مسبقا إلى البيانات، مما يسمح للنموذج بتشكيل التبسيط الذي تم إنشاؤه وفقا للسمات التي تريدها ال مستخدم.بالإضافة إلى ذلك، نظهر أن البيانات التدريبية NER - بيانات التدريب قبل الاستخدام يساعد على تثبيت تأثير الرموز السيطرة وتحسين الأداء العام للنظام بشكل كبير.ونحن نوظف أيضا embeddings المسبق للحد من البيانات الخاصة بالبيانات والسماح للنموذج بإنتاج المزيد من النواتج القابلة للتعميم.
لبناء أنظمة التبسيط الآلي، وهي كورسا من الجمل المعقدة وإصداراتها المبسطة هي الخطوة الأولى لفهم تعقيد الجملة وتمكين تطوير أنظمة تبسيط النص التلقائي.نقدم مجموعة تبسيط الأردية المعجمية والمبسلة بموجبها بتحليل مفصل لعمليات التبسيط المختلفة والتقييم البشر ي لجودة Corpus.لدينا أيضا تحليل شريونا باستخدام تدابير قابلية لقراءة النص وتقديم مقارنة بين الشركات الأصلية المعجمية والمبسطة بسيطة ومبسرة.بالإضافة إلى ذلك، قارنا كوربوس لدينا مع شركة تبسيط موجودة أخرى من خلال بناء أنظمة تبسيط وتقييم هذه الأنظمة باستخدام درجات بلو وسري.يحقق نظامنا أعلى درجة بلو ونتيجة ساري مقارنة بالمقارنة مع الأنظمة الأخرى.ونحن نطلق سرورا تبسيطنا لصالح مجتمع البحث.
هناك نقص في شورا عالي الجودة للغات الجنوبية السلافية. مثل هذه الشركات مفيدة لعلماء الكمبيوتر والباحثين في العلوم الاجتماعية والعلوم الإنسانية على حد سواء، مع التركيز على العديد من تطبيقات اللغات والمحتوى وتطبيقات معالجة اللغة الطبيعية. تقدم هذه الورق ة سيرجال سير عمل للتعدين محتوى ويكيبيديا ومعالجته في كوربورا معالجته اللغوي، المطبق على البوسنة والكبلانية والكرواتية والكرواتية والصلبيون والرويبو الكرواتية والسلوفانية والسلوفينية. نحن نجعل سبعة كوربورا متاحة للجمهور. نعرض هذه كوربورا من خلال مقارنة محتوى ويكيبيديا الأساسي، افتراضنا أن محتوى ويكيبيداس يعكس المصالح على نطاق واسع في موضوعات مختلفة في هذه الدول البلقان. نقوم بإجراء مقارنة المحتوى باستخدام خوارزميات نمذجة الموضوع ومقارنات التوزيع المختلفة. تظهر النتائج أن جميع ويكيبيداس متشابهة موضعيا تماما، مع كلها تغطي الفن والثقافة والأدب، في حين أنها تحتوي على اختلافات في الجغرافيا والسياسة والتاريخ والعلوم.
وصلت الترجمة غير المزدئة إلى أداء مثير للإعجاب على أزواج اللغة الغنية بالموارد مثل اللغة الإنجليزية الفرنسية والإنجليزية - الألمانية. ومع ذلك، أظهرت الدراسات المبكرة أنه في بيئات أكثر واقعية تنطوي على الموارد المنخفضة، لغات نادرة، تؤدي الترجمة غير ال معينة بشكل سيئ، وتحقيق أقل من 3.0 بلو. في هذا العمل، نظير على أن تعددية اللغات أمر بالغ الأهمية لجعل أنظمة غير مخالفة عملية لإعدادات الموارد المنخفضة. على وجه الخصوص، نقدم نموذجا واحدا ل 5 لغات منخفضة الموارد (الغوجاراتية، كازاخ، النيبالية، السنهالية، والتركية) من وإلى اتجاهات اللغة الإنجليزية، والتي ترفع البيانات المتوازية غير المباشرة والمساعدة من أزواج لغة موارد أخرى عالية من خلال ثلاثة مخطط التدريب المرحلة. نحن نتفوق على جميع خطوط الأساس غير المدعومة الحالية له لهذه اللغات، وتحقيق مكاسب تصل إلى 14.4 بلو. بالإضافة إلى ذلك، نحن نتفوق خطوط خطوط خطوط خطوط خطوط أخرى تحت إشراف قوية لمختلف أزواج اللغات وكذلك تطابق أداء النموذج الحالي للإشراف على النيبالية والإنجليزية. نقوم بإجراء سلسلة من دراسات الاجتثاث لإثبات نطاقات نموذجنا بموجب درجات مختلفة من جودة البيانات، وكذلك لتحليل العوامل التي أدت إلى الأداء الفائق للنهج المقترح على النماذج التقليدية غير المعروضة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا