ترغب بنشر مسار تعليمي؟ اضغط هنا

محاذاة النص الموازي وإنشاء Corpus المتوازي الأولي من النصوص الفلسفية لتبسيط النص

Parallel Text Alignment and Monolingual Parallel Corpus Creation from Philosophical Texts for Text Simplification

206   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تبسيط النص هو حقل متزايد مع العديد من التطبيقات المفيدة المحتملة.تتطلب خوارزميات تبسيط النص التدريب عموما الكثير من البيانات المشروحة، ومع ذلك لا توجد العديد من الشركات المناسبة لهذه المهمة.نقترح طريقة جديدة غير مخالفة لمحاذاة النص بناء على تضمين Doc2vec وخوارزمية محاذاة جديدة، قادرة على محاذاة النصوص على مستويات مختلفة.يوضح التقييم الأولي نتائج واعدة للنهج الجديد.استخدمنا النهج المطور الذي تم تطويره حديثا لإنشاء كوربلا متوازيا أحادية طيور أحادية جديدة تتألف من أعمال الفلاسفة الحديث الإنجليزي وإصداراتهم المبسطة المقابلة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يسعى مركز الترجمة الظاهري الوطني (NVTC) إلى الحصول على أدوات تكنولوجيا اللغة البشرية (HLT) التي ستسهل مهمتها لتوفير ترجمات حرفية باللغة الإنجليزية لملفات الصوت والفيديو اللغوية.في المجال النصي، تستخدم NVTC ذاكرة الترجمة (TM) لبعض الوقت وقد أبلغت عن د مج الترجمة الآلية (MT) في سير العمل (Miller et al.، 2020).بينما لقد استكشفنا استخدام ترجمة الكلام (STT) وترجمة الكلام (stt) في الماضي (Tzoukermann و Miller، 2018)، فقد استثمرنا الآن في إنشاء كائن كبير من البشر من صنع الإنسان لتقييم بدائل بدقة.النتائج من تحليلنا لهذه الشقوق وأداء أدوات HLT تشير إلى الطريق إلى الأكثر واعدة للنشر في سير العمل لدينا.
تعد خلط الكود (سم) ظاهرة شائعة في المجتمعات متعددة اللغات. يلعب CM دورا مهما في مجال التكنولوجيا والحقول الطبية حيث تكون المصطلحات في اللغة الأم وغير معروفة. سيساعد تحديد اللغة (غطاء) من بيانات CM حل مهام NLP مثل التدقيق الإملائي، والتعرف على الكيان المسمى، وعلامات جزء من الكلام، والتحليل الدلالي. في العصر الحالي من التعلم الآلي، فإن المشكلة المشتركة للمهام المذكورة أعلاه هي توافر بيانات التعلم لتدريب نماذج. في هذه الورقة، نقدم مجموعة بيانات Telugu-English-English مزقوفة يدويا (مجموعة بيانات Twitter DataSet and Blog). تحتوي مجموعة بيانات Twitter على المزيد من التباين بالحروف بالحروف اللاتينية وأصحاب أخطاء إملائية من مجموعة بيانات المدونة. قارننا عبر نماذج التصنيف المختلفة وإجراء علامات مقاعد البدلاء واسعة النطاق باستخدام نماذج التعلم الكلاسيكية والعميقة للغطاء مقارنة بالنماذج الحالية. نقترح دورتين لتصنيف اللغة (التيلجو والإنجليزي) في بيانات CM: (1) تصنيف مستوى تصنيف مستوى الكلمات (2) تصنيف الكلمات من Word-Word وتقارن هذه النهج تقديم خطين قويين للغطاء على مجموعات البيانات هذه.
تستفيد نماذج اللغة الكبيرة من التدريب بكمية كبيرة من النص غير المسبق، مما يمنحهم قدرات توليد بطلاقة ومتنوعة بشكل متزايد.ومع ذلك، فإن استخدام هذه النماذج لتوليد النص الذي يأخذ في الاعتبار السمات المستهدفة، مثل قطبية المعالم أو مواضيع محددة، لا يزال يم ثل تحديا.نقترح طريقة بسيطة ومرنة للسيطرة على جيل النص عن طريق محاذاة تمثيلات سمة Deventangled.على النقيض من الجهود الأخيرة التي يبذلها الجهود المبينة في تدريب تمييزي على توزيع مستوى الرمز المميز لسمة، نستخدم نفس البيانات لتعلم وظيفة المحاذاة لتوجيه نموذج اللغة غير المستخدمة مسبقا وغير الخاضعة للرقابة لإنشاء نصوص مع سمة الهدف دون تغييرالمعلمات نموذج اللغة الأصلية.نقوم بتقييم طريقتنا على توليد المعنويات والموضوع، وإظهار مكاسب أداء كبيرة على الطرق السابقة مع الاحتفاظ بالطلاقة والتنوع.
تحقق هذه الورقة في كيفية تصحيح أخطاء النص الصينية مع أنواع من الأحرف الخاطئة والمفقودة والمتغمة، وهي شائعة للمتحدثين الأصليين الصينيين.يمكن لمعظم النماذج الموجودة على الإطار الصحيح على الكشف عن تصحيح الأحرف الخاطئة، ولكن لا يمكن التعامل مع الأحرف الم فقودة أو الزائدة بسبب التناقض بين المدخلات والمخرجات النموذجية.على الرغم من أن أساليب العلامات المستندة إلى SEQ2SEQ أو التسلسل تقدم حلولا لأنواع الخطأ الثلاثة وحققت نتائج جيدة نسبيا في سياق اللغة الإنجليزية، فإنها لا تؤدي بشكل جيد في السياق الصيني وفقا تجاربنا.في عملنا، نقترح إطارا جديدا للكشف عن المحاذاة على المكتشفة التي يمكن أن تعالج كل من المواقف المحاذاة وغير المحاذاة ويمكن أن تكون بمثابة نموذج ابدأ بارد عند عدم توفر بيانات التعليق التوضيحي.تظهر النتائج التجريبية على ثلاث مجموعات بيانات أن طريقتنا فعالة وتحقق أداء أفضل من أحدث النماذج المنشورة.
تشبه مهمة تبسيط نص الوثيقة على مستوى المستندات إلى صعوبة تقليل التعقيد الإضافي.نقدم مجموعة بيانات مجمعة حديثا من النصوص الألمانية، التي تم جمعها من مجلة Swiss News 20 Minuten (20 دقيقة) والتي تتكون من مقالات كاملة مقررة مع ملخصات مبسطة.علاوة على ذلك، نقدم تجارب على تبسيط النص التلقائي مع MBART MBART متعددة اللغات المسبدة مسبقا ونسخة معدلة منها أكثر صديقة للذاكرة، باستخدام كل من مجموعة البيانات الجديدة والتبسيط الموجودة Corpora.تتيح لنا تعديلات MBArt التدريب بتكلفة أقل في الذاكرة دون فقدان الكثير من الخسارة في الأداء، في الواقع، فإن MBART أصغر يحسن حتى النموذج القياسي في إعداد مع مستويات تبسيط متعددة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا