ترغب بنشر مسار تعليمي؟ اضغط هنا

انقسام وإعادة صياغة بطريقة تبادل: خط أنابيب كامل

Split-and-Rephrase in a Cross-Lingual Manner: A Complete Pipeline

258   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعد صياغة صياغة Reprrase مهمة صعبة تعزز تحويل جملة مدخلية معقدة معينة إلى جمل متعددة أقصر معاداة معنى معادل. نهج إعادة كتابة هذا تصور أن الجمل الأقصر تستفيد من القراء البشري وتحسين مهام الخبراء اللامبرية التي تحضرها كخطوة مسبقة مسبقة. يقدم هذا العمل خط أنابيب كامل قادر على أداء طريقة تقسيم وإعادة الصياغة بطريقة تبادلة. لقد قمنا بتدريب نماذج عصبية التسلسلية من أجل اللغة الإنجليزية وتطبقها على التنبؤ بالتحولات باللغة الإنجليزية والأحكام البرتغالية البرازيلية بالاشتراك مع نمذجة لغة بيرت الملثمين. على عكس الأساليب التقليدية التي تطلب من النماذج التدريبية بالمواد التدريبية المكثفة، نقدم طريقة غير تافهة لبناء تلك الرسومات المعممة فقط عن طريق الطبقات النحوية (علامات نقاط البيع) وتكرار كل منها، مما يقلل من مقدار البيانات التدريبية اللازمة. أظهرت مساهمة خط الأنابيب هذا نتائج تنافسية تشجيع التوسع في الأسلوب لغات أخرى غير الإنجليزية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم EventPlus، وهو الحدث الزمني لفهم خط أنابيب يدمج عن مكونات فهم الحدث المختلفة بما في ذلك مشغل الحدث والكشف عن اكتب، والكشف عن وسيطة الأحداث، ومدة الأحداث واستخراج العلاقات الزمنية.معلومات الحدث، وخاصة المعرفة الزمنية الحدث، هي نوع من المعرفة الحس ية الشائعة التي تساعد الناس على فهم كيفية تطور القصص وتوفير تلميحات تنبؤية للأحداث المستقبلية.EventPlus كأول Sommenive Accleal Event Sommending يوفر خط الأنابيب أداة مريحة للمستخدمين للحصول بسرعة على التعليقات التوضيحية حول الأحداث ومعلوماتهم الزمنية لأي مستند قدم المستخدم.علاوة على ذلك، نعرض EventPlus يمكن تكييفها بسهولة مع مجالات أخرى (مثل المجال الطبي الحيوي).نجعل EventPlus متاحا للجمهور لتسهيل استخراج المعلومات المتعلقة بالحدث وتطبيقات المصب.
تقدم الصابغة فرصة كمصدر بيانات للبحث في NLP والتعليم والعلوم الاجتماعية.ومع ذلك، فإن الإجابة على أسئلة بحثية محددة مع هذه البيانات صعبة، حيث تحتوي الصخور على أساليب كتابة أكثر تنوعا من الخيال الرسمي.نقدم خط أنابيب معالجة النصوص للقصص، مع التركيز على تحديد النص المرتبط بالأحرف.يتضمن خط الأنابيب وحدات لتحديد الأحرف وكور المعلومات، وكذلك إسناد الاقتباس والسرد إلى تلك الشخصيات.بالإضافة إلى ذلك، يحتوي خط الأنابيب على نهج رواية في Conment Coreence الذي يستخدم المعرفة من إسناد Quote لحل الضمائر داخل علامات الاقتباس.لكل وحدة، نقوم بتقييم فعالية النهج المختلفة على 10 قصص صانفة مشروحة.هذا خط أنابيب تتفوق الأدوات المتقدمة للخيال الرسمي على مهام Aquerence Aquer Aquare و Quote
مهمة مهمة في تطبيقات NLP مثل تبسيط الجملة هي القدرة على اتخاذ جملة طويلة ومعقدة وتقسيمها إلى جمل أقصر، وإعادة صياغة حسب الضرورة. نقدم مجموعة بيانات جديدة ونموذج جديد لهذه المهمة الانقسام وإعادة صياغة. تتكون بياناتنا في Bisect التدريبية من 1 مليون جمل إنجليزية طويلة مقترن بأجمل الإنجليزية الأقصر والمعاواة بينها. نحصل على هؤلاء من خلال استخراج محاذاة جملة واحدة في فورانيا متوازية ثنائية اللغة ثم استخدام الترجمة الآلية لتحويل كلا الجانبين من الجور إلى نفس اللغة. يحتوي Bisect على أمثلة تدريبية ذات جودة أعلى من SPORTA SPORTA السابق وإعادة صياغتها، مع انشقاقات الجملة التي تتطلب تعديلات أكثر أهمية. نقوم بتصنيف أمثلة في Corpus لدينا واستخدام هذه الفئات في نموذج جديد يتيح لنا استهداف مناطق محددة من جملة المدخلات التي سيتم تقسيمها وتحريرها. علاوة على ذلك، نوضح أن النماذج المدربة على Bisect يمكن أن تؤدي مجموعة متنوعة واسعة من العمليات المنقسمة وتحسينها على النهج السابقة للحالة السابقة في التقييمات التلقائية والبشرية.
تعتبر خلط التعليمات البرمجية ظاهرة خلط الكلمات والعبارات من لغتين أو أكثر في كلام واحد من الكلام والنص.نظرا للتنوع اللغوي العالي، يعرض خلط التعليمات البرمجية العديد من التحديات في تقييم مهام توليد اللغة الطبيعية القياسية (NLG).تعمل العديد من المقاييس الشعبية على نطاق واسع بشكل سيء بمهام NLG المختلطة من التعليمات البرمجية.لمعالجة هذا التحدي، نقدم حصة خط أنابيب التقييم المعتمدة بشكل كبير يحسن ارتباطا كبيرا بين مقاييس التقييم والأحكام البشرية على النص المزج العام الذي تم إنشاؤه.كحالة للاستخدام، نوضح أداء الفحص على جمل Hinglish التي تم إنشاؤها بواسطة الماكينات (خلط الكود باللغات الهندية والإنجليزية) من The Hinge Corpus.يمكننا تمديد استراتيجية التقييم المقترحة إلى أزواج لغة مختلطة من التعليمات البرمجية، ومهام NLG، ومقاييس التقييم مع الحد الأدنى من أي جهد.
في هذا التقرير الفني، وصفنا أن خط أنابيب ASR-MT المصنف الذي تم ضبطه على المهمة المشتركة IWSLT.نقوم بإزالة عينات الكلام الأقل فائدة عن طريق فحص WER مع نموذج ASR، وتدريب أحدث وحدة ASR القائمة على WAV2VEC ومقرها المحولات بناء على البيانات المرتبطة.بالإض افة إلى ذلك، نقوم بتخفيف Errata التي يمكن أن تتداخل مع عملية الترجمة الآلية واستخدامها لتدريب وحدة MT القائمة على المحولات.أخيرا، في مرحلة الاستدلال الفعلي، نستخدم نموذج اكتشاف حدود الجملة المدرب مع بيانات مقيدة لدمج مخرجات ASR بشكل صحيح في جمل كاملة.تتم معالجة الجمل المدمجة باستخدام جزء من الكلام.يتم تحقيق النتيجة النهائية من قبل وحدة MT المدربة.يعرض الأداء باستخدام مجموعة DEV Bleu 20.37، وهذا النموذج يسجل أداء Bleu 20.9 مع مجموعة الاختبار.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا