ترغب بنشر مسار تعليمي؟ اضغط هنا

fanfictionnlp: خط أنابيب معالجة النص للقبض

FanfictionNLP: A Text Processing Pipeline for Fanfiction

365   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم الصابغة فرصة كمصدر بيانات للبحث في NLP والتعليم والعلوم الاجتماعية.ومع ذلك، فإن الإجابة على أسئلة بحثية محددة مع هذه البيانات صعبة، حيث تحتوي الصخور على أساليب كتابة أكثر تنوعا من الخيال الرسمي.نقدم خط أنابيب معالجة النصوص للقصص، مع التركيز على تحديد النص المرتبط بالأحرف.يتضمن خط الأنابيب وحدات لتحديد الأحرف وكور المعلومات، وكذلك إسناد الاقتباس والسرد إلى تلك الشخصيات.بالإضافة إلى ذلك، يحتوي خط الأنابيب على نهج رواية في Conment Coreence الذي يستخدم المعرفة من إسناد Quote لحل الضمائر داخل علامات الاقتباس.لكل وحدة، نقوم بتقييم فعالية النهج المختلفة على 10 قصص صانفة مشروحة.هذا خط أنابيب تتفوق الأدوات المتقدمة للخيال الرسمي على مهام Aquerence Aquer Aquare و Quote



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم EventPlus، وهو الحدث الزمني لفهم خط أنابيب يدمج عن مكونات فهم الحدث المختلفة بما في ذلك مشغل الحدث والكشف عن اكتب، والكشف عن وسيطة الأحداث، ومدة الأحداث واستخراج العلاقات الزمنية.معلومات الحدث، وخاصة المعرفة الزمنية الحدث، هي نوع من المعرفة الحس ية الشائعة التي تساعد الناس على فهم كيفية تطور القصص وتوفير تلميحات تنبؤية للأحداث المستقبلية.EventPlus كأول Sommenive Accleal Event Sommending يوفر خط الأنابيب أداة مريحة للمستخدمين للحصول بسرعة على التعليقات التوضيحية حول الأحداث ومعلوماتهم الزمنية لأي مستند قدم المستخدم.علاوة على ذلك، نعرض EventPlus يمكن تكييفها بسهولة مع مجالات أخرى (مثل المجال الطبي الحيوي).نجعل EventPlus متاحا للجمهور لتسهيل استخراج المعلومات المتعلقة بالحدث وتطبيقات المصب.
تعد صياغة صياغة Reprrase مهمة صعبة تعزز تحويل جملة مدخلية معقدة معينة إلى جمل متعددة أقصر معاداة معنى معادل. نهج إعادة كتابة هذا تصور أن الجمل الأقصر تستفيد من القراء البشري وتحسين مهام الخبراء اللامبرية التي تحضرها كخطوة مسبقة مسبقة. يقدم هذا العمل خط أنابيب كامل قادر على أداء طريقة تقسيم وإعادة الصياغة بطريقة تبادلة. لقد قمنا بتدريب نماذج عصبية التسلسلية من أجل اللغة الإنجليزية وتطبقها على التنبؤ بالتحولات باللغة الإنجليزية والأحكام البرتغالية البرازيلية بالاشتراك مع نمذجة لغة بيرت الملثمين. على عكس الأساليب التقليدية التي تطلب من النماذج التدريبية بالمواد التدريبية المكثفة، نقدم طريقة غير تافهة لبناء تلك الرسومات المعممة فقط عن طريق الطبقات النحوية (علامات نقاط البيع) وتكرار كل منها، مما يقلل من مقدار البيانات التدريبية اللازمة. أظهرت مساهمة خط الأنابيب هذا نتائج تنافسية تشجيع التوسع في الأسلوب لغات أخرى غير الإنجليزية.
تعتبر خلط التعليمات البرمجية ظاهرة خلط الكلمات والعبارات من لغتين أو أكثر في كلام واحد من الكلام والنص.نظرا للتنوع اللغوي العالي، يعرض خلط التعليمات البرمجية العديد من التحديات في تقييم مهام توليد اللغة الطبيعية القياسية (NLG).تعمل العديد من المقاييس الشعبية على نطاق واسع بشكل سيء بمهام NLG المختلطة من التعليمات البرمجية.لمعالجة هذا التحدي، نقدم حصة خط أنابيب التقييم المعتمدة بشكل كبير يحسن ارتباطا كبيرا بين مقاييس التقييم والأحكام البشرية على النص المزج العام الذي تم إنشاؤه.كحالة للاستخدام، نوضح أداء الفحص على جمل Hinglish التي تم إنشاؤها بواسطة الماكينات (خلط الكود باللغات الهندية والإنجليزية) من The Hinge Corpus.يمكننا تمديد استراتيجية التقييم المقترحة إلى أزواج لغة مختلطة من التعليمات البرمجية، ومهام NLG، ومقاييس التقييم مع الحد الأدنى من أي جهد.
في هذا التقرير الفني، وصفنا أن خط أنابيب ASR-MT المصنف الذي تم ضبطه على المهمة المشتركة IWSLT.نقوم بإزالة عينات الكلام الأقل فائدة عن طريق فحص WER مع نموذج ASR، وتدريب أحدث وحدة ASR القائمة على WAV2VEC ومقرها المحولات بناء على البيانات المرتبطة.بالإض افة إلى ذلك، نقوم بتخفيف Errata التي يمكن أن تتداخل مع عملية الترجمة الآلية واستخدامها لتدريب وحدة MT القائمة على المحولات.أخيرا، في مرحلة الاستدلال الفعلي، نستخدم نموذج اكتشاف حدود الجملة المدرب مع بيانات مقيدة لدمج مخرجات ASR بشكل صحيح في جمل كاملة.تتم معالجة الجمل المدمجة باستخدام جزء من الكلام.يتم تحقيق النتيجة النهائية من قبل وحدة MT المدربة.يعرض الأداء باستخدام مجموعة DEV Bleu 20.37، وهذا النموذج يسجل أداء Bleu 20.9 مع مجموعة الاختبار.
نعتمد وتقييم وتحسين خطاب خط أنابيب طبيعي من خطوتين (NLU) على خطاب (NLU) الذي يرصد تدريجيا على تباين إيداع اللغة الطبيعية غير المقيدة والخرائط إلى سلوكيات الروبوت القابلة للتنفيذ.يقوم خط الأنابيب أولا بإضافة تمثيل تمثيل المعنى التجريدي (AMR) لالتقاط ا لمحتوى المقترح للكلام بالكلام، وتحول ثانيا إلى هذا الحوار-عمرو، "مما يؤدي إلى زيادة AMR القياسية مع معلومات عن التوتر والجانب والعقار والكلمات.يتم تقييم العديد من الأساليب البديلة وتدريب مجموعات البيانات التدريبية لكلا الخطوتين والمكونات المقابلة لخط الأنابيب، بعضها يتفوق على الأصل الأصلي.نقوم بتوسيع مخطط التعليق التوضيحي للحوار - AMR لتغطية مجال التعليمات التعاوني المختلفة وتقييم على كلا النطاقات.مع القليل جدا من البيانات التدريبية، نحقق أداء واعد في المجال الجديد، مما يدل على قابلية هذا النهج.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا