ترغب بنشر مسار تعليمي؟ اضغط هنا

تصحيح النصوص الناتجة عن المحولات باستخدام ميزات الخطاب وتعدين الويب

Correcting Texts Generated by Transformers using Discourse Features and Web Mining

293   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يمكن أن تولد الأساليب الحديثة القائمة على المحولات إلى NLG مثل GPT-2 إنشاء نصوص أصلية متماسكة بشكل ملائم.ومع ذلك، فإن هذه النصوص التي تم إنشاؤها لها عيوب خطيرة: خطاب عالمي يتعارض مع الجمل من حيث قيم الكيان.نحن نتناول كل من هذه العيوب: أنها مستقلة ولكن يمكن دمجها لتوليد النصوص الأصلية التي ستكون متسقة وصادقة.تقدم هذه الورقة نهجا لتقدير جودة هيكل الخطاب.تؤكد النتائج التجريبية أن هيكل الخطاب للنصوص التي تم إنشاؤها حاليا غير دقيق.نقترح اتجاهات البحث لتصحيحه باستخدام ميزات الخطاب أثناء إجراء ضبط الدقيقة.النهج المقترح عالمي ويمكن تطبيقه على لغات مختلفة.بصرف النظر عن ذلك، نقترح طريقة لتصحيح قيم الكيان الخاطئة استنادا إلى تعدين الويب ومحاذاة النص.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

وصف نهجنا لمهمة Semeval-2021 6 على اكتشاف تقنيات الإقناع في محتوى متعدد الوسائط (الميمات).يجمع نظامنا بين النماذج المتعددة مسبقا (مقطع) والصفوف المصنفة.أيضا، نقترح إثراء البيانات من خلال تقنية تكبير البيانات.يحقق التقديم لدينا رتبة 8/16 من حيث F1-Micro و 9/16 مع F1-Macro في مجموعة الاختبار.
هدفت هذه الدراسة إلى استقصاء الخصائص البلاغية الرئيسة في خطاب الصحافة العربية. و لذلك اِختُبِرِت مقتطفات من صحيفتين أردنيتين من الصحف المشهورة في الأردن و حلَِّلت هذه النصوص و عولِجتْ. تبين نتائج هذه الدراسة أن إحدى الخصائص لهذا النوع من الخطاب هو التكرار أي تكرار المفردة اللغوية نفسها. و تظهر الدراسة أيضا خاصة أخرى و هي الاستخدام الواضح للعبارات التقييمية من أجل دعم وجهة نظر الكاتب. فضلاً عن ذلك تبين نتائج هذه الدراسة أن الخطاب الصحفي في العربية يوضح العلاقات القائمة بين أجزاء الجمل، و خصوصاً علاقة الأجزاء التابعة بالعبارة الرئيسية، و أن أدوات الخطاب الصحفي بالعربية تستخدم لتوضيح علاقات التباين في المعنى بين الجمل الخبرية في هذا النوع من الخطاب.
من المعروف أن حساسية النماذج العميقة العصبية لضوضاء الإدخال مشكلة صعبة.في NLP، يتدهور أداء النموذج غالبا مع الضوضاء التي تحدث بشكل طبيعي، مثل الأخطاء الإملائية.لتخفيف هذه المشكلة، قد تستفيد النماذج البيانات الوكيل بشكل مصطنع.ومع ذلك، تم تحديد كمية ون وع الضوضاء التي تم إنشاؤها حتى الآن بشكل تعسفي.لذلك نقترح نموذج الأخطاء الإحصائية من كورسا - تصحيح الأخطاء النحوية.نقدم تقييم شامل للعديد من متواك أنظمة NLP الحديثة لغات متعددة، مع المهام بما في ذلك التحليل المورفو النحوي، التعرف على الكيان المسمى، الترجمة الآلية العصبية، مجموعة فرعية من مرجع الغراء والفهم القراءة.نحن نقارن أيضا مناهضين لمعالجة انخفاض الأداء: أ) تدريب نماذج NLP مع البيانات الوكيل التي تم إنشاؤها بواسطة إطار عملائنا؛و ب) تقليل ضوضاء الإدخال بالنظام الخارجي لتصحيح اللغة الطبيعية.يتم إصدار الرمز في https://github.com/ufal/kazitext.
تصف هذه الورقة نهجنا (IITH) لمهمة Semeval-2021 5: hahackathon: الكشف عن الفكاهة والجريمة.تركز نتائجنا على هدفين رئيسيين: (1) تأثير الاحتجاج في تكيف المهمة على أداء النماذج القائمة على المحولات (II) كيف يتميز ميزات المعجمية والمؤثرية في تحديد الفكاهة والجريمة.في هذه الورقة، نقدم وصفا مفصلا لنهجنا مع المقارنة المذكورة أعلاه.
ازدادت أهمية خدمات الويب Web Services بعد ظهور الحوسبة السحابية Cloud Computing و انتشار الحوسبة خدمية التوجه Service Oriented Computing ( SOC ) التي غيرت طريقة تطوير البرمجيات. بسبب التطور الكبير الحاصل في هذا المجال أصبح من الصعب على المستخدمين ال قيام بتجميع خدمات الويب يدوياً. يعرض البحث نظاماً مقترحاً للتجميع الآلي لخدمات الويب بالاستفادة من الدلالات المرتبطة به، تطلب التجميع الآلي التعامل مع اكتشاف خدمات الويب، و تجميع الخدمات التي تم اكتشافها. بدايةً تم اقتراح طريقة آلية لاكتشاف خدمات الويب بالاعتماد على الانطولوجيا، حيث عُرفت هرمية للمفاهيم المرتبطة بالمجال ضمن ملف انطولوجيا المجال، ثم استخدمت في توصيف دلالات واجهات الخدمات (الدخل و الخرج) و حساب درجة التشابه فيها بينها، كما عُرفت انطولوجيا تُمثل هرمية التصنيف تحوي مفاهيم مجالات مختلفة، من أجل حل مسألة عدم التجانس و تقليل عدد الخدمات المكتشفة عن طريق حصرها ضمن مجال الطلب نفسه. كما اقتُرحت خوارزمية لتجميع خدمات الويب آلياً، و استُخدمت كلفة تنفيذ الخدمة كمعيار غير وظيفي يعبر عن جودة الخدمات التي سيتم تجميعها، من أجل الحصول على حل أمثلي يرضي المستخدم. كذلك تم العمل على تقليل زمن التجميع عن طريق تحميل ملفات الانطولوجيا عند أول طلب فقط. تم اختبار النظام من أجل التحقق من دقة النتائج و فعالية الأداء و ذلك باستخدام معايير الحساسية Recall و الدقة Precision و F-measure إضافة إلى زمن التجميع.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا