ترغب بنشر مسار تعليمي؟ اضغط هنا

إزالة إزالة السموم النصية باستخدام النماذج العصبية الكبيرة المدربة مسبقا

Text Detoxification using Large Pre-trained Neural Models

466   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم طريقتان رواية غير منشأة لإزالة السمية في النص.تجمع أهميتنا الأولى بين الأفكار الحديثة: (1) إرشادات عملية التوليد مع نماذج اللغة الشرطية النمطية الصغيرة و (2) استخدام نماذج إعادة الصياغة لأداء نقل النمط.نحن نستخدم أداء أداء جيدا تسترشد نماذج لغة مدربة على الطراز للحفاظ على محتوى النص وإزالة السمية.تستخدم الطريقة الثانية لدينا بيرت لاستبدال الكلمات السامة مع مرادفاتها غير الهجومية.نحن نجعل الطريقة أكثر مرونة من خلال تمكين بيرت لتحل محل الرموز القناع مع عدد متغير من الكلمات.أخيرا، نقدم أول دراسة مقارنة واسعة النطاق لنماذج نقل النمط في مهمة إزالة السمية.نقارن نماذجنا بعدد من الطرق لنقل النمط.يتم تقييم النماذج بطريقة خالية من المرجع باستخدام مزيج من مقاييس نقل النمط غير المدقق.كلتا الطريقتين نقترح أن تسفر عن نتائج سوتا الجديدة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

عززت التطورات الأخيرة في توليد اللغة الطبيعية (NLG) الوسائط لصالح إعادة إدخال ترميز صريح من علاقات الخطاب في المدخلات إلى النماذج العصبية. في The Methodius Corpus، تمثيل معنى (MR) منظم هرمي ويشمل علاقات الخطاب. وفي الوقت نفسه، فقد تبين أن نماذج اللغة المدربة مسبقا مسبقا تشفير المعرفة اللغوية الغنية التي توفر موردا ممتازا ل NLG. بحكم توليف هذه الخطوط الأبحاث، نقوم بإجراء تجارب مكثفة بشأن فوائد استخدام النماذج المدربة مسبقا ومعلومات علاقة الخطاب في السيدة، مع التركيز على تحسين تماسك خطاب وتصحيحه. نعيد إعادة تصميم كوربوس المنهجية؛ ونحن أيضا بناء وجبة ثياب أخرى أخرى فيها السيدة غير هي منظم بشكل هرمي ولكنها مسطحة. نبلغ عن التجارب على إصدارات مختلفة من شركة Corga، التي تحقق عند، حيث تستفيد النماذج المدربة مسبقا من السيدة مع معلومات علاقة الخطاب فيها. نستنتج أن علاقات الخطاب تحسن بشكل كبير NLG عندما تكون البيانات محدودة.
تم حل معايير المنطق المنطقي إلى حد كبير عن طريق نماذج لغة ضبط دقيقة. الجانب السلبي هو أن الضبط الدقيق قد يتسبب في طرح نماذج إلى البيانات الخاصة بمهام المهام وبالتالي انسوا معرفتهم المكتسبة خلال التدريب المسبق. تعمل الأعمال الحديثة فقط على اقتراح تحدي ثات نموذجية خفيفة الوزن حيث قد تمتلك النماذج بالفعل معرفة مفيدة من الخبرة السابقة، لكن التحدي لا يزال في فهم الأجزاء وإلى أي مدى يجب أن يتم تنقيح النماذج بمهمة معينة. في هذه الورقة، نقوم بالتحقيق في نماذج تتعلم من مجموعات بيانات منطق المنطقية. نقيس تأثير ثلاث طرق تكييف مختلفة عن تعميم ودقة النماذج. تظهر تجاربنا مع نماذجين أن الضبط الدقيق يؤدي بشكل أفضل، من خلال تعلم كل من المحتوى والهيكل المهمة، ولكنه يعاني من التجمع المحدود والمحدود لإجابات جديدة. نلاحظ أن طرق التكيف البديلة مثل ضبط البادئة لها دقة قابلة للمقارنة، ولكن تعميم أفضل من الإجابات غير المرئية وهي أكثر قوة لانشقاقات الخصومة.
في الآونة الأخيرة، تؤدي نماذج اللغات المدربة مسبقا مؤخرا (على سبيل المثال، بيرت متعددة اللغات) إلى المهام المتقاطعة المصب هي نتائج واعدة.ومع ذلك، فإن عملية التوصيل الدقيقة تغيرت حتما معلمات النموذج المدرب مسبقا ويضعف قدرتها على اللغات، مما يؤدي إلى أ داء فرعي الأمثل.لتخفيف هذه المشكلة، نستفيد من التعلم المستمر للحفاظ على قدرة اللغة الأصلية المتبادلة النموذجية المدربة مسبقا عندما نتنزهها إلى مهام المصب.توضح النتيجة التجريبية أن أساليبنا الراقية الخاصة بنا يمكن أن تحافظ بشكل أفضل على القدرة المتبادلة النموذجية المدربة مسبقا في مهمة استرجاع الجملة.حقق طرقنا أيضا أداء أفضل من خطوط الأساس الأخرى ذات الصقل الرصيف على علامة العلامة بين العلامات بين الكلام الصفرية عبر اللغات ومهام التعرف على الكيان المسماة.
تحدث نماذج اللغات القائمة على المحولات الحديثة ثورة في NLP. ومع ذلك، كانت الدراسات الحالية في النمذجة اللغوية مع بيرت تقتصر في الغالب على المواد باللغة الإنجليزية ولا تدفع اهتماما كافيا لمعرفة اللغة الضمنية باللغة، مثل الأدوار الدلالية والتفترض واللب ن، والتي يمكن الحصول عليها من قبل النموذج أثناء التدريب. وبالتالي، فإن الهدف من هذه الدراسة هو فحص السلوك لنموذج الموديل في مهمة النمذجة اللغوية الملثمين ولتقديم التفسير اللغوي إلى الآثار والأخطاء غير المتوقعة التي ينتجها النموذج. لهذا الغرض، استخدمنا مجموعة بيانات جديدة باللغة الروسية بناء على النصوص التعليمية للمتعلمين باللغة الروسية والمصفحة بمساعدة الشقوق الوطنية للغة الروسية. من حيث مقاييس الجودة (نسبة الكلمات، ذات الصلة دلالة الكلمة المستهدفة)، يتم التعرف على بيرت متعددة اللغات كأفضل نموذج. بشكل عام، كل طراز لديه نقاط قوة متميزة فيما يتعلق بظاهرة لغوية معينة. هذه الملاحظات لها آثار ذات مغزى على البحث في اللغويات المطبقة والبيتاجوجية، والمساهمة في تطوير نظام الحوار، وجعل التمارين التلقائية، وتجول النص، ويمكن أن يحتمل أن يحسن جودة التقنيات اللغوية الحالية
تستفيد نماذج اللغة الكبيرة من التدريب بكمية كبيرة من النص غير المسبق، مما يمنحهم قدرات توليد بطلاقة ومتنوعة بشكل متزايد.ومع ذلك، فإن استخدام هذه النماذج لتوليد النص الذي يأخذ في الاعتبار السمات المستهدفة، مثل قطبية المعالم أو مواضيع محددة، لا يزال يم ثل تحديا.نقترح طريقة بسيطة ومرنة للسيطرة على جيل النص عن طريق محاذاة تمثيلات سمة Deventangled.على النقيض من الجهود الأخيرة التي يبذلها الجهود المبينة في تدريب تمييزي على توزيع مستوى الرمز المميز لسمة، نستخدم نفس البيانات لتعلم وظيفة المحاذاة لتوجيه نموذج اللغة غير المستخدمة مسبقا وغير الخاضعة للرقابة لإنشاء نصوص مع سمة الهدف دون تغييرالمعلمات نموذج اللغة الأصلية.نقوم بتقييم طريقتنا على توليد المعنويات والموضوع، وإظهار مكاسب أداء كبيرة على الطرق السابقة مع الاحتفاظ بالطلاقة والتنوع.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا