ترغب بنشر مسار تعليمي؟ اضغط هنا

تطبيع تسلسل إلى تسلسل مع محولات متعددة اللغات

Sequence-to-Sequence Lexical Normalization with Multilingual Transformers

260   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تحتوي المهام القياسية الحالية لمعالجة اللغة الطبيعية على نص مختلف عن النص المستخدم في اليومي غير الرسمي إلى الاتصال الرقمي اليومي. أدى هذا التناقض إلى تدهور الأداء الشديد لنماذج NLP الحديثة عندما يتم ضبطها بشكل جيد على بيانات العالم الحقيقي. طريقة واحدة لحل هذه المشكلة هي من خلال التطبيع المعجمي، وهي عملية تحويل النص غير القياسي، وعادة ما تكون من وسائل التواصل الاجتماعي، إلى نموذج أكثر موحدة. في هذا العمل، نقترح نموذج تسلسل تسلسل على مستوى الجملة بناء على MBART، مما يؤدي إلى إطارات المشكلة بمثابة مشكلة ترجمة آلية. نظرا لأن النص الصاخب يمثل مشكلة منتشرة عبر اللغات، وليس الإنجليزية فقط، فإننا نستفيد من التدريب المسبق متعدد اللغات ل MBART لضبطه إلى بياناتنا. في حين أن الأساليب الحالية تعمل بشكل رئيسي على مستوى الكلمة أو الكلمات الفرعية، فإننا نجادل بأن هذا النهج واضح واضح من وجهة نظر تقنية ويبني على شبكات المحولات الموجودة مسبقا. تظهر نتائجنا أنه في حين أن مستوى الكلمة، جوهري، فإن تقييم الأداء هو وراء الطرق الأخرى، فإن نموذجنا يحسن الأداء على مهام خارجية ومصمبة من خلال التطبيع مقارنة بالنماذج التي تعمل على نص وسائل التواصل الاجتماعي الخام وغير المجهزة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أدت مؤخرا مؤخرا الرسوم البيانية تم التنبؤ بمعنى التجريدي المعني (AMR) باستخدام نماذج محولات تسلسل التسلسل المدربة مسبقا إلى تحسينات كبيرة على معايير تحليل AMR. هذه المحللون بسيطة وتجنب النمذجة الصريحة للهيكل ولكن تفتقر إلى خصائص مرغوبة مثل ضمانات الر سوم البيانية بشكل جيد أو محاذاة الرسم الرسم البياني المدمج. في هذا العمل، نستكشف دمج نماذج لغة التسلسل العامة المدربة مسبقا ونهج بناء على الهيكل. نغادر من نظام انتقال مقره مؤشر واقتراح مجموعة انتقالية مبسطة، مصممة لتحسين استغلال نماذج اللغة المدربة مسبقا للضبط الناعم الهيكل. نحن نستكشف أيضا نمذجة ولاية المحللين داخل بنية فك التشفير المدربة مسبقا واستراتيجيات المفردات المختلفة لنفس الغرض. نحن نقدم مقارنة مفصلة مع التقدم المحرز الأخير في تحليل عمرو وإظهار أن المحلل المحلل المقترح يحتفظ بالخصائص المرغوبة للمناهج السابقة القائمة على الانتقال، بينما تكون أكثر بساطة والوصول إلى حالة التحليل الجديدة للفن AMR 2.0، دون الحاجة إلى إعادة الرسم البياني الفصداء.
تطبيقات اللغة الطبيعية المعقدة مثل ترجمة الكلام أو الترجمة المحورية تعتمد تقليديا على النماذج المتتالية. ومع ذلك، من المعروف أن النماذج المتتالية عرضة لتوسيع الأخطاء ومشاكل التناقض النموذجي. علاوة على ذلك، لا توجد إمكانية لاستخدام بيانات التدريب المن اسبة في النظم المتتالية التقليدية، مما يعني أن البيانات التدريبية الأكثر ملاءمة للمهمة لا يمكن استخدامها. اقترحت الدراسات الفقيرة عدة طرق تدريبية للتدريب المنتهي المتكاملة للتغلب عليها مشاكل، ومع ذلك، فإنهم يعتمدون في الغالب على بيانات ثلاثية الاتجاه (الاصطناعية أو الطبيعية). نقترح نموذجا متماثلا يعتمد على المحول غير التلقائي الذي يتيح التدريب المنتهي دون الحاجة إلى تمثيل واضح وسيط. تتجنب هذه الهندسة المعمارية الجديدة (I) القرارات المبكرة غير الضرورية التي يمكن أن تسبب أخطاء يتم نشرها بعد ذلك في جميع النماذج المتتالية (II) باستخدام بيانات التدريب المناسبة مباشرة. نحن نقوم بإجراء تقييم على مهام ترجمة من الآلة المحورية، وهي الفرنسية → الألمانية والألمانية → جمهورية التشيك. تظهر نتائجنا التجريبية أن الهندسة المعمارية المقترحة تعطي تحسنا أكثر من 2 بلو للفرنسية → الألمانية على خط الأساس المتتالي.
تعرف مهمة تحويل نص غير قياسي إلى نص قياسي وقابل للقراءة باسم التطبيع المعجمي. تتطلب جميع تطبيقات معالجة اللغة الطبيعية تقريبا (NLP) البيانات النصية في النموذج الطبيعي لإنشاء نماذج محددة ذات جودة عالية. وبالتالي، فقد ثبت التطبيع المعجمي لتحسين أداء ال عديد من مهام معالجة اللغة الطبيعية على وسائل التواصل الاجتماعي. تهدف هذه الدراسة إلى حل مشكلة التطبيع المعجمي من خلال صياغة مهمة التطبيع المعجمية مشكلة وضع علامة تسلسل. تقترح هذه الورقة نهج وضع علامة تسلسل لحل مشكلة التطبيع المعجمي في تركيبة مع تقنية محاذاة الكلمة. الهدف هو استخدام نموذج واحد لتطبيع النص باللغات المختلفة وهي الكرواتية والدنماركية والهولندية والإنجليزية والإندونيسية والإنجليزية والألمانية والإيطالية والصربية والسلوفينية والإسبانية والتركية والتركية والألمانية والألمانية. هذه مهمة مشتركة في عام 2021 ورشة العمل السابعة حول النص الناتج عن المستخدم الصاخب (W-NUT) "" من المتوقع أن يقوم المشاركون بإنشاء نظام / نموذج يقوم بتنفيذ التطبيع المعجمي، وهو ترجمة النصوص غير القانونية في تعادلهم الكنسي، الذين يشتملون على بيانات من أكثر من 12 لغة. يحقق النموذج المتعدد اللغوي المقترح نتيجة ERS الإجمالية من 43.75 بشأن التقييم الجوهري ونتيجة إجمالي درجة المرفقات (LAS) من 63.12 على التقييم الخارجي. علاوة على ذلك، تحقق الطريقة المقترحة أعلى نقاط معدل تخفيض الأخطاء (ERR) من 61.33 من بين المشاركين في المهمة المشتركة. تسلط هذه الدراسة الضوء على آثار استخدام بيانات تدريب إضافية للحصول على نتائج أفضل وكذلك استخدام نموذج لغة مدرب مسبقا تدرب على لغات متعددة بدلا من لغة واحدة فقط.
تصنيف العاطفة متعددة العلامات هو مهمة مهمة في NLP وهي ضرورية للعديد من التطبيقات.في هذا العمل، نقترح نهج التسلسل إلى العاطفة (SEQ2EMO)، الذي نماذج ضمنيا علاقات العاطفة في وحدة فك ترميز ثنائية الاتجاه.تظهر التجارب في مجموعات بيانات Semeval'18 و Goemot ions أن نهجنا تتفوق على الأساليب الحديثة (دون استخدام البيانات الخارجية).على وجه الخصوص، يتفوق SEQ2EMO على نهج السلسلة ذات الصلة الثنائية (BR) وسلسلة التصنيف (CC) في بيئة عادلة.
نهج الترجمة الآلية غير التلقائية (NAT) تتيح الجيل السريع عن طريق الاستفادة من العمليات الاسرد الاشتراكية.عنق الزجاجة المتبقية في هذه النماذج هي طبقات فك التشفير الخاصة بهم؛لسوء الحظ على عكس النماذج التلقائية (Kasai et al.، 2020)، إزالة طبقات فك ترميز من نماذج NAT تتحلل بشكل كبير الدقة.يقترح هذا العمل نموذجا تسلسل إلى شعرية يحل محل وحدة فك التشفير مع شعرية البحث.تقوم نهجنا أولا بإنشاء شعرية مرشح باستخدام عمليات البحث الفعالة، ويولد درجات شعرية من تشفير عميق، وأخيرا يجد أفضل المسار باستخدام البرمجة الديناميكية.تظهر التجارب على ثلاث مجموعات بيانات الترجمة الآلية أن طريقتنا أسرع من نهج الجيل غير التلقائي الماضي غير الدقيق، وأكثر دقة من الحد السامي من عدد طبقات فك التشفير.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا