ترغب بنشر مسار تعليمي؟ اضغط هنا

Spanalign: تسلسل تسلسل فعال عرض توضيحية في البيانات المترجمة المطبقة على تعدين الرأي عبر اللغات

SpanAlign: Efficient Sequence Tagging Annotation Projection into Translated Data applied to Cross-Lingual Opinion Mining

345   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

بعد أداء متزايد لأنظمة الترجمة الآلية العصبية، تتم الآن دراسة نموذج استخدام البيانات المترجمة تلقائيا للتكيف عبر اللغات في العديد من المجالات المعمارية.لا تزال القدرة على شرح المشروع بدقة، ومع ذلك، فإن هناك مشكلة في مهام علامات التسلسل حيث يجب توقع التوضيح بالمسافة الصحيحة.بالإضافة إلى ذلك، عندما تعني المهمة النص الناتج عن المستخدم صاخبة، يمكن أن تتأثر جودة الترجمة والترجمة التوضيحية.في هذه الورقة نقترحنا معالجة تسلسل تسلسل متعدد اللغات مع طريقة محاذاة سبين جديدة وتطبيقها على استخراج هدف الرأي من مراجعات العملاء.نظرا لأن توفير الاستدلال المناسبة، فإن البيانات المترجمة مع الإسقاط التلقائي التلقائي من المستوى التلقائي يمكن أن تسفر عن تحسينات التكيف عبر اللغات مقارنة بنقل الرصاص الصفر، وتعزيز البيانات مقارنة بناس خطي متعدد اللغات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تحتوي المهام القياسية الحالية لمعالجة اللغة الطبيعية على نص مختلف عن النص المستخدم في اليومي غير الرسمي إلى الاتصال الرقمي اليومي. أدى هذا التناقض إلى تدهور الأداء الشديد لنماذج NLP الحديثة عندما يتم ضبطها بشكل جيد على بيانات العالم الحقيقي. طريقة وا حدة لحل هذه المشكلة هي من خلال التطبيع المعجمي، وهي عملية تحويل النص غير القياسي، وعادة ما تكون من وسائل التواصل الاجتماعي، إلى نموذج أكثر موحدة. في هذا العمل، نقترح نموذج تسلسل تسلسل على مستوى الجملة بناء على MBART، مما يؤدي إلى إطارات المشكلة بمثابة مشكلة ترجمة آلية. نظرا لأن النص الصاخب يمثل مشكلة منتشرة عبر اللغات، وليس الإنجليزية فقط، فإننا نستفيد من التدريب المسبق متعدد اللغات ل MBART لضبطه إلى بياناتنا. في حين أن الأساليب الحالية تعمل بشكل رئيسي على مستوى الكلمة أو الكلمات الفرعية، فإننا نجادل بأن هذا النهج واضح واضح من وجهة نظر تقنية ويبني على شبكات المحولات الموجودة مسبقا. تظهر نتائجنا أنه في حين أن مستوى الكلمة، جوهري، فإن تقييم الأداء هو وراء الطرق الأخرى، فإن نموذجنا يحسن الأداء على مهام خارجية ومصمبة من خلال التطبيع مقارنة بالنماذج التي تعمل على نص وسائل التواصل الاجتماعي الخام وغير المجهزة.
استخراج الرأي المستهدف واستخراج الأجل رأي هما مهمتان أساسيتان في تحليل المعرفات القائم على الجانب (ABASA). تركز العديد من الأعمال الأخيرة على ABSA على استخراج كلمات الرأي الموجهة نحو الهدف (TOWE) (Towe)، والتي تهدف إلى استخراج كلمات الرأي المقابلة لل حصول على هدف رأي معين. يمكن تطبيق Towe أكثر استخداما على استخراج زوج الرأي في الجانب (AOPE) الذي يهدف إلى استخراج الجوانب (أي أهداف الرأي) وشروط الرأي في أزواج. في هذه الورقة، نقترح تسلسل تسلسل محدد بالهدف مع اهتمام الذات متعدد الرأس (TSMSA) ل Towe، حيث يمكن دمج أي نموذج لغة مدرب مسبقا مع اهتمام ذاتي متعدد الرأس بشكل مريح. كدراسة حالة، نقوم أيضا بتطوير هيكل متعدد المهام يدعى MT-TSMSA من أجل الجمع بين TSMSA لدينا مع وحدة استخراج الجانب والرأي. تشير النتائج التجريبية إلى أن TSMSA تتفوق على الأساليب القياسية على Towe بشكل ملحوظ؛ وفي الوقت نفسه، فإن أداء MT-TSMSA متشابه أو حتى أفضل من نماذج خط الأساس الحديثة.
تصف تصفية البيانات للترجمة الآلية (MT) مهمة تحديد مجموعة فرعية من Corpus المعطى، ربما صاخبة مع الهدف لزيادة أداء نظام MT الذي تم تدريبه على هذه البيانات المحددة. على مر السنين، تم اقتراح العديد من نهج الترشيح المختلفة. ومع ذلك، فإن تعريفات المهام الم ختلفة وظروف البيانات تجعل من الصعب رسم مقارنة ذات مغزى. في العمل الحالي، نهدف إلى نهج أكثر منهجية للمهمة في متناول اليد. أولا، نقوم بتحليل أداء تحديد اللغة، وهي أداة تستخدم عادة لتصفية البيانات في مجتمع MT وتحديد نقاط الضعف المحددة. بناء على النتائج التي توصلنا إليها، نقترح بعد ذلك العديد من أساليب رواية لتصفية البيانات، استنادا إلى Argeddings Word عبر اللغات. قارنا مناهجنا إلى إحدى الطرق الفائزة من المهمة المشتركة ل WMT 2018 على تصفية Corpus الموازية على ثلاث مهام حقيقية عالية الموارد MT. نجد الطريقة المذكورة المذكورة، والتي كانت تؤدي قوية للغاية في المهمة المشتركة WMT، لا تؤدي بشكل جيد خلال ظروف مهمتنا الأكثر واقعية. بينما نجد أن نهجنا تخرج في الجزء العلوي من المهام الثلاثة، فإن المتغيرات المختلفة تؤدي أفضل مهام مختلفة. تشير تجارب أخرى على المهمة المشتركة لعاملة WMT 2020 للتصفية الشديدة الموازية أن أساليبنا تحقق نتائج مماثلة لأقوى التقديمات لهذه الحملة.
تهدف مهمة إعادة كتابة الحوار إلى إعادة بناء أحدث كلام الحوار عن طريق نسخ المحتوى المفقود من سياق الحوار.حتى الآن، تعاني النماذج الحالية لهذه المهمة من مشكلة المتانة، أي أن يؤدي العروض بشكل كبير عند الاختبار على مجموعة مختلفة.نحن نتطلع إلى هذه القضية المتناقصة من خلال اقتراح نموذج يستند إلى تسلسل الرواية بحيث يتم تقليل مساحة البحث بشكل كبير، ومع ذلك، فإن جوهر هذه المهمة لا يزال مغطى جيدا.كمسألة مشتركة من طرازات العلامات في توليد النص، قد تفتقر مخرجات النموذج إلى الطلاقة.لتخفيف هذه المسألة، نفنق إشارة الخسارة من بلو أو GPT-2 بموجب إطار تعزيز.تظهر التجارب تحسينات هائلة في النموذج لدينا عبر الأنظمة الحالية التي من بين الفنون عند النقل إلى مجموعة بيانات أخرى.
أدت مؤخرا مؤخرا الرسوم البيانية تم التنبؤ بمعنى التجريدي المعني (AMR) باستخدام نماذج محولات تسلسل التسلسل المدربة مسبقا إلى تحسينات كبيرة على معايير تحليل AMR. هذه المحللون بسيطة وتجنب النمذجة الصريحة للهيكل ولكن تفتقر إلى خصائص مرغوبة مثل ضمانات الر سوم البيانية بشكل جيد أو محاذاة الرسم الرسم البياني المدمج. في هذا العمل، نستكشف دمج نماذج لغة التسلسل العامة المدربة مسبقا ونهج بناء على الهيكل. نغادر من نظام انتقال مقره مؤشر واقتراح مجموعة انتقالية مبسطة، مصممة لتحسين استغلال نماذج اللغة المدربة مسبقا للضبط الناعم الهيكل. نحن نستكشف أيضا نمذجة ولاية المحللين داخل بنية فك التشفير المدربة مسبقا واستراتيجيات المفردات المختلفة لنفس الغرض. نحن نقدم مقارنة مفصلة مع التقدم المحرز الأخير في تحليل عمرو وإظهار أن المحلل المحلل المقترح يحتفظ بالخصائص المرغوبة للمناهج السابقة القائمة على الانتقال، بينما تكون أكثر بساطة والوصول إلى حالة التحليل الجديدة للفن AMR 2.0، دون الحاجة إلى إعادة الرسم البياني الفصداء.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا