ترغب بنشر مسار تعليمي؟ اضغط هنا

التدريب المتكامل لنماذج تسلسل إلى تسلسل باستخدام محول غير تلقائي

Integrated Training for Sequence-to-Sequence Models Using Non-Autoregressive Transformer

302   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تطبيقات اللغة الطبيعية المعقدة مثل ترجمة الكلام أو الترجمة المحورية تعتمد تقليديا على النماذج المتتالية. ومع ذلك، من المعروف أن النماذج المتتالية عرضة لتوسيع الأخطاء ومشاكل التناقض النموذجي. علاوة على ذلك، لا توجد إمكانية لاستخدام بيانات التدريب المناسبة في النظم المتتالية التقليدية، مما يعني أن البيانات التدريبية الأكثر ملاءمة للمهمة لا يمكن استخدامها. اقترحت الدراسات الفقيرة عدة طرق تدريبية للتدريب المنتهي المتكاملة للتغلب عليها مشاكل، ومع ذلك، فإنهم يعتمدون في الغالب على بيانات ثلاثية الاتجاه (الاصطناعية أو الطبيعية). نقترح نموذجا متماثلا يعتمد على المحول غير التلقائي الذي يتيح التدريب المنتهي دون الحاجة إلى تمثيل واضح وسيط. تتجنب هذه الهندسة المعمارية الجديدة (I) القرارات المبكرة غير الضرورية التي يمكن أن تسبب أخطاء يتم نشرها بعد ذلك في جميع النماذج المتتالية (II) باستخدام بيانات التدريب المناسبة مباشرة. نحن نقوم بإجراء تقييم على مهام ترجمة من الآلة المحورية، وهي الفرنسية → الألمانية والألمانية → جمهورية التشيك. تظهر نتائجنا التجريبية أن الهندسة المعمارية المقترحة تعطي تحسنا أكثر من 2 بلو للفرنسية → الألمانية على خط الأساس المتتالي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نهج الترجمة الآلية غير التلقائية (NAT) تتيح الجيل السريع عن طريق الاستفادة من العمليات الاسرد الاشتراكية.عنق الزجاجة المتبقية في هذه النماذج هي طبقات فك التشفير الخاصة بهم؛لسوء الحظ على عكس النماذج التلقائية (Kasai et al.، 2020)، إزالة طبقات فك ترميز من نماذج NAT تتحلل بشكل كبير الدقة.يقترح هذا العمل نموذجا تسلسل إلى شعرية يحل محل وحدة فك التشفير مع شعرية البحث.تقوم نهجنا أولا بإنشاء شعرية مرشح باستخدام عمليات البحث الفعالة، ويولد درجات شعرية من تشفير عميق، وأخيرا يجد أفضل المسار باستخدام البرمجة الديناميكية.تظهر التجارب على ثلاث مجموعات بيانات الترجمة الآلية أن طريقتنا أسرع من نهج الجيل غير التلقائي الماضي غير الدقيق، وأكثر دقة من الحد السامي من عدد طبقات فك التشفير.
تحتوي المهام القياسية الحالية لمعالجة اللغة الطبيعية على نص مختلف عن النص المستخدم في اليومي غير الرسمي إلى الاتصال الرقمي اليومي. أدى هذا التناقض إلى تدهور الأداء الشديد لنماذج NLP الحديثة عندما يتم ضبطها بشكل جيد على بيانات العالم الحقيقي. طريقة وا حدة لحل هذه المشكلة هي من خلال التطبيع المعجمي، وهي عملية تحويل النص غير القياسي، وعادة ما تكون من وسائل التواصل الاجتماعي، إلى نموذج أكثر موحدة. في هذا العمل، نقترح نموذج تسلسل تسلسل على مستوى الجملة بناء على MBART، مما يؤدي إلى إطارات المشكلة بمثابة مشكلة ترجمة آلية. نظرا لأن النص الصاخب يمثل مشكلة منتشرة عبر اللغات، وليس الإنجليزية فقط، فإننا نستفيد من التدريب المسبق متعدد اللغات ل MBART لضبطه إلى بياناتنا. في حين أن الأساليب الحالية تعمل بشكل رئيسي على مستوى الكلمة أو الكلمات الفرعية، فإننا نجادل بأن هذا النهج واضح واضح من وجهة نظر تقنية ويبني على شبكات المحولات الموجودة مسبقا. تظهر نتائجنا أنه في حين أن مستوى الكلمة، جوهري، فإن تقييم الأداء هو وراء الطرق الأخرى، فإن نموذجنا يحسن الأداء على مهام خارجية ومصمبة من خلال التطبيع مقارنة بالنماذج التي تعمل على نص وسائل التواصل الاجتماعي الخام وغير المجهزة.
أدت مؤخرا مؤخرا الرسوم البيانية تم التنبؤ بمعنى التجريدي المعني (AMR) باستخدام نماذج محولات تسلسل التسلسل المدربة مسبقا إلى تحسينات كبيرة على معايير تحليل AMR. هذه المحللون بسيطة وتجنب النمذجة الصريحة للهيكل ولكن تفتقر إلى خصائص مرغوبة مثل ضمانات الر سوم البيانية بشكل جيد أو محاذاة الرسم الرسم البياني المدمج. في هذا العمل، نستكشف دمج نماذج لغة التسلسل العامة المدربة مسبقا ونهج بناء على الهيكل. نغادر من نظام انتقال مقره مؤشر واقتراح مجموعة انتقالية مبسطة، مصممة لتحسين استغلال نماذج اللغة المدربة مسبقا للضبط الناعم الهيكل. نحن نستكشف أيضا نمذجة ولاية المحللين داخل بنية فك التشفير المدربة مسبقا واستراتيجيات المفردات المختلفة لنفس الغرض. نحن نقدم مقارنة مفصلة مع التقدم المحرز الأخير في تحليل عمرو وإظهار أن المحلل المحلل المقترح يحتفظ بالخصائص المرغوبة للمناهج السابقة القائمة على الانتقال، بينما تكون أكثر بساطة والوصول إلى حالة التحليل الجديدة للفن AMR 2.0، دون الحاجة إلى إعادة الرسم البياني الفصداء.
أصبحت الرسوم البيانية المستمدة وتعديل الرسوم البيانية من نص اللغة الطبيعية تقنية أساس متعدد الاستخدامات لاستخراج المعلومات مع التطبيقات في العديد من المواد الفرعية، مثل بناء الرسم البياني الدلالي أو المعرفة الرسم البياني. استخدم العمل الأخير هذه التق نية لتعديل الرسوم البيانية المشهد (هو et al. 2020)، من خلال الترميز أولا الرسم البياني الأصلي ثم إنشاء واحد المعدلة بناء على هذا الترميز. في هذا العمل، نوضح أنه يمكننا زيادة الأداء بشكل كبير في هذه المشكلة من خلال صياغة ذلك كملحق رسم بياني بدلا من جيل الرسم البياني. نقترح النموذج الأول لمشكلة امتداد الرسم البياني الناتج استنادا إلى وضع العلامات التسلسل التلقائي. في مجموعات بيانات تعديل الرسم البياني المشهد، يؤدي هذا الصيانة إلى تحسينات في الدقة على أحدث من بين الفنين بين 13 نقطة مئوية 24 نقطة. علاوة على ذلك، نقدم بيانات جديدة مجموعة من المجال الطبي الطبيعي والتي لديها تقلب لغوي أكبر بكثير ورسم رسوم بيانية أكثر تعقيدا من مجموعات بيانات تعديل الرسم البياني المشهد. بالنسبة إلى مجموعة البيانات هذه، فشلت حالة الفن في التعميم، في حين أن طرازنا يمكن أن ينتج تنبؤات ذات مغزى.
نحن نبحث كيف يمكن تعديل محولات مستوى الجملة في وضع علامات تسلسل فعالة على مستوى الرمز المميز دون أي إشراف مباشر.لا تؤدي الأساليب الموجودة إلى وضع العلامات على التسلسل الصفرية جيدا عند تطبيقها على الهندسة القائمة على المحولات.نظرا لأن المحولات تحتوي ع لى طبقات متعددة من اهتمام ذاتي متعدد الأطراف، فإن المعلومات الواردة في الجملة التي يتم توزيعها بين العديد من الرموز، مما يؤثر سلبا على أداء مستوى الرمز المميز من الصفر.نجد أن وحدة انتباه ناعمة تشجع صراحة على حدة الأوزان الاهتمام يمكن أن تتفوق بشكل كبير على الأساليب الحالية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا