ترغب بنشر مسار تعليمي؟ اضغط هنا

غالبا ما يستخدم البشر استخدام اللغة التصويرية في التواصل، بما في ذلك أثناء التفاعلات مع أنظمة الحوار. وبالتالي، من المهم أن تكون أنظمة الحوار في العالم الحقيقي لتتمكن من التعامل مع اللغة التصويرية الشعبية تشبه الاستعارة والاشتراك. في هذا العمل، نقوم بتحليل أداء نماذج الحوار الموجودة في المواقف التي يعرضها سياق مربع حوار المدخلات استخدام اللغة التصويرية. نلاحظ فجوات كبيرة في التعامل مع اللغة التصويرية عند تقييم النماذج في مجموعات بيانات حوار المجال المفتوحة. عند مواجهة سياقات الحوار تتكون من لغة مجازية، تظهر بعض النماذج قطرات كبيرة جدا في الأداء مقارنة بالسياقات دون لغة مجازية. نحن نشجع البحث في المستقبل في نمذجة الحوار إلى التحليل بشكل منفصل وتقرير النتائج على اللغة المجازية من أجل تحسين قدرات النماذج بشكل أفضل من استخدام العالم الحقيقي. أخيرا، نقترح حلول خفيفة الوزن لمساعدة النماذج الحالية على أن تصبح النماذج الحالية أكثر قوة في اللغة التصويرية ببساطة عن طريق استخدام مورد خارجي لترجمة اللغة التصويرية إلى النماذج الحرفية (غير المجازة) مع الحفاظ على معنى أكبر قدر ممكن من الأصفار.
تم تطبيق نماذج التسلسل إلى التسلسل على مجموعة واسعة من مهام NLP، ولكن كيفية استخدامها بشكل صحيح لتتبع حالة الحوار بشكل منهجي. في هذه الورقة، ندرس هذه المشكلة من وجهات نظر أهداف ما قبل التدريب وكذلك تنسيقات تمثيلات السياق. نوضح أن اختيار الهدف ما قبل التدريب يجعل فرقا كبيرا لجودة تتبع الدولة. على وجه الخصوص، نجد أن التنبؤ الأمان المقنع هو أكثر فعالية من نمذجة اللغة التراجع التلقائي. نستكشف أيضا استخدام Pegasus، وهو هدف ما قبل التدريب المستندة إلى التنبؤ بتلخيص النص، لنموذج تتبع الدولة. وجدنا أن التدريب المسبق لمهمة التلخيص البعيدة على ما يبدو يعمل بشكل جيد بشكل جيد لتتبع حالة الحوار. بالإضافة إلى ذلك، وجدنا أنه في حين أن تمثيل سياق الدولة المتكرر يعمل أيضا بشكل جيد بشكل معقول، فقد يكون للنموذج صعوبة في التعافي من الأخطاء السابقة. أجرينا تجارب في مجموعات بيانات MultiWoz 2.1-2.4 و Woz 2.0 و DSTC2 مع ملاحظات متسقة.
تم الاعتماد بشكل تقليدي في الصورة على التقييمات التلقائية القائمة على المرجع، حيث يتم مقارنة تعليق الآلات مع التسميات التوضيحية التي كتبها البشر. هذا على النقيض من الطريقة الخالية من المرجعية التي يقوم بها البشر بجودة التسمية التوضيحية. في هذه الورقة ، نبلغ عن النتيجة التجريبية المدهشة التي كليب (Radford et al.، 2021)، نموذج متعدد الوسائط مسبقا على أزواج من صورة 400 متر + التسمية التوضيحية من الويب، يمكن استخدامه للتقييم التلقائي القوي لمعالجة الصور دون الحاجة للحصول على المراجع. تثبت التجارب التي تمتد من عدة شرجي أن قيصرنا الجديد المجاني، مقطورات، يحقق أعلى ارتباط بالأحكام البشرية، مما يتفوق على المقاييس القائمة على المرجع الحالي مثل عصير التفاح والتوابل. تثبت تجارب الحصول على المعلومات على أن Clipscore، مع تركيزها الضيق على توافق نص الصورة، هو تكميلية للمقاييس القائمة على مرجعية موجودة تؤكد على أوجه التشابه النصي النصي. وبالتالي، نقدم أيضا نسخة معدنية مرجعية، Refclipscore، والذي يحقق حتى ارتباط أعلى. تتجاوز مهام الوصف الحرفي، تكشف العديد من دراسات الحالة المجالات التي تنفذ فيها clipscore جيدا (صور Clip-Art، تصنيف النص)، ولكن أيضا حيث إنها أضعف نسبيا مقارنة بالمقاييس المستندة إلى المراجع، على سبيل المثال، التسميات التوضيحية الإخبارية التي تتطلب معرفة سياقية أكثر ثراء وبعد
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا