ترغب بنشر مسار تعليمي؟ اضغط هنا

تقدير الجودة لمعاملات الصور بناء على تقييمات بشرية واسعة النطاق

Quality Estimation for Image Captions Based on Large-scale Human Evaluations

248   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تحسنت تقسيم الصور التلقائي بشكل كبير خلال السنوات القليلة الماضية، لكن المشكلة بعيدة عن حلها، حيث لا تزال حالة من النماذج الفنية غالبا ما تنتج توضيحات منخفضة الجودة عند استخدامها في البرية. في هذه الورقة، نركز على مهمة تقدير الجودة (QE) للحصول على تعليق الصور، والتي تحاول طراز جودة التسمية التوضيحية من منظور إنساني و * بدون * الوصول إلى مراجع الحقيقة الأرضية، بحيث يمكن تطبيقها في وقت التنبؤ للكشف عن التسميات التوضيحية منخفضة الجودة المنتجة على * الصور غير المرئية سابقا *. بالنسبة لهذه المهمة، نقوم بتطوير عملية تقييم بشرية تقوم بجمع التعليقات التوضيحية الشعوية من المستخدمين من مستخدمي الجماعة الجماعية، والتي يتم استخدامها بعد ذلك لجمع مجموعة بيانات كبيرة الحجم تمتد أكثر من 600 كيلو بايت تصنيفات جودة التسمية التوضيحية. ثم صرفها بعناية جودة التصنيفات التي تم جمعها وإنشاء نماذج أساسية لهذه المهمة الجديدة في QE. أخيرا، سنقوم بزيادة جمع التعليقات التوضيحية ذات جودة التسمية التوضيحية الجميلة من الدراسات المدربة، واستخدامها لإظهار أن نماذج QE التي تم تدريبها على التصنيفات الخشنة يمكن أن تكتشف بشكل فعال وتصفية التسميات التوضيحية ذات الجودة المنخفضة الجودة، وبالتالي تحسين تجربة المستخدم من أنظمة التسمية التوضيحية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

التقييم البشري التجريدي لأنظمة الترجمة عالية الجودة الحديثة هي مشكلة صعبة، وهناك أدلة متزايدة على أن إجراءات التقييم غير الكافية يمكن أن تؤدي إلى استنتاجات خاطئة. بينما كان هناك بحث كبير في التقييم البشري، لا يزال الحقل يفتقر إلى إجراء قياسي شائع. كخ طوة نحو هذا الهدف، نقترح منهجية تقييم في تحليل خطأ صريح، استنادا إلى إطار مقاييس الجودة متعددة الأبعاد (MQM). نحن نفذت أكبر دراسة بحثية MQM حتى الآن، وتسجيل مخرجات الأنظمة العليا من المهمة المشتركة WMT 2020 في أزواج لغتين باستخدام التعليقات التوضيحية المقدمة من المترجمين المحترفين مع الوصول إلى سياق المستند الكامل. نقوم بتحليل البيانات الناتجة على نطاق واسع، والعثور على نتائج أخرى بمثابة ترتيب مختلف تماما للأنظمة المقدرة من تلك المنشأة من قبل عمال الحشد WMT، تعرض تفضيل واضح لإخراج الإنسان على الجهاز. من المستغرب، نجد أيضا أن المقاييس التلقائية القائمة على المدينات المدربة مسبقا يمكن أن تفوق عمال الحشد البشري. نحن نجعل كوربوس متاحة علنا ​​لمزيد من البحث.
يظهر التطوير الحديث في NLP اتجاها قويا نحو تكرير النماذج المدربة مسبقا مع مجموعة بيانات خاصة بالمجال. هذا هو الحال بشكل خاص لتوليد الاستجابة حيث تلعب العاطفة دورا مهما. ومع ذلك، لا تزال مجموعات البيانات المتعاطفية الحالية صغيرة وتأخير الجهود البحثية في هذا المجال، على سبيل المثال، تطوير Chatement-Aware Chatbots. كان التحدي الفني الرئيسي واحد هو تكلفة التسجيل يدويا الحوارات مع ملصقات العاطفة المناسبة. في هذه الورقة، نصف مجموعة بيانات فضية واسعة النطاق تتكون من حوارات من 1M المشروح ب 32 عواطف دقيقة، وثمانية نوايا استجابة متعاطفية، والفئة المحايدة. لتحقيق هذا الهدف، قمنا بتطوير خط أنابيب لجنة البيانات الرواية بدءا من بذرة صغيرة من البيانات المشروحة يدويا وتوسيع نطاقها في نهاية المطاف إلى حجم مرض. قمنا بمقارنة جودةها مقابل مجموعة بيانات ذهبية أحدث باستخدام كل من التجارب دون اتصال وطرائق التحقق من الصحة. يمكن استخدام الإجراء الناتج لإنشاء مجموعات بيانات مماثلة في نفس المجال وكذلك في المجالات الأخرى.
نماذج اللغة واسعة النطاق مثل GPT-3 هي متعلمين بقلة قليلة، مما يتيح لهم السيطرة عليها عبر مطالبات النص الطبيعي. أبلغ الدراسات الحديثة أن التصنيف المباشر الفوري يزيل الحاجة إلى ضبط الدقيقة ولكن يفتقر إلى إمكانية التوسع للبيانات والاستدلال. تقترح هذه ال ورقة تقنية تكبير بيانات جديدة ترفع نماذج لغة واسعة النطاق لتوليد عينات نصية واقعية من مزيج من العينات الحقيقية. نقترح أيضا استخدام الملصقات الناعمة المتوقعة من النماذج اللغوية، وتقطير المعرفة بفعالية من نماذج اللغة واسعة النطاق وإنشاء اضطرابات نصية في وقت واحد. نقوم بإجراء تجارب تكبير البيانات على مهام التصنيف المتنوعة وإظهار أن طريقتنا تتفوق بشكل كبير على أساليب تكبير النص الحالية. نقوم أيضا بإجراء تجارب في معيارنا المقترح حديثا لإظهار أن تأثير تكبير لا يعزى فقط إلى الحفظ. مزيد من دراسات الاجتثاث والتحليل النوعي توفر المزيد من الأفكار في نهجنا.
يقدم هذا العمل ITIHASA، مجموعة بيانات ترجمة واسعة النطاق تحتوي على 93،000 زوج من Sanskrit Shlokas وترجماتها الإنجليزية.يتم استخراج شلوكاس من اثنين من الملصفات الهندية بمعنى.، رامايانا وماهاوصفنا أولا الدافع وراء عمالة مثل هذه البيانات ومتابعة التحليل التجريبي لإظهار الفروق الدقيقة.ثم نقاشنا بعد أداء نماذج الترجمة القياسية في هذه الجثة وإظهار أنه حتى بديهيات المحولات الحديثة تؤدي بشكل سيء، مع التركيز على تعقيد مجموعة البيانات.
تقدم هذه الورقة MediaSum، مجموعة بيانات مقابلة الوسائط على نطاق واسع تتكون من نصوص 463.6 كيلو بايت مع ملخصات إبتياج.لإنشاء هذه البيانات، نجمع مخالفات المقابلة من NPR و CNN وتوظيف نظرة عامة وأوصاف موضوع كملخصات.مقارنة مع الشركة العامة القائمة للحصول ع لى تلخيص الحوار، فإن DataSet لدينا هي أمر من حيث الحجم ويحتوي على محادثات متعددة الأحزاب المعقدة من مجالات متعددة.نقوم بإجراء تحليل إحصائي لإظهار التحيز الموضعي الفريد المعروض في نصوص المقابلات التلفزيونية والإذاعية.نظهر أيضا أن MediaSum يمكن استخدامه في تعلم التعلم لتحسين أداء نموذج على مهام تلخيص حوار أخرى.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا