ترغب بنشر مسار تعليمي؟ اضغط هنا

تقدير الجودة القائم على التصنيف: نماذج صغيرة وفعالة لتطبيقات العالم الحقيقي

Classification-based Quality Estimation: Small and Efficient Models for Real-world Applications

425   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتم وضع تقدير الجودة على مستوى الجملة (QE) من الترجمة الآلية بشكل تقليدي كملقمة الانحدار، ويتم قياس أداء نماذج QE عادة بواسطة ارتباط بيرسون مع ملصقات بشرية. حققت نماذج QE الأخيرة مستويات ارتباطا غير مرئي مسبقا بأحكام بشرية، لكنها تعتمد على نماذج لغوية محلية متعددة اللغات الكبيرة باهظة الثمن بشكل حسابي وجعلها غير ممكنة لتطبيقات العالم الحقيقي. في هذا العمل، نقوم بتقييم العديد من تقنيات ضغط النماذج ل QE والعثور على ذلك، على الرغم من شعبيتها في مهام NLP الأخرى، فإنها تؤدي إلى ضعف الأداء في وضع الانحدار هذا. نلاحظ أن هناك حاجة إلى معلمة نموذجية كاملة لتحقيق نتائج SOTA في مهمة الانحدار. ومع ذلك، فإننا نجادل بأن مستوى التعبير عن نموذج في مجموعة مستمرة غير ضرورية لإحضار تطبيقات المصب في QE، وإظهار أن إعادة صياغة QE كمشكلة تصنيف وتقييم نماذج QE باستخدام مقاييس التصنيف من شأنها أن تعكس أدائها الفعلي بشكل أفضل في الواقع تطبيقات العالم.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تُصنف الخدمات التي يطلبها المستخدمون عبر شبكة الانترنت إلى نوعين أساسيين، خدمات تعمل بالزمن الحقيقي مثل تطبيقات الفيديو و الصوت بالزمن الحقيقي و هي تستخدم بروتوكول (UDP (Unit Datagram Protocol، و خدمات أخرى تعمل بالزمن غير الحقيقي مثل تطبيقات تصفح ال ويب (HTTP (Hiyber Text Transfer Protocol و نقل الملفات FTP) File Transfer Protocol) و تستخدم بروتوكول TCP( Transmission Control Protocol). يتم في هذا البحث دراسة و تحليل الخوارزميات التي تحسن جودة الخدمة لمختلف هذه التطبيقات، فمن أجل تطبيقات الزمن الحقيقي يتم استخدام قواعد الرتل التي تعطي أفضلية لهذه الخدمات و تحقق أقل تأخير زمني، أما من أجل تطبيقات الزمني غير الحقيقي فيتم دراسة خوارزميات التحكم بالازدحام التي تحقق أفضل أداء لعملية النقل الموثوق بوجود الازدحام عبر شبكة الانترنت. تم استخدام برنامج المحاكاة Opnet 14.5 لمحاكاة الخدمات المختلفة عبر شبكة الانترنت، و تبين نتائج الدراسة الحصول على أقل تأخير زمني لخدمة الصوت، و تحقيق معدل إرسال عالي لتطبيق FTP بوجود ضياع للرزم في الشبكة.
تتوفر أنظمة الإجابة على الأسئلة (QA) الآن من خلال العديد من التطبيقات التجارية لمجموعة واسعة من المجالات، مما يخدم ملايين المستخدمين الذين يتفاعلون معهم عبر واجهات الكلام.ومع ذلك، فإن المعايير الحالية في أبحاث ضمنيا لا تحسب الأخطاء التي قد تعرضها نما ذج التعرف على الكلام، ولا تفكر في اختلافات اللغة (لهجات) للمستخدمين.لمعالجة هذه الفجوة، نزيد من مجموعة بيانات QA الحالية لبناء معيارا متعدد الهياكل المتعددة، معيار QA المنطوقة في خمس لغات (العربية، البنغالية، الإنجليزية، الكورية، الكورية) مع أكثر من 68K Audio مطالبات في 24 لهجة من 255 متحدثا.نحن نقدم نتائج خط الأساس عرض الأداء العالمي الحقيقي لأنظمة ضمان الجودة وتحليل تأثير مجموعة متنوعة اللغات وغيرها من سمات المتكلم الحساسة على أداء المصب.أخيرا، ندرس عدالة نماذج ASR و QA فيما يتعلق بسكان المستخدمين الأساسيين.
تحسنت تقسيم الصور التلقائي بشكل كبير خلال السنوات القليلة الماضية، لكن المشكلة بعيدة عن حلها، حيث لا تزال حالة من النماذج الفنية غالبا ما تنتج توضيحات منخفضة الجودة عند استخدامها في البرية. في هذه الورقة، نركز على مهمة تقدير الجودة (QE) للحصول على تع ليق الصور، والتي تحاول طراز جودة التسمية التوضيحية من منظور إنساني و * بدون * الوصول إلى مراجع الحقيقة الأرضية، بحيث يمكن تطبيقها في وقت التنبؤ للكشف عن التسميات التوضيحية منخفضة الجودة المنتجة على * الصور غير المرئية سابقا *. بالنسبة لهذه المهمة، نقوم بتطوير عملية تقييم بشرية تقوم بجمع التعليقات التوضيحية الشعوية من المستخدمين من مستخدمي الجماعة الجماعية، والتي يتم استخدامها بعد ذلك لجمع مجموعة بيانات كبيرة الحجم تمتد أكثر من 600 كيلو بايت تصنيفات جودة التسمية التوضيحية. ثم صرفها بعناية جودة التصنيفات التي تم جمعها وإنشاء نماذج أساسية لهذه المهمة الجديدة في QE. أخيرا، سنقوم بزيادة جمع التعليقات التوضيحية ذات جودة التسمية التوضيحية الجميلة من الدراسات المدربة، واستخدامها لإظهار أن نماذج QE التي تم تدريبها على التصنيفات الخشنة يمكن أن تكتشف بشكل فعال وتصفية التسميات التوضيحية ذات الجودة المنخفضة الجودة، وبالتالي تحسين تجربة المستخدم من أنظمة التسمية التوضيحية.
تهدف تقدير الجودة (QE) من الترجمة الآلية (MT) إلى تقييم جودة الجمل التي ترجمتها الجهاز دون مراجع وهي مهمة في التطبيقات العملية ل MT.تتطلب Training Models QE بيانات موازية ضخمة بأشرفة توضيحية ذات جودة يدوية، وهي تستغرق وقتا طويلا ومكثفة العمالة للحصول عليها.لمعالجة مسألة عدم وجود بيانات تدريب مشروح، تحاول الدراسات السابقة تطوير أساليب QE غير المدعومة.ومع ذلك، يمكن تطبيق عدد قليل جدا منهم على مهام QE على مستوى الجملة والطريق، وقد تعاني من الضوضاء في البيانات الاصطناعية.لتقليل الآثار السلبية للضوضاء، نقترح طريقة للإشراف ذاتي لكل من QE من كل من QE على مستوى الكلمة والطريق، والتي تنفذ تقدير الجودة من خلال استعادة الكلمات المستهدفة الملثمين.تظهر النتائج التجريبية أن أسلوبنا تتفوق على الطرق السابقة غير الخاضعة للرقابة في العديد من مهام QE في أزواج ومجال بلغات مختلفة.
نحن نحقق في تعلم اللغة الأساسية من خلال بيانات عالمية حقيقية، من خلال نمذجة ديناميات متعلم المعلم من خلال التفاعلات الطبيعية التي تحدث بين المستخدمين ومحركات البحث؛على وجه الخصوص، نستكشف ظهور التعميم الدلالي من تمثيلات كثيفة غير مخالفة خارج البيئات ا لاصطناعية.يتم تعلم مجال التأريض وظيفة دلالة ودالة تكوين من بيانات المستخدم فقط.نظهر كيف تظهر الدلالات الناتجة عن عبارات الاسم خصائصا تتراكم بينما تكون مائيا تماما دون أي وضع علامات واضحة.نحن نقسم لدينا دلالاتنا المتطرفة على التركيبية ومهام الاستدلال صفرية، ونرى أنها توفر نتائج أفضل وتعميمات أفضل من نماذج SOTA غير المدرجة، مثل Word2VEC و BERT.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا