ترغب بنشر مسار تعليمي؟ اضغط هنا

مهمة مشتركة في تقييم الدقة: الاستفادة من التوضيحات السابقة في عملية التحقق من الصحة

Shared Task in Evaluating Accuracy: Leveraging Pre-Annotations in the Validation Process

388   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم هذا بموجبه تقديمنا إلى المهمة المشتركة في تقييم الدقة في مؤتمر INLG 2021.يعتمد بروتوكول التقييم لدينا على ثلاثة مكونات رئيسية؛القواعد والصفوف النصية المصنفة التي تعلق مسبقا على مجموعة البيانات، وهو عبقري بشري يتحقق من التوضيح المسبق، وواجهة الويب التي تسهل هذا التحقق من الصحة.يتكون التقديم لدينا في حقيقة وجود تقريرين؛نحلل أولا فقط أداء القواعد والصفوفات المصنفة (الشرحين قبل التوضيحية)، ثم التقييم البشري يساعده الشروح السابقة السابقة باستخدام واجهة الويب (الهجين).رمز واجهة الويب والصفوف هو متاح علنا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تركز المهمة المشتركة على تقييم الدقة على التقنيات (كلا اليدين والآلية) لتقييم الدقة الواقعية للنصوص التي تنتجها أنظمة NLG العصبية، في مجال التقارير الرياضية.قدم أربعة فرق تقنيات التقييم لهذه المهمة، باستخدام نهج وتقنيات مختلفة للغاية.طلبت التقديمات ا لأفضل أداء جيدا في هذه المهمة الصعبة.ومع ذلك، تكافح جميع التقديمات التلقائية للكشف عن الأخطاء الواقعية المعقدة دلالة أو بشكل غير رسمي (على سبيل المثال، بناء على حساب أو استنتاج غير صحيح).
غالبا ما يتم دعم الأبحاث في NLP من خلال النتائج التجريبية، وقد يؤدي الإبلاغ المحسن لهذه النتائج إلى فهم أفضل وأكثر استنساخا. في هذه الورقة، نحلل ثلاثة مقدرين إحصائي لأداء التحقق من الصحة المتوقع، وهي أداة تستخدم لأداء الإبلاغ (على سبيل المثال، الدقة) كدالة للميزانية الحاسوبية (على سبيل المثال، عدد تجارب ضبط HyperParameter). عندما يقوم العمل السابق بتحليل مثل هذه المقدرين يركز على التحيز، فإننا ندرس أيضا التباين ويعني الخطأ التربيعي (MSE). في كل من السيناريوهات الاصطناعية والواقعية، نقوم بتقييم ثلاثة مقدرين والعثور على مقدر غير متحيز لديه أعلى التباين، ومقدر أصغر البتان لديه أكبر تحيز؛ يقيم أصغر MSE يضرب توازن بين التحيز والتباين، وعرض مفاضلة الكلاسيكية من تباين التحيز. نحن نستخدم أداء التحقق من الصحة المتوقع للمقارنة بين النماذج المختلفة، وتحليل مدى متكرر كل مقدر يؤدي إلى رسم استنتاجات غير صحيحة حول أي نماذج تؤدي إلى الأفضل. نجد أن المقدرين المتحيزين تؤدي إلى أقل استنتاجات غير صحيحة، تلمحون بأهمية التقليل من التباين و MSE.
تقدم هذه الورقة تقديم مركز خدمة الترجمة Huawei (HW-TSC) إلى المهمة المشتركة MT Triangular 2021.نشارك في المهمة الروسية إلى الصينية بموجب الحالة المقيدة.نحن نستخدم بنية المحولات والحصول على أفضل أداء عبر متغير بأحجام أكبر معلمة.نقوم بإجراء بيانات مفصل ة مسبقا وتصفية البيانات المقدمة على نطاق ثنائي اللغة قدمها.تستخدم العديد من الاستراتيجيات لتدريب نماذجنا، مثل الترجمة متعددة اللغات، الترجمة الترجمة متعددة اللغات، الترجمة إلى الأمام، وتنظيم البيانات، ونقطة التفتيش المتوسطة، والوقاحة، والضبط الجميل، وما إلى ذلك. يحصل نظامنا على 32.5 بلو على مجموعة DEAS و 27.7 بلو على مجموعة الاختبار، أعلى الدرجات بين جميع التقديمات.
تقدم هذه الورقة تقديم مختبر Bering إلى المهام المشتركة للورشة الثامنة حول الترجمة الآسيوية (WAT 2021) على JPC2 و SAP.شاركنا في جميع المهام على JPC2 ومهام مجال تكنولوجيا المعلومات على NICT-SAP.نهجنا لجميع المهام يركز بشكل أساسي على بناء أنظمة NMT في ك ورسا خاصة بالمجال.لقد زحفنا أزواج وثيقة براءات الاختراع للغة الإنجليزية اليابانية والصينية اليابانية والكورية واليابانية.بعد تنظيف البيانات الصاخبة، بنينا كوربا متوازيا عن طريق مواءمة هذه الجمل مع درجات التشابه على مستوى الجملة.أيضا، للحصول على بيانات اختبار SAP، جمعنا مجموعة بيانات OPUS بما في ذلك ثلاثة كورسور كورسا.ثم تدريب محول على مجموعة البيانات التي تم جمعها.احتل إرسالنا في المرتبة الأولى في ثمانية من أربعة عشر مهام، وتحقيق ما يصل إلى تحسين 2.87 ل JPC2 و 8.79 ل SAP NIST-SAP في النتيجة بلو.
وصفنا نظامنا المقدم لهذه المهمة المشتركة 2021 بشأن السخرية والكشف عن المعنويات باللغة العربية (أبو فرحة وآخرون، 2021).لقد تناولنا كل من المجموعات الفرعية، وهما اكتشاف السخرية (الفرعية 1) وتحليل المعرفات (SubTask 2).استخدمنا نماذج تمثيل نصية محكومة لل حالة من بين الفنون وتصنفها بشكل جيد وفقا لمهمة المصب في متناول اليد.كهدودي أول، استخدمنا بيرت متعددة اللغات من Google ثم المتغيرات العربية الأخرى: أرابيرت وأشرر وماربيرت.وجدت النتائج تظهر أن Marbert تفوقت على جميع النماذج المذكورة مسبقا بشكل عام، إما على التراكب الفرعي 1 أو Subtask 2.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا