ترغب بنشر مسار تعليمي؟ اضغط هنا

قياس أنظمة ASR بناء على جهود ما بعد التحرير وتحليل الأخطاء

Benchmarking ASR Systems Based on Post-Editing Effort and Error Analysis

475   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الورقة تقييما مقارنا لأربعة أنظمة ASR التجارية التي يتم تقييمها وفقا لجهود التحرير المطلوبة للوصول إلى "الجودة" القابلة للنشر ووفقا لعدد الأخطاء التي ينتجونها.لمهمة التوضيحية الخطأ، يتم اقتراح نموذج خطأ أخطاء خطأ في النسخ.تسعى هذه الدراسة أيضا إلى فحص ما إذا كان هناك اختلاف في أداء هذه الأنظمة بين المتحدثين باللغة الإنجليزية الأصلية وغير الأصلية.تشير النتائج التجريبية إلى أنه من بين النظم الأربعة، تحصل Trint على أفضل الدرجات.ولوحظ أيضا أن معظم الأنظمة تؤدي بشكل ملحوظ بشكل ملحوظ مع مكبرات الصوت الأصلية وأن جميع الأنظمة أكثر عرضة لأخطاء الطلاقة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

قام تطوير تقنيات الترجمة، مثل ذاكرة الترجمة والترجمة الآلية، قد غيرت تماما سير عمل صناعة الترجمة وسير العمل في العقود الماضية.ومع ذلك، تم تطوير TM و MT بشكل منفصل حتى وقت قريب.سيقوم هذا المشروع المستمر بدراسة التكامل الخارجي ل TM و MT، وفحص ما إذا كا نت الجهود الإنتاجية وما بعد التحرير للمترجمين أعلى أو أقل من استخدام TM فقط.تحقيقا لهذه الغاية، سنقوم بإجراء تجربة حيث سيطلب من طلاب الترجمة والمترجمين المحترفين ترجمة نصين قصيرين؛ثم سنتحقق من جهود ما بعد التحرير (الجهود الزمنية والتقنية والمعرفية) ونوعية النصوص المترجمة.
معالجة البريد هي النهج الأكثر تقليدية لتصحيح الأخطاء التي تسببها أنظمة التعرف على الأحرف البصرية (OCR).يتم اتخاذ خطوتين عادة لتصحيح أخطاء تعض عبر الإنترنت: الكشف والتصحيحات.بالنسبة للمهمة الأولى، أظهرت طرق تعلم الآلات الخاضعة للإشراف عروضا حديثة.تركز ت النهج المقترحة في السابق بشكل بارز على الجمع بين الميزات المعجمية والسياقية والإحصائية للكشف عن الأخطاء.في هذه الدراسة، نبلغ عن نظام رواية للكشف عن الأخطاء وهو ما يعتمد فقط على التهم N-Gram من رمز المرشح.بالإضافة إلى كونها بسيطة وأقل تكلفة حسابية، فإن نظامنا المقترح يدق النظم السابقة المبلغ عنها في مسابقة ICDAR2019 على اكتشاف خطأ OCR مع هوامش ملحوظة.حققنا درجات F1 الحديثة لمدة ثمانية من أصل عشر لغات أوروبية.الحد الأقصى للتحسين هو الإسبانية التي تحسنت من 0.69 إلى 0.90، والحد الأدنى للبولندية من 0.82 إلى 0.84.
تكنولوجيات اللغة، مثل الترجمة الآلية (MT)، ولكن أيضا تطبيق الذكاء الاصطناعي بشكل عام ووفرة من أدوات القطط والمنصات لها تأثير متزايد على سوق الترجمة. تصبح التفاعل البشري مع هذه التقنيات أكثر أهمية على الإطلاق لأنها تؤثر على سير عمل المترجمين وبيئات ال عمل وملامح الوظائف. علاوة على ذلك، له آثار على تدريب المترجم. تتمثل إحدى المهام التي ظهرت مع تكنولوجيات اللغة بعد التحرير (PE) حيث يقوم المترجم البشري بتصحيح الناتج المترجم المترجم وفقا للمبادئ التوجيهية المعينة ومعايير الجودة (O'Brien، 2011: 197-198). تستخدم بالفعل على نطاق واسع في العديد من إعدادات الترجمة التقليدية، وقد دخل استخدامها في عمليات أكثر إبداعية مثل الترجمة الأدبية والترجمة السمعية البصرية (AVT) أيضا. مع دمج أنظمة MT، يجب أن تصبح عملية الترجمة أكثر كفاءة. تتأثر كل من العمليات الاقتصادية والمعرفية ومعها، حيث تتغير الكفاءات اللازمة لجميع أصحاب المصلحة. في هذه الورقة، نريد وصف ملفات تعريف الوظائف المحتملة المختلفة والكفاءات المعنية عند ترجمات ما بعد التحرير.
تعرض أنظمة الحوار القائمة على استرجاع أداء متميز عند استخدام نماذج اللغة المدربة مسبقا، والتي تشمل تمثيلات تشفير ثنائية الاتجاه من المحولات (بيرت). خلال اختيار الاستجابة المتعدد التحويل، يركز بيرت على تدريب العلاقة بين السياق مع العديد من الكلام والا ستجابة. ومع ذلك، فإن هذه الطريقة للتدريب غير كافية عند النظر في العلاقات بين كل كلام في السياق. هذا يؤدي إلى مشكلة عدم فهم تدفق السياق تماما المطلوب لتحديد استجابة. لمعالجة هذه المشكلة، نقترح طريقة جديدة بعد التدريب على ما بعد التدريب الجدد تعكس خصائص الحوار متعدد الدورات. على وجه التحديد، يتعلم النموذج تفاعلات مستوى الكلام من خلال التدريب على كل زوج استجابة سياق قصير في جلسة حوار. علاوة على ذلك، باستخدام هدف تدريب جديد، تصنيف صلة النطق، النموذج يفهم الأهمية الدلالية والتماسك بين كلام الحوار. تظهر النتائج التجريبية أن نموذجنا يحقق أحدث حديثة من بين الهوامش الهامة على ثلاثة مجموعات من مجموعات البيانات القياسية. هذا يشير إلى أن طريقة ما بعد التدريب الجيد غير فعالة للغاية لمهمة اختيار الاستجابة.
الملخصات التلقائية لديها القدرة على مساعدة الأطباء في تبسيط المهام الكتابية مثل اتخاذ الملاحظات.ولكن من الصعب بشكل مسهل تقييم هذه الأنظمة وإظهار أنها آمنة لاستخدامها في بيئة سريرية.للتحايل على هذه المسألة، نقترح نهج شبه تلقائي حيث يلاحظ الأطباء بعد ت حرير الأطباء قبل تقديمها.نقوم بإجراء دراسة أولية في توفير مذكرات الاستشارات التي تم إنشاؤها تلقائيا مع التحرير بعد التحرير.يطلب من مقيمينا الاستماع إلى استشارات وهمية وإرسال ثلاثة ملاحظات توليد ثلاثة ملاحظات.نحن الوقت في هذا وتجد أنه أسرع من كتابة الملاحظة من الصفر.نقدم نظرة ثاقبة والدروس المستفادة من هذه التجربة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا