ترغب بنشر مسار تعليمي؟ اضغط هنا

Spellbert: نموذج محدود يدويا خفيف الوزن لفحص الإملاء الصيني

SpellBERT: A Lightweight Pretrained Model for Chinese Spelling Check

447   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تحقق الإملاء الصيني (CSC) هو اكتشاف أخطاء الإملاء الصيني وتصحيحها.تستخدم العديد من النماذج من الارتباك المحدد مسبقا لتعلم رسم خرائط بين الأحرف الصحيحة وأهمياتها المماثلة المماثلة البصرية أو مماثلة ولكن قد يكون الرسم الخرائط خارج المجال.تحقيقا لهذه الغاية، نقترح Spellbert، وهو نموذج مسبق مع ميزات إضافية قائمة على الرسم البياني ومستقلة على مجموعة الارتباك.لالتقاط الأنماطين الخاطئة بشكل صريح، فإننا نوظف شبكة عصبية رسم بيانية لإدخال معلومات جذرية وبرينيا كميزات بصرية وعصرية.لتحسين الصدر هذه الميزات مع تمثيلات الأحرف، ونحن نضع نموذج لغة ملثم على حد سواء مهام التدريب مسبقا.من خلال هذا التدريب المسبق الأغنياء المظلات، يمكن أن تظهر Spellbert مع نصف حجم Bert فقط أداء تنافسي وجعل أحدث نتيجة في مجموعة بيانات OCR حيث لا يتم تغطية معظم الأخطاء من قبل مجموعة الارتباك الموجودة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الورقة تقديمنا لمهمة Wassa 2021 المشتركة فيما يتعلق بالتنبؤ بالتعاطف والضيق والعواطف من القصص الإخبارية.يعتمد الحل على الجمع بين تواتر الكلمات والمعلومات المستندة إلى المعجم والتركيبة السكانية للنظام المعلقين وشخصية المعلقين في نموذج خطي.يتم تنبؤ التعاطف والضيق باستخدام الانحدار الخطي بينما يتم تنفيذ التنبؤ بالعواطف باستخدام الانحدار اللوجستي.يتم تنفيذ كلا المهام باستخدام نفس الميزات.نماذجنا تصنيف 4th للتنبؤ بالعواطف والثاني للتنبؤ بالتعاطف والضيق.هذه النتائج مثيرة للاهتمام بشكل خاص عند اعتبار أن المتطلبات الحسابية للحل هي الحد الأدنى.
تحقق هذه الورقة في كيفية تصحيح أخطاء النص الصينية مع أنواع من الأحرف الخاطئة والمفقودة والمتغمة، وهي شائعة للمتحدثين الأصليين الصينيين.يمكن لمعظم النماذج الموجودة على الإطار الصحيح على الكشف عن تصحيح الأحرف الخاطئة، ولكن لا يمكن التعامل مع الأحرف الم فقودة أو الزائدة بسبب التناقض بين المدخلات والمخرجات النموذجية.على الرغم من أن أساليب العلامات المستندة إلى SEQ2SEQ أو التسلسل تقدم حلولا لأنواع الخطأ الثلاثة وحققت نتائج جيدة نسبيا في سياق اللغة الإنجليزية، فإنها لا تؤدي بشكل جيد في السياق الصيني وفقا تجاربنا.في عملنا، نقترح إطارا جديدا للكشف عن المحاذاة على المكتشفة التي يمكن أن تعالج كل من المواقف المحاذاة وغير المحاذاة ويمكن أن تكون بمثابة نموذج ابدأ بارد عند عدم توفر بيانات التعليق التوضيحي.تظهر النتائج التجريبية على ثلاث مجموعات بيانات أن طريقتنا فعالة وتحقق أداء أفضل من أحدث النماذج المنشورة.
إن فهم الفكاهة هو عنصر أساسي لأنظمة NLP التي تواجه الإنسان.في هذه الورقة، نحقق في العديد من الطرق للكشف عن الفكاهة في تصريحات قصيرة كجزء من المهمة المشتركة SEMEVAL-2021 7. للمهمة 1A، نطبق مجموعة من نماذج اللغة المدربة مسبقا مسبقا؛بالنسبة للمهام 1B، 1 C، و 2A، نحقق في العديد من نماذج التعلم الآلية القائمة على الأشجار والخطية.ينص نظامنا النهائي على درجة F1 من 0.9571 (المرتبة 24/58) في المهمة 1A، ورمز من 0.5580 (مرتبة 18/50) في المهمة 1B، درجة F1 من 0.5024 (المرتبة 26/36) في مهمة 1C،ورمز من 0.7229 (المرتبة 45/88) في مهمة 2A.
أظهرت نماذج محولات محول مسبقا واسعة النطاق أداء حديثة (SOTA) في مجموعة متنوعة من مهام NLP.في الوقت الحاضر، تتوفر العديد من النماذج المحددة مسبقا في النكهات النموذجية المختلفة ولغات مختلفة، ويمكن تكييفها بسهولة مع المهمة المصب الأولى.ومع ذلك، فإن عدد محدود فقط من النماذج متاحة لمهام الحوار، وخاصة مهام الحوار الموجهة نحو الأهداف.بالإضافة إلى ذلك، يتم تدريب النماذج المحددة مسبقا على لغة المجال العامة، مما يخلق عدم تطابقا بين لغة المحترفين ومجال المصب المصب.في هذه المساهمة، نقدم CS-Bert، نموذج BERT مسبقا على ملايين الحوارات في مجال خدمة العملاء.نقوم بتقييم CS-Bert على العديد من مهام حوار خدمة العملاء في العديد من مهام خدمة العملاء، وإظهار أن محالقنا في المجال لدينا مفيد مقارنة بالنماذج الأخرى المحددة مسبقا في كل من التجارب الصفري بالرصاص وكذلك في التجارب الصفرية، خاصة في إعداد بيانات منخفض الموارد.
أفضل تحجيم (BWS) أفضل منهجية للتعليق على أساس مثيلات مقارنة والترتيب، بدلا من تصنيف أو تسجيل الحالات الفردية.أظهرت الدراسات فعالية هذه المنهجية المطبقة على مهام NLP من حيث جودة عالية من مجموعات البيانات الناتجة عن طريق ذلك.في ورقة مظاهرة النظام هذه، نقدم LitEScale، مكتبة برامج مجانية لإنشاء وإدارة مهام التوضيحية BWS.يحسب LitEScale tuples typles للتعليق ويدير المستخدمين وعملية التوضيحية، ويخلق معيار الذهب النهائي.يمكن الوصول إلى وظائف LitEScale برمجيا من خلال وحدة نمطية Python، أو عبر واجهتين لمستخدمين بديلين، واحدة قائمة على وحدة التحكم النصية ومقرها على الويب.لقد نمت ونشرنا أيضا نسخة كاملة من Litescale كاملة مع دعم متعدد المستخدمين.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا