ترغب بنشر مسار تعليمي؟ اضغط هنا

تصحيح إملائي للروسية: دراسة مقارنة لمجموعات البيانات والأساليب

Spelling Correction for Russian: A Comparative Study of Datasets and Methods

260   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقوم بتطوير نموذج يشرف على الحد الأدنى لتصحيح الإملاء وتقييم أدائه على ثلاثة مجموعات البيانات المشروح عن أخطاء الإملاء باللغة الروسية.أول كوربوس هي مجموعة بيانات من بيانات وسائل التواصل الاجتماعي الروسية المستخدمة مؤخرا في مهمة مشتركة على تصحيح الإملاء الروسي.تحتوي شرطيان آخرين على نصوص ينتجها متعلمو الروسية بلغة أجنبية.التقييم على ثلاثة مجموعات بيانات متنوعة تسمح بمقارنة شوكية.نقارن أداء النموذج الذي يجرأ الحد الأدنى إلى نماذج خطية خطية لا تستخدم السياق لإعادة صياغة المرشح، وكذلك نظام الترجمة ذات المستوى الإحصائي على مستوى الأحرف مع إعادة التعريف المستندة إلى السياق.نظهر أن النموذج الذي يجروح تحت إشرافه يفوق جميع النماذج الأخرى.نقدم أيضا تحليلا للأخطاء الإملائية ونناقش صعوبة المهمة مقارنة بمشكلة تصحيح الإملاء باللغة الإنجليزية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم مجموعة بيانات تغيير دلالية معجمية مشروحة يدويا للروسية: رشيفتيفال.يتم ضمان حداثةها من خلال مجموعة واحدة من الكلمات المستهدفة المشروحة لتحولاتهم الدلالية DIACHRONIC عبر ثلاث فترات زمنية، بينما استخدم العمل السابق فترات زمنية فقط أو مجموعات مختلفة من الكلمات المستهدفة.تصف الورقة الإجراءات التركيبة والشروحية الخاصة ب DataSet.بالإضافة إلى ذلك، يظهر كيف يسمح الطبيعة الثلاثية ل Rushifteval لتتبع مسارات DIAChronic محددة: تم تغييرها في فترة زمنية معينة ومستقرة بعد ذلك "أو كانت تتغير طوال الفترات الزمنية.استنادا إلى تحليل التقديمات إلى المهمة المشتركة الأخيرة بشأن اكتشاف التغيير الدلالي الروسي، فإننا نجيد أن تحديد هذه المسارات بشكل صحيح يمكن أن تكون مهمة فرعية مثيرة للاهتمام نفسها.
Gecko +: أداة تصحيح الأخطاء النحوية والخطاط نقدم Gecko +، أداة مساعدة الكتابة على شبكة الإنترنت للغة الإنجليزية التي تصحيح الأخطاء على حد سواء في الجملة وعلى مستوى الخطاب.يعتمد ذلك على نماذجتين من أحدث نماذج لتصحيح الأخطاء النحوية وطلب الجملة.يتوفر G ecko + عبر الإنترنت كتطبيق ويب يقوم بتنفيذ خط أنابيب يجمع بين الطرزين.
يعاني تصحيح الخطأ النحوي (GEC) من عدم وجود بيانات متوازية كافية. اقترحت دراسات حول GEC عدة طرق لتوليد بيانات زائفة، والتي تشمل أزواج من الجمل النحوية والنصيع بشكل مصطنع. حاليا، فإن النهج السائد لتوليد بيانات الزائفة هو الترجمة مرة أخرى (BT). وقد استخ دمت معظم الدراسات السابقة باستخدام BT نفس الهندسة المعمارية لكل من نماذج GEC و BT. ومع ذلك، فإن نماذج GEC لها اتجاهات تصحيح مختلفة اعتمادا على بنية نماذجها. وبالتالي، في هذه الدراسة، نقارن اتجاهات تصحيح نماذج GEC المدربة على البيانات الزائفة التي تم إنشاؤها بواسطة ثلاث نماذج BT مع بنية مختلفة، وهي المحول، CNN، و LSTM. تؤكد النتائج أن ميول التصحيح لكل نوع خطأ مختلفة لكل طراز BT. بالإضافة إلى ذلك، يمكننا التحقيق في ميول التصحيح عند استخدام مجموعة من البيانات الزائفة الناتجة عن نماذج BT مختلفة. نتيجة لذلك، نجد أن مجموعة من نماذج BT المختلفة تتحسن أو تحسن أداء كل نوع من نوع الخطأ مقارنة باستخدام نموذج BT واحد مع بذور مختلفة.
تتضمن النهج الحديثة لإملاء مشكلة تصحيح الأخطاء الإملائي نماذج SEQ2SEQ القائمة على المحولات، والتي تتطلب مجموعات تدريبية كبيرة وتعاني من وقت الاستدلال البطيء؛وتسلسل نماذج وضع التسلسل المستندة إلى ترميز المحولات مثل بيرت، والتي تنطوي على مساحة تسمية ال مستوى المميز وبالتالي قاموس مفردات محددة مسبقا مسبقا.في هذه الورقة، نقدم طراز Tagger Tagner التسلسل الهرمي، أو HCTAGGER، لتصحيح الأخطاء الإملائي في النص القصير.نستخدم نموذج لغة مدرب مسبقا على مستوى الحرف كتشفير نصي، ثم يتوقع تحرير مستوى الأحرف لتحويل النص الأصلي إلى شكل خالي من الأخطاء مع مساحة تسمية أصغر بكثير.للحصول على فك التشفير، نقترح نهجا هرميا متعدد المهام للتخفيف من مسألة توزيع الملصقات الطويلة الذيل دون تقديم معلمات نموذجية إضافية.تثبت التجارب في مجموعات بيانات تصحيح أخطاء الأخشاب العامة أن HCTAGGER هو نهج دقيق وأسرع بكثير من العديد من النماذج الموجودة.
يهدف البحث إلى انجاز دراسة نظرية وعملية مرتبطة بالأعمال البحرية الشاطئية لحساب كميات تعزيل الطمي من أحواض و مداخل المرافئ، مع عرض الطرق و الأجهزة المستخدمة في إنجاز أعمال المسح الطبوغرافي و الطرق العددية في حساب الكميات و المقارنة بينها. في الجزء ال نظري تم التطرق إلى العوامل و المسببات التي تؤدي إلى تكون رواسب الطمي في أحواض الموانئ، و طرق تعزيلها و تعميق مجاري الطرق الملاحية للدخول و الخروج من المرافئ. في الجزء العملي تم عرض نتائج طرق القياسات و نتائج الرفع الطبوغرافي خلال مراحل استثمار المرفأ، خلال مرحلتين على الأقل، في بداية الاستثمار و قبل عملية التعزيل مباشرة، و من ثم حساب كميات التعزيل المنفذة و المقارنة و المفاضلة بينها، و تقديم المقترح المناسب، و استعراض البرمجيات المساعدة في إنجاز تلك الأعمال البحرية، بغاية الحصول على المخططات البحرية و الكميات النهائية لعملية للتعزيل. و قد خلص البحث إلى مقترحات محددة بشأن طرق حساب الكميات المعزّلة من المرفأ، و طريقة انشاء الشبكات الجيوديزية المدروسة و انجاز الرفع الطبوغرافي تحت للسطح المائي، و تحديد أجزاء البرمجيات المتعلقة بمختلف الأعمال البحرية المختلفة و طرق الاستفادة منها.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا