نقوم بتطوير نموذج يشرف على الحد الأدنى لتصحيح الإملاء وتقييم أدائه على ثلاثة مجموعات البيانات المشروح عن أخطاء الإملاء باللغة الروسية.أول كوربوس هي مجموعة بيانات من بيانات وسائل التواصل الاجتماعي الروسية المستخدمة مؤخرا في مهمة مشتركة على تصحيح الإملاء الروسي.تحتوي شرطيان آخرين على نصوص ينتجها متعلمو الروسية بلغة أجنبية.التقييم على ثلاثة مجموعات بيانات متنوعة تسمح بمقارنة شوكية.نقارن أداء النموذج الذي يجرأ الحد الأدنى إلى نماذج خطية خطية لا تستخدم السياق لإعادة صياغة المرشح، وكذلك نظام الترجمة ذات المستوى الإحصائي على مستوى الأحرف مع إعادة التعريف المستندة إلى السياق.نظهر أن النموذج الذي يجروح تحت إشرافه يفوق جميع النماذج الأخرى.نقدم أيضا تحليلا للأخطاء الإملائية ونناقش صعوبة المهمة مقارنة بمشكلة تصحيح الإملاء باللغة الإنجليزية.
We develop a minimally-supervised model for spelling correction and evaluate its performance on three datasets annotated for spelling errors in Russian. The first corpus is a dataset of Russian social media data that was recently used in a shared task on Russian spelling correction. The other two corpora contain texts produced by learners of Russian as a foreign language. Evaluating on three diverse datasets allows for a cross-corpus comparison. We compare the performance of the minimally-supervised model to two baseline models that do not use context for candidate re-ranking, as well as to a character-level statistical machine translation system with context-based re-ranking. We show that the minimally-supervised model outperforms all of the other models. We also present an analysis of the spelling errors and discuss the difficulty of the task compared to the spelling correction problem in English.
المراجع المستخدمة
https://aclanthology.org/
نقدم مجموعة بيانات تغيير دلالية معجمية مشروحة يدويا للروسية: رشيفتيفال.يتم ضمان حداثةها من خلال مجموعة واحدة من الكلمات المستهدفة المشروحة لتحولاتهم الدلالية DIACHRONIC عبر ثلاث فترات زمنية، بينما استخدم العمل السابق فترات زمنية فقط أو مجموعات مختلفة
Gecko +: أداة تصحيح الأخطاء النحوية والخطاط نقدم Gecko +، أداة مساعدة الكتابة على شبكة الإنترنت للغة الإنجليزية التي تصحيح الأخطاء على حد سواء في الجملة وعلى مستوى الخطاب.يعتمد ذلك على نماذجتين من أحدث نماذج لتصحيح الأخطاء النحوية وطلب الجملة.يتوفر G
يعاني تصحيح الخطأ النحوي (GEC) من عدم وجود بيانات متوازية كافية. اقترحت دراسات حول GEC عدة طرق لتوليد بيانات زائفة، والتي تشمل أزواج من الجمل النحوية والنصيع بشكل مصطنع. حاليا، فإن النهج السائد لتوليد بيانات الزائفة هو الترجمة مرة أخرى (BT). وقد استخ
تتضمن النهج الحديثة لإملاء مشكلة تصحيح الأخطاء الإملائي نماذج SEQ2SEQ القائمة على المحولات، والتي تتطلب مجموعات تدريبية كبيرة وتعاني من وقت الاستدلال البطيء؛وتسلسل نماذج وضع التسلسل المستندة إلى ترميز المحولات مثل بيرت، والتي تنطوي على مساحة تسمية ال
يهدف البحث إلى انجاز دراسة نظرية وعملية مرتبطة بالأعمال البحرية الشاطئية لحساب كميات تعزيل الطمي من أحواض و مداخل المرافئ، مع عرض الطرق و الأجهزة المستخدمة في إنجاز أعمال المسح الطبوغرافي و الطرق العددية في حساب الكميات و المقارنة بينها.
في الجزء ال