ترغب بنشر مسار تعليمي؟ اضغط هنا

disambigguating العدد النحوي والجنس مع بيرت

Disambiguating Grammatical Number and Gender With BERT

245   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعد التعامل الدقيق مع أي نوع من أنواع الغموض مهمة رئيسية في معالجة اللغة الطبيعية، حيث وصلت إلى تقدير كبير مؤخرا بسبب تطوير نماذج اللغة التي تعتمد على السياق واستخدام Word أو Adgeddings.في هذا السياق، يهدف عملنا إلى تحديد كيفية ربط نموذج تمثيل اللغة الشعبي بمكافحة غموض الأسماء في العدد النحوي والجنس بلغات مختلفة.نظهر أن النماذج المدربة على لغة واحدة محددة تحقق نتائج أفضل لعملية الغموض من النماذج متعددة اللغات.أيضا، يتم تناول الغموض بشكل عام بشكل عام في العدد النحوي مما هو عليه في النوع الاجتماعي النحوي، حيث وصلت إلى قيم مسافة أكبر من واحد إلى آخر في مقارنات مباشرة من الحواس الفردية.تظهر النتائج الإجمالية أيضا أن مقدار البيانات اللازمة لتدريب نماذج أحادية التدريب وكذلك يجب عدم التقليل من التقديم.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

قد يتم تحديد الجنس النحاسي من قبل دلالات أو إجمالية أو علم الصوتيات أو يمكن أن يكون تعسفيا.تحديد الأنماط في العوامل التي تحكم نون الجنسين يمكن أن تكون مفيدة لمتعلمي اللغة، وفهم المصادر اللغوية الفطرية للتحيز بين الجنسين.قد يتم استبدال النهج اليدوية ا لقائمة على القواعد اليدوية من خلال النهج الحسابية الأكثر دقة وقابلة للتطوير ولكن أصعب من أجل تفسيرها للتنبؤ بنوع الجنس من المعلومات النموذجية.في هذا العمل، نقترح نماذج تصنيف الجنسية القابلة للتفسير للفرنسية، والتي تحصل على أفضل ما في العالمين.نقدم نهج عصبي عالية الدقة التي تعززها نهج قائم على بديل عالمي جديد لتوضيح التنبؤات.نقدم سمات مساعدة "لتوفير تعقيد تفسير الضبط.
يهدف تصحيح الخطأ النحوي (GEC) إلى تصحيح أخطاء الكتابة ومساعدة المتعلمين في اللغة على تحسين مهاراتهم في الكتابة. ومع ذلك، تميل نماذج GEC الحالية إلى إنتاج تصحيحات زائفة أو تفشل في اكتشاف الكثير من الأخطاء. يعد نموذج تقدير الجودة ضروريا لضمان أن يحصل ا لمتعلمون على نتائج GEC دقيقة وتجنب مضللة من الجمل المصححة بشكل سيء. يمكن أن تولد نماذج GEC المدربة جيدا العديد من الفرضيات عالية الجودة من خلال فك التشفير، مثل البحث الشعاع، والتي توفر أدلة GEC القيمة ويمكن استخدامها لتقييم جودة GEC. ومع ذلك، تهمش النماذج الحالية أدلة GEC المحتملة من فرضيات مختلفة. تقدم هذه الورقة شبكة التحقق العصبية (Vernet) لتقدير جودة GEC مع فرضيات متعددة. تحدد Vernet تفاعلات بين الفرضيات مع رسم بياني للمنطق وإجراء نوعين من آليات الاهتمام لنشر أدلة GEC للتحقق من جودة الفرضيات التي تم إنشاؤها. تظهر تجاربنا على أربع مجموعات بيانات GEC أن Vernet يحصل على أداء اكتشاف الأخطاء النحوية الحديثة، وتحقق أفضل نتائج تقدير الجودة، وتحسين أداء GEC بشكل كبير من خلال فرضيات إعادة النشر. تتوفر جميع رموز البيانات والمصادر في https://github.com/thunlp/vernet.
إنٌنا نعيش في عصر علامته المميٌزة هي استخدام الأعداد كالأرقام في كل شأن من شؤون الحياة على إطلاقها، و لكن هناك دائما صعوبات يواجهها الكثيرون في قراءة العدد بشكل صحيح و سليم، حيث يلجأ بعضي إلى قراءته باللهجة العامٌيٌة دون التٌقيٌد بضوابطه، و بعضهم الآخر يتجنٌب العدد جهده، فيلجأ إلى الألفاظ اللغويٌة الدٌالٌة على العدد. لهذا نحاول في هذا البحث أن نلقي الضٌوء على بعض القضايا الخاصٌة بالعدد، و ما يتعلق بها من قواعد و ضوابط و ملحقات، محاولين التٌركيز على نقاط الاختلاف؛ لترجيح مانراه أكثر إقناعا و منطقيٌة، كما نحاول التٌفريق بين الرٌقم و العدد، و ذكر الأعداد البسيطة و مراتب الأعداد عند كل من علماء الفلسفة و الرٌياضيٌات و النٌحو و اللغة لربط هذه العلوم بعضها ببعض.
استرجاع المرور والترتيب هو مهمة رئيسية في الإجابة على الأسئلة المفتوحة واسترجاع المعلومات. تعتمد الأساليب الفعالة الحالية في الغالب على المستردين المعتمدين على النموذج العميق المدربين مسبقا. تم عرض هذه الأساليب نموذجا بفعالية المطابقة الدلالية بين ال استعلامات والمرورات، أيضا في وجود عدم تطابق الكلمات الرئيسية، أي الممرات ذات الصلة بالاستعلام ولكن لا تحتوي على كلمات رئيسية مهمة. في هذه الورقة، نعتبر المسترد الكثيف (DR) وطريقة استرجاع الممر، و Re-Ranker Reveer، وهي طريقة إعادة ترتيب الشعبية. في هذا السياق، نحقق رسميا كيفية استجابة هذه النماذج والتكيف مع نوع معين من عدم تطابق الكلمة الرئيسية - التي تحدث عن طريق الكلمة الأساسية التي تحدث في استفسارات. من خلال التحقيق التجريبي، نجد أن الأخطاء المطبعية يمكن أن تؤدي إلى انخفاض كبير في فعالية الاسترجاع والترتيب. بعد ذلك اقترحنا إطارا بسيطا للتدريب في الطباعة المطبعية عن DR و Bert Re-Ranker لمعالجة هذه المسألة. نظرا لنتائجنا التجريبية على مجموعة بيانات مرتبة مرور MS MARCO، بإظهار مجموعة بيانات MS MARCO، من خلال التدريب على الأخطاء المطبعية المقترحة، يمكن أن يصبح تدريب DR و Bert Re-Ranker قويا للمخططات المطبعية في الاستفسارات، مما يؤدي إلى تحسين فعالية محسنة بشكل كبير مقارنة بالنماذج المدربة دون محاسبة بشكل مناسب عن الأخطاء المطبعية.
في مجتمع اليوم، يتيح لنا التطوير السريع لتكنولوجيا الاتصالات التواصل مع أشخاص من أجزاء مختلفة من العالم. في عملية الاتصال، يعامل كل شخص الآخرين بشكل مختلف. يتم استخدام بعض الأشخاص في استخدام اللغة الهجومية والساخرة للتعبير عن آرائهم. هذه الكلمات تسبب الألم للآخرين وجعل الناس يشعرون بالأسفل. يتم استخدام بعض الأشخاص لتقاسم السعادة مع الآخرين وتشجيع الآخرين. هؤلاء الناس يجلبون الفرح والأمل في الآخرين من خلال كلماتهم. على منصات وسائل التواصل الاجتماعي، فإن هذين النوعين من اللغة هم في كل مكان. إذا كان الناس يرغبون في جعل العالم عبر الإنترنت مكانا أفضل، فسيتعين عليهم التعامل معهما. لذلك تحديد اللغة الهجومية ولغة الأمل مهمة أساسية. كانت هناك العديد من المهام حول اللغة المسيئة. تستخدم مهمة مشتركة على الكشف عن الكلام عن الأمل للمساواة والتنوع والإدماج في LT-EDI 2021-EACL 2021 وجهة نظر فريدة أخرى - لتحديد لغة الأمل في تقديم مساهمات في المجتمع. نموذج XLM-Roberta هو نموذج ممتاز متعدد اللغات. استخدم فريقنا نموذج XLM-Roberta ذو ضبط ضبطه لإنجاز هذه المهمة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا