التمييز التلقائي بين الكلمات اللاتينية الموروثة والمتوسطة في اللغات الرومانسية

نشر في جمعية اللغويات الحاسوبية ACL بتاريخ 2021 في مجال الذكاء الاصناعي والبحث باللغة English تحميل البحث

الملخص بالعربية

في هذه الورقة، نتعلم مشكلة التمييز تلقائيا بين الكلمات اللاتينية الموروثة والمتوسطة. نقدم مجموعة بيانات جديدة والتحقيق في حالة لغات الرومانسية (الرومانية والإيطالية والفرنسية والإسبانية والبرتغالية والكانتالينية)، حيث تورث الكلمات مباشرة من التعايش اللاتيني مع الكلمات المقترضة من اللاتينية، واستكشاف ما إذا كان من الممكن التمييز التلقائي بينهما. بعد أن دخلت اللغة في مرحلة لاحقة، لم تعد الكلمات المستعارة تخضع لقواعد تحول الصوت التاريخية، وبالتالي فهي من المفترض أنها أقل تآكل، وهذا هو السبب في أننا نتوقع منهم أن يكون لهم هيكل جوهري مختلف بوسائل حسابية. نحن نوظف العديد من نماذج التعلم الآلي للتمييز تلقائيا بين الكلمات الموروثة والمتعرضة ومقارنة أدائها مع مجموعات ميزة مختلفة. نقوم بتحليل القوة التنبؤية النماذج على نسختين من مجموعات البيانات والأكبر والفيديو. نحن أيضا التحقيق في ما إذا كانت المعرفة المسبقة بالمخلفات توفر نتائج أفضل، وتستخدم ميزات حرف N-Gram المستخرجة من أزواج Word-Entymon ومن محاذاةها.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث