في هذه الورقة، نتعلم مشكلة التمييز تلقائيا بين الكلمات اللاتينية الموروثة والمتوسطة. نقدم مجموعة بيانات جديدة والتحقيق في حالة لغات الرومانسية (الرومانية والإيطالية والفرنسية والإسبانية والبرتغالية والكانتالينية)، حيث تورث الكلمات مباشرة من التعايش اللاتيني مع الكلمات المقترضة من اللاتينية، واستكشاف ما إذا كان من الممكن التمييز التلقائي بينهما. بعد أن دخلت اللغة في مرحلة لاحقة، لم تعد الكلمات المستعارة تخضع لقواعد تحول الصوت التاريخية، وبالتالي فهي من المفترض أنها أقل تآكل، وهذا هو السبب في أننا نتوقع منهم أن يكون لهم هيكل جوهري مختلف بوسائل حسابية. نحن نوظف العديد من نماذج التعلم الآلي للتمييز تلقائيا بين الكلمات الموروثة والمتعرضة ومقارنة أدائها مع مجموعات ميزة مختلفة. نقوم بتحليل القوة التنبؤية النماذج على نسختين من مجموعات البيانات والأكبر والفيديو. نحن أيضا التحقيق في ما إذا كانت المعرفة المسبقة بالمخلفات توفر نتائج أفضل، وتستخدم ميزات حرف N-Gram المستخرجة من أزواج Word-Entymon ومن محاذاةها.
In this paper, we address the problem of automatically discriminating between inherited and borrowed Latin words. We introduce a new dataset and investigate the case of Romance languages (Romanian, Italian, French, Spanish, Portuguese and Catalan), where words directly inherited from Latin coexist with words borrowed from Latin, and explore whether automatic discrimination between them is possible. Having entered the language at a later stage, borrowed words are no longer subject to historical sound shift rules, hence they are presumably less eroded, which is why we expect them to have a different intrinsic structure distinguishable by computational means. We employ several machine learning models to automatically discriminate between inherited and borrowed words and compare their performance with various feature sets. We analyze the models' predictive power on two versions of the datasets, orthographic and phonetic. We also investigate whether prior knowledge of the etymon provides better results, employing n-gram character features extracted from the word-etymon pairs and from their alignment.
المراجع المستخدمة
https://aclanthology.org/
لوحظت نماذج الترجمة الآلية العصبية (NMT) لإنتاج ترجمات سيئة عندما يكون هناك عدد قليل من الجمل / لا توجد جمل متوازية لتدريب النماذج. في حالة عدم وجود بيانات متوازية، تحولت عدة طرق إلى استخدام الصور لتعلم الترجمات. نظرا لأن صور الكلمات، على سبيل المثال
يقترح هذا العمل تحليلا مكثفا للهندسة المعمارية المحول في إعداد الترجمة الآلية العصبية (NMT).مع التركيز على آلية اهتمام التشفير في فك التشفير، نثبت أن أوزان الاهتمام بانتظام أخطاء المحاذاة من خلال الاعتماد بشكل أساسي على الرموز غير المصنفة من تسلسل ال
الاختلاف الدلالي بلغات ذات صلة هو مصدر قلق رئيسي لللغويات التاريخية.نحن نحقق في التحقيق اللغوي في الاختلاف الدلالي من أزواج المعروفة باللغات الإنجليزية والرومانسية، عن طريق تدمير Word.تحقيقا لهذه الغاية، نقدم مجموعة بيانات جديدة من الإدراك في جميع أز
هدف البحث إلى التعرف على القدرة التمييزية للجزء الأول من مقياس السلوك التكيفي
للرابطة الأمريكية للتخلف العقلي في التمييز بين الأطفال من الأعمار المختلفة، من
خلال دراسة الفروق بين أداء عينة من الأطفال، حيث تكونت عينة البحث من ( 490 )
طفلا تتراوح أع
هدف البحث إلى التعرف على القدرة التمييزية للجزء الأول من مقياس
السلوك التكيفي للرابطة الأمريكية للتخلف العقلي في التمييز بين الأطفال
من الأعمار المختلفة، من خلال دراسة الفروق بين أداء عينة من
الأطفال، حيث تكونت عينة البحث من ( 490 ) طفلا تتراوح أع