حدد اللغويين التاريخيون منتظمين في عملية تغيير الصوت التاريخي.تستخدم الطريقة المقارنة تلك الأوستانتيات لإعادة بناء الكلمات البروتو بناء على النماذج الملحوظة بلغات الابنة.هل يمكن أن تتألف هذه العملية بكفاءة؟نحن نبذة عن مهمة إعادة إعمار بروتو كلمة، والتي يتعرض فيها النموذج للدراجات في لغات ابنة المعاصرة، ويتعين عليها التنبؤ بكلمة البروتو في لغة الجد.نحن نقدم مجموعة بيانات جديدة لهذه المهمة، والتي تشمل أكثر من 8000 مداخل مقارنة، وإظهار أن نماذج التسلسل العصبي تفوق الطرق التقليدية المطبقة على هذه المهمة حتى الآن.يكشف تحليل الأخطاء عن تقلب في قدرة النموذج العصبي لالتقاط تغييرات صوتية مختلفة، وارتباطا بعقد التغييرات.يكشف تحليل المدينات المستفادة أن نماذج تتعلم التعميمات ذات مغزى لفونيا، مما يتوافق مع التحولات الصوتيات المصادفة جيدا وثقنها اللغويات التاريخية.
Historical linguists have identified regularities in the process of historic sound change. The comparative method utilizes those regularities to reconstruct proto-words based on observed forms in daughter languages. Can this process be efficiently automated? We address the task of proto-word reconstruction, in which the model is exposed to cognates in contemporary daughter languages, and has to predict the proto word in the ancestor language. We provide a novel dataset for this task, encompassing over 8,000 comparative entries, and show that neural sequence models outperform conventional methods applied to this task so far. Error analysis reveals a variability in the ability of neural model to capture different phonological changes, correlating with the complexity of the changes. Analysis of learned embeddings reveals the models learn phonologically meaningful generalizations, corresponding to well-attested phonological shifts documented by historical linguistics.
المراجع المستخدمة
https://aclanthology.org/
نقترح نموذجا عاما عميقا يقوم بإجراء تحليل الطباعة وإعادة بناء الخط عن طريق تعلم أنواع DESENTANGLED من كل من نمط الخط وشكل الأحرف. يتيح لنمنا نهجنا على زيادة عدد أنواع الأحرف التي يمكننا النموذج بشكل فعال مقارنة بالطرق السابقة. على وجه التحديد، نستنتج
يتضمن البحث دراسة جيوديزية لإعادة تأهيل محاور الروافع الجسرية المخربة، و إعادة تعميرها و تعييرها من أجل استثمارها في عملية الانتاج. في البداية تم التطرق إلى أنواع الروافع الجسرية المستعملة في المعامل الضخمة، و الطرق الجيوديزية المستخدمة في بنائها، و
اقترح مخطط التعلم الخاص Texthide مؤخرا لحماية البيانات النصية الخاصة أثناء مرحلة التدريب عبر ترميز المثيل المزعوم.نقترح هجوم إعادة الإعمار الجديد لكسر Texthide من خلال استعادة بيانات التدريب الخاص، وبالتالي تكشف النقاب عن مخاطر الخصوصية على ترميز الم
كان التقدم المحرز الأخير في نمذجة اللغة مدفوعة ليس فقط بالتقدم في البنيات العصبية، ولكن أيضا من خلال تحسين الأجهزة والتحسين.في هذه الورقة، نؤيد نموذج اللغة الاحتمالية العصبية (NPLM) من بنغيو وآخرون.(2003)، والتي تسلسل ببساطة تضمين كلمة داخل نافذة ثاب
نقترح نهجا متعدد المهام، وهو نهج احتمالي لتسهيل استخراج العلاقات بالإشراف المستمر عن طريق إحضار أوثق تمثيل الجمل التي تحتوي على نفس أزواج قاعدة المعرفة.لتحقيق ذلك، نحن نحيز المساحة الكامنة من الجمل عبر السيارات الآلية (VAE) التي يتم تدريبها بشكل مشتر