في العمل السابق، فقد تبين أن بيرت يمكنه محاذاة الجمل المتبادلة بشكل كاف على مستوى الكلمة.نحن هنا التحقيق فيما إذا كان بإمكان بيرت أيضا أن تعمل أيضا كحاذاة على مستوى Char.اللغات التي تم فحصها هي اللغة الإنجليزية والإنجليزية المزيفة والألمانية واليونانية.نظهر أن اللغتين الوثيقة هي، فإن بيرت أفضل يمكن أن يحاذيها على مستوى الشخصية.يعمل BERT بالفعل بشكل جيد باللغة الإنجليزية إلى محاذاة اللغة الإنجليزية المزيفة، ولكن هذا لا يعمم اللغات الطبيعية إلى نفس المدى.ومع ذلك، يبدو أن قرب لغتين عامين عاملا.اللغة الإنجليزية ترتبط بالألمانية أكثر من اليونانية وينعكس ذلك في مدى تحريزه جيدا؛اللغة الإنجليزية إلى الألمانية أفضل من الإنجليزية إلى اليونانية.ندرس إجراءات متعددة وإظهار أن مصفوفات التشابه اللغات الطبيعية تظهر العلاقات الأضعفين بصرف النظر عن لغتين.
In previous work, it has been shown that BERT can adequately align cross-lingual sentences on the word level. Here we investigate whether BERT can also operate as a char-level aligner. The languages examined are English, Fake English, German and Greek. We show that the closer two languages are, the better BERT can align them on the character level. BERT indeed works well in English to Fake English alignment, but this does not generalize to natural languages to the same extent. Nevertheless, the proximity of two languages does seem to be a factor. English is more related to German than to Greek and this is reflected in how well BERT aligns them; English to German is better than English to Greek. We examine multiple setups and show that the similarity matrices for natural languages show weaker relations the further apart two languages are.
المراجع المستخدمة
https://aclanthology.org/
غالبا ما تكون نماذج اللغة المدربة مسبقا مسبقا (PLMS) باهظة الثمن بشكل أساسي في الاستدلال، مما يجعلها غير عملية في مختلف تطبيقات العالم الحقيقي المحدودة. لمعالجة هذه المشكلة، نقترح مقاربة تخفيض رمزية ديناميكية لتسريع استنتاج PLMS، والتي تسمى Tr-Bert،
أهداف المحاذاة الكامنة مثل CTC والفأس تحسن بشكل كبير نماذج الترجمة الآلية غير التلقائي.هل يمكنهم تحسين النماذج التلقائية أيضا؟نستكشف إمكانية تدريب نماذج الترجمة الآلية ذات الجهاز التلقائي بأهداف محاذاة كامنة، ومراقبة ذلك، في الممارسة العملية، ينتج هذ
يهدف البحث إلى تحديد نوع وسمات الشخصيات الظاهرة في برامج الأطفال لقناة CN، و لتحقيق ذلك اخترنا المنهج الوصفي التحليلي الذي يعتمد على تحليل المحتوى كأداة للبحث و تم بناء شبكة لتحليل المضمون مؤلفة من (6) فئات رئيسة، و تم تطبيقها على (295) برنامج أطفال
في هذا العمل، نقترح إطارا جديدا، برت التعلم المتبادل المتماثل التدرج (Gaml-Bert)، لتحسين الخروج المبكر من Bert.مساهمات Gaml-Bert هي طي ثنائي.نقوم بإجراء مجموعة من التجارب الطيارية، والتي توضح أن تقطير المعرفة المتبادلة بين الخروج الضحل والخروج العميق
تعد التعامل الدقيق مع أي نوع من أنواع الغموض مهمة رئيسية في معالجة اللغة الطبيعية، حيث وصلت إلى تقدير كبير مؤخرا بسبب تطوير نماذج اللغة التي تعتمد على السياق واستخدام Word أو Adgeddings.في هذا السياق، يهدف عملنا إلى تحديد كيفية ربط نموذج تمثيل اللغة