استخدمت الأبحاث السابقة ميزات لغوية لإظهار أن الترجمات تظهر آثار التداخل اللغوي المصدر وأن الأشجار البلورية بين اللغات يمكن إعادة بناءها من نتائج الترجمات إلى نفس اللغة. أظهرت الأبحاث الحديثة أن مثيلات الترجمة (التداخل اللغوي المصدر) يمكن اكتشافها في مساحات تضمينها، ومقارنة مساحات الأدوات الخاصة ببيانات اللغة الأصلية مع أماكن التضمين الناتجة عن الترجمات إلى نفس اللغة، باستخدام اختلاف بسيط يستند إلى eigenvector من قياس ISOMORPHIMM. حتى الآن، لا يزال هناك سؤال مفتوح ما إذا كان يمكن إجراء تدابير البديلة البديلة البديلة البديلة نتائج أفضل. في هذه الورقة، نحن (ط) استكشاف مسافة Groomov-Hausdorff، (II) تقديم نسخة طيفية جديدة من الطريقة القائمة على eigenvector، و (III) تقييم جميع النهج مقابل قاعدة بيانات نموذجية لغوية واسعة (URIEL). نظرا لأن المسافات اللغوية الناتجة عن نهج التزييف الطيفي لدينا يمكن أن تتكاثر الأشجار الوراثية على قدم المساواة مع العمل السابق دون الحاجة إلى أي معلومات لغوية واضحة وأن النتائج يمكن تمديدها إلى اللغات غير الهندية الأوروبية. أخيرا، نظهر أن الطرق قوية تحت مجموعة متنوعة من ظروف النمذجة.
Previous research has used linguistic features to show that translations exhibit traces of source language interference and that phylogenetic trees between languages can be reconstructed from the results of translations into the same language. Recent research has shown that instances of translationese (source language interference) can even be detected in embedding spaces, comparing embeddings spaces of original language data with embedding spaces resulting from translations into the same language, using a simple Eigenvector-based divergence from isomorphism measure. To date, it remains an open question whether alternative graph-isomorphism measures can produce better results. In this paper, we (i) explore Gromov-Hausdorff distance, (ii) present a novel spectral version of the Eigenvector-based method, and (iii) evaluate all approaches against a broad linguistic typological database (URIEL). We show that language distances resulting from our spectral isomorphism approaches can reproduce genetic trees on a par with previous work without requiring any explicit linguistic information and that the results can be extended to non-Indo-European languages. Finally, we show that the methods are robust under a variety of modeling conditions.
المراجع المستخدمة
https://aclanthology.org/
من العوامل التي تؤثر في حركة الماء في التربة خصائص التربة بتركيبها و قوامها. إن نسبة مكونات التربة من المواد المعدنية و العضوية ذات تأثير في كثافتها الظاهرية. إذ إن الترب السطحية أكثر غنى بالمادة العضوية من الترب التحتية، لذلك و بشكل
عام فإن الكثافة
تهدف التحليل الدلالي القائم على الرسم البياني إلى تمثيل معنى نصي من خلال الرسوم البيانية الموجهة. باعتبارها واحدة من أكثر تمثيلات المعنى الواعدة في مجال الأغراض العامة، اكتسبت هذه الهياكل وتحليلها زخما فائدة كبير خلال السنوات الأخيرة، مع اقتراح عدة ش
جعلت النماذج المدربة مسبقا مثل تمثيل التشفير ثنائي الاتجاه من المحولات (بيرت)، قفزة كبيرة إلى الأمام في مهام معالجة اللغة الطبيعية (NLP).ومع ذلك، لا تزال هناك بعض أوجه القصور في مهمة نمذجة اللغة المعقدة (MLM) التي يؤديها هذه النماذج.في هذه الورقة، نق
جيل القصة هي مهمة تهدف إلى إنشاء قصة ذات مغزى تلقائيا. هذه المهمة صعبة لأنها تتطلب فهما رفيع المستوى للمعنى الدلالي للجمل والسببية لأحداث القصة. تفشل نماذج NaiveSequence-To-Stuncence عموما في الحصول على هذه المعرفة، حيث يصعب ضمان صحة منطقية في نموذج
تهدف استخراج العلاقات القائم على الحوار (إعادة) إلى استخراج العلاقة بين الحججتين التي تظهر في حوار. نظرا لأن الحوارات لديها خصائص حوادث الضمير الشخصية العالية وكثافة المعلومات المنخفضة، وبما أن معظم الحقائق العلائقية في الحوارات لا تدعمها أي جملة واح