اسم الفريق: Team-8 Embeddia Tool: مستند عبر اللغات استرداد Zosa et al.DataSet: مجموعات بيانات الأخبار الإستونية ولاتفيا مختصر: تواجه وسائل الإعلام الأخبار المعاصرة كميات متزايدة من البيانات المتاحة التي يمكن استخدامها عند تحديد أولويات أخبار جديدة وتفتيك واكتشافها.في هذا العمل، نقترح منهجية لاسترداد مقالات مثيرة للاهتمام في بيئة اكتشاف أخبار عبر الحدود.وبشكل أكثر تحديدا، نستكشف كيف يمكن إسقاط مجموعة من مستندات البذور في الإستونية في مساحة وثيقة لاتفيا وتكون كأساس لاكتشاف القطع الرواية المثيرة للاهتمام من أخبار اللاتفية التي من شأنها أن تهم القراء الإستونيين.تم تقييم المنهجية المقترحة من قبل الصحفي الإستوني الذي أكد أنه في أفضل تحديد، من أعلى 10 مستندات لاتفيا، تمثل نصفهم الأخبار التي من المثير للاهتمام أن تؤخذ من قبل دار الإعلام الإستونية وتقديمها إلى القراء الإستونيين.
Team Name: team-8 Embeddia Tool: Cross-Lingual Document Retrieval Zosa et al. Dataset: Estonian and Latvian news datasets abstract: Contemporary news media face increasing amounts of available data that can be of use when prioritizing, selecting and discovering new news. In this work we propose a methodology for retrieving interesting articles in a cross-border news discovery setting. More specifically, we explore how a set of seed documents in Estonian can be projected in Latvian document space and serve as a basis for discovery of novel interesting pieces of Latvian news that would interest Estonian readers. The proposed methodology was evaluated by Estonian journalist who confirmed that in the best setting, from top 10 retrieved Latvian documents, half of them represent news that are potentially interesting to be taken by the Estonian media house and presented to Estonian readers.
المراجع المستخدمة
https://aclanthology.org/
تقدير أنظمة التشابه الدلالي النصي (STS) درجة تشابه معنى بين جملتين.تقدر أنظمة STS عبر اللغات درجة تشابه معنى بين جملتين، كل منها بلغة مختلفة.عادة ما تستخدم الخوارزميات الحديثة عادة نهجا بالغضب بشدة، يصعب استخدامه لغات ضعف الموارد.ومع ذلك، يحتاج أي نه
تصف تصفية البيانات للترجمة الآلية (MT) مهمة تحديد مجموعة فرعية من Corpus المعطى، ربما صاخبة مع الهدف لزيادة أداء نظام MT الذي تم تدريبه على هذه البيانات المحددة. على مر السنين، تم اقتراح العديد من نهج الترشيح المختلفة. ومع ذلك، فإن تعريفات المهام الم
لقد أظهر استرجاع كثيف نجاحا كبيرا لمرتبة المرور باللغة الإنجليزية.ومع ذلك، لا تزال فعاليتها للغات غير الإنجليزية غير مستكشفة بسبب الحد من الموارد التدريبية.في هذا العمل، نستكشف تقنيات نقل مختلفة لتحقيق تصنيف الوثيقة من التوضيح باللغة الإنجليزية إلى ا
نقترح طريقة لتقطير معنى المعنى اللاإرادي للغات من تشفير الجملة متعددة اللغات.عن طريق إزالة المعلومات الخاصة باللغة من التضمين الأصلي، نسترجع التضمين الذي يمثله بشكل كامل معنى الجملة.تعتمد الطريقة المقترحة فقط على Corpora الموازي دون أي شروح بشرية.يتي
حققت المحولات التي تم تدريبها مسبقا على شركة متعددة اللغات، مثل MBERT و XLM-ROBERTA، قدرات نقل متبقية مثيرة للإعجاب. في إعداد نقل الطلقة الصفرية، يتم استخدام بيانات التدريب الإنجليزية فقط، ويتم تقييم النموذج الدقيق على لغة مستهدفة أخرى. على الرغم من