اسم الفريق: Team-8 Embeddia Tool: مستند عبر اللغات استرداد Zosa et al.DataSet: مجموعات بيانات الأخبار الإستونية ولاتفيا مختصر: تواجه وسائل الإعلام الأخبار المعاصرة كميات متزايدة من البيانات المتاحة التي يمكن استخدامها عند تحديد أولويات أخبار جديدة وتفتيك واكتشافها.في هذا العمل، نقترح منهجية لاسترداد مقالات مثيرة للاهتمام في بيئة اكتشاف أخبار عبر الحدود.وبشكل أكثر تحديدا، نستكشف كيف يمكن إسقاط مجموعة من مستندات البذور في الإستونية في مساحة وثيقة لاتفيا وتكون كأساس لاكتشاف القطع الرواية المثيرة للاهتمام من أخبار اللاتفية التي من شأنها أن تهم القراء الإستونيين.تم تقييم المنهجية المقترحة من قبل الصحفي الإستوني الذي أكد أنه في أفضل تحديد، من أعلى 10 مستندات لاتفيا، تمثل نصفهم الأخبار التي من المثير للاهتمام أن تؤخذ من قبل دار الإعلام الإستونية وتقديمها إلى القراء الإستونيين.
Team Name: team-8 Embeddia Tool: Cross-Lingual Document Retrieval Zosa et al. Dataset: Estonian and Latvian news datasets abstract: Contemporary news media face increasing amounts of available data that can be of use when prioritizing, selecting and discovering new news. In this work we propose a methodology for retrieving interesting articles in a cross-border news discovery setting. More specifically, we explore how a set of seed documents in Estonian can be projected in Latvian document space and serve as a basis for discovery of novel interesting pieces of Latvian news that would interest Estonian readers. The proposed methodology was evaluated by Estonian journalist who confirmed that in the best setting, from top 10 retrieved Latvian documents, half of them represent news that are potentially interesting to be taken by the Estonian media house and presented to Estonian readers.
References used
https://aclanthology.org/
Semantic textual similarity (STS) systems estimate the degree of the meaning similarity between two sentences. Cross-lingual STS systems estimate the degree of the meaning similarity between two sentences, each in a different language. State-of-the-a
Data filtering for machine translation (MT) describes the task of selecting a subset of a given, possibly noisy corpus with the aim to maximize the performance of an MT system trained on this selected data. Over the years, many different filtering ap
Dense retrieval has shown great success for passage ranking in English. However, its effectiveness for non-English languages remains unexplored due to limitation in training resources. In this work, we explore different transfer techniques for docume
We propose a method to distill a language-agnostic meaning embedding from a multilingual sentence encoder. By removing language-specific information from the original embedding, we retrieve an embedding that fully represents the sentence's meaning. T
Transformers that are pre-trained on multilingual corpora, such as, mBERT and XLM-RoBERTa, have achieved impressive cross-lingual transfer capabilities. In the zero-shot transfer setting, only English training data is used, and the fine-tuned model i