استخراج الكلمات الرئيسية هي مهمة تحديد الكلمات (أو تعبيرات متعددة الكلمة) التي تصف أفضل وثيقة معينة وخدمة في بوابات الأخبار لربط مقالات من مواضيع مماثلة. في هذا العمل، نطور وتقييم أساليبنا على أربع مجموعات بيانات جديدة تغطي لغات أقل ممثلة تمثيلا، لغات غنية بالمظورة في صناعة وسائل الإعلام الإخبارية الأوروبية (الكرواتية، الإستونية، اللاتفية والروسية). أولا، نؤدي تقييم اثنين من أساليب المحولات العصبية الخاضعة للإشراف، والتكلمة العصبية القائمة على المحولات لتحديد الكلمات الرئيسية (TNT-KID) وتمثيل التشفير ثنائي الاتجاه من المحولات (بيرت) مع وجود ذاكرة عشوائية قصيرة الأجل طويلة الأجل الطويلة الأجل (BILSTM) رأس التصنيف CRF)، ومقارنتها بموجب تردد خط الأساس - تعتمد على تردد المستندات (TF-IDF) مقرها. بعد ذلك، نظهر أنه من خلال الجمع بين الكلمات الرئيسية التي تم استرجها من قبل كل من الأساليب القائم على المحولات العصبية وتوسيع المجموعة النهائية من الكلمات الرئيسية ذات التقنية القائمة على TF-IDF غير المدعومة، يمكننا تحسين استدعاء النظام بشكل كبير، مما يجعلها مناسبة للاستخدام ك نظام التوصية في بيئة مجلس الإعلام.