نماذج الموضوعات هي أدوات مفيدة لتحليل وتفسير المواضيع الأساسية الرئيسية للنص الكبير.تعتمد معظم نماذج الموضوعات على حدوث كلمة Word لحساب موضوع، أي مجموعة مرجحة من الكلمات التي تمثل معا مفهوم دلالي رفيع المستوى.في هذه الورقة، نقترح نموذجا جديدا جديدا مختلفا عن الخفيفة الوزن في الوزن (SNTM) يتعلم سياق غني من خلال تعلم تمثيل موضوعي بالاشتراك من ثلاثة كلمات مشتركة وثيقة تنشأ ثلاثية.تشير نتائجنا التجريبية إلى أن نموذج الموضوع العصبي المقترح لدينا، SNTM، يتفوق على نماذج الموضوعات الموجودة سابقا في مقاييس الاتساق بالإضافة إلى دقة تجميع المستندات.علاوة على ذلك، بصرف النظر عن تماسك الموضوع وأداء التجميع، فإن طراز الموضوع العصبي المقترح لديه عدد من المزايا، وهي، كونها فعالة بشكل حسابي وسهل التدريب.
Topic models are useful tools for analyzing and interpreting the main underlying themes of large corpora of text. Most topic models rely on word co-occurrence for computing a topic, i.e., a weighted set of words that together represent a high-level semantic concept. In this paper, we propose a new light-weight Self-Supervised Neural Topic Model (SNTM) that learns a rich context by learning a topic representation jointly from three co-occurring words and a document that the triple originates from. Our experimental results indicate that our proposed neural topic model, SNTM, outperforms previously existing topic models in coherence metrics as well as document clustering accuracy. Moreover, apart from the topic coherence and clustering performance, the proposed neural topic model has a number of advantages, namely, being computationally efficient and easy to train.
المراجع المستخدمة
https://aclanthology.org/
يمكن أن تصدر نماذج الموضوع العصبي أو استبدال مدخلات كيس الكلمات مع التمثيلات المستفادة من نماذج التنبؤ بكلمة التنبؤ المدربة مسبقا مسبقا. تتمثل إحدى فائدة واحدة عند استخدام التمثيلات من النماذج متعددة اللغات هي أنها تسهل نمذجة موضوع الصلاع اللاحق للصف
تهدف تقدير الجودة (QE) من الترجمة الآلية (MT) إلى تقييم جودة الجمل التي ترجمتها الجهاز دون مراجع وهي مهمة في التطبيقات العملية ل MT.تتطلب Training Models QE بيانات موازية ضخمة بأشرفة توضيحية ذات جودة يدوية، وهي تستغرق وقتا طويلا ومكثفة العمالة للحصول
أصبح نص قصير في الوقت الحاضر أشكالا أكثر عصرية من البيانات النصية، على سبيل المثال، منشورات Twitter، عناوين الأخبار ومراجعات المنتجات. يلعب استخراج الموضوعات الدلالية من النصوص القصيرة دورا مهما في مجموعة واسعة من تطبيقات NLP، ومصمم الموضوع العصبي ال
مجردة التعرف على الكيانات المسماة (NER) هي مهمة NLP الأساسية، والتي صاغها عادة كتصنيف على سلسلة من الرموز. تشكل اللغات الغنية المورفولوجية (MRLS) تحديا لهذه الصياغة الأساسية، حيث لا تتزامن حدود الكيانات المسماة بالضرورة مع حدود الرمز المميز، بل يحترم
هناك نقص في شورا عالي الجودة للغات الجنوبية السلافية. مثل هذه الشركات مفيدة لعلماء الكمبيوتر والباحثين في العلوم الاجتماعية والعلوم الإنسانية على حد سواء، مع التركيز على العديد من تطبيقات اللغات والمحتوى وتطبيقات معالجة اللغة الطبيعية. تقدم هذه الورق