عند تطوير نماذج الموضوع، سؤال مهم يجب طرحه هو: ما مدى عمل هذا النموذج في إعداد تطبيقي؟ نظرا لأن تقييم الأداء القياسي لتفسير الترجمة الشفوية يستخدم التدابير الآلية على غرار اختبارات التقييم البشري المختلف من الاستخدام التطبيقي، لا تزال تعميم هذه النماذج في سؤال. في هذه الورقة، نجري مسألة الصلاحية في تقييم النموذج الموضوعي وتقييم كيفية اتخاذ تدابير التماسك بالفمية للمجموعات المتخصصة المستخدمة في إعداد تطبيقي. أبلغ عن الأدب، ونقترح أربع فهمات من الترجمة الشفوية. نقيم هذه استخدام إطار تجريبي جديد يعكس الإعدادات التطبيقية المتنوعة، بما في ذلك التقييمات البشرية باستخدام وضع العلامات المفتوحة، نموذجية للبحث التطبيقي. تظهر هذه التقييمات أنه بالنسبة لبعض المجموعات المتخصصة، قد لا تؤدي تدابير التماسك القياسية إلى إبلاغ طراز الموضوع الأكثر ملاءمة أو عدد الأمثل من الموضوعات، ويتم الطعن في طرق التحقق من صحة أداء الترجمة الترجمة الشاملة كوسيلة لتأكيد جودة النموذج في غياب بيانات الحقيقة الأرضية.
When developing topic models, a critical question that should be asked is: How well will this model work in an applied setting? Because standard performance evaluation of topic interpretability uses automated measures modeled on human evaluation tests that are dissimilar to applied usage, these models' generalizability remains in question. In this paper, we probe the issue of validity in topic model evaluation and assess how informative coherence measures are for specialized collections used in an applied setting. Informed by the literature, we propose four understandings of interpretability. We evaluate these using a novel experimental framework reflective of varied applied settings, including human evaluations using open labeling, typical of applied research. These evaluations show that for some specialized collections, standard coherence measures may not inform the most appropriate topic model or the optimal number of topics, and current interpretability performance validation methods are challenged as a means to confirm model quality in the absence of ground truth data.
References used
https://aclanthology.org/
Neural topic models (NTMs) apply deep neural networks to topic modelling. Despite their success, NTMs generally ignore two important aspects: (1) only document-level word count information is utilized for the training, while more fine-grained sentenc
Abstract The scarcity of comprehensive up-to-date studies on evaluation metrics for text summarization and the lack of consensus regarding evaluation protocols continue to inhibit progress. We address the existing shortcomings of summarization evalua
From statistical to neural models, a wide variety of topic modelling algorithms have been proposed in the literature. However, because of the diversity of datasets and metrics, there have not been many efforts to systematically compare their performa
نتيجةً للتطور الهائل في العلوم والتكنولوجيا، والانتشار الواسع للإنترنت، باتت المعرفة البشرية في متناول كل شخص منا. لكن ومع هذا الكم الهائل من المعلومات، اصبح القارئ مشتتا بين مصادر عديدة تجعله يضيع في هذا الفضاء الواسع. انفجار المعلومات هذا تطلب وسائ
Moderation of reader comments is a significant problem for online news platforms. Here, we experiment with models for automatic moderation, using a dataset of comments from a popular Croatian newspaper. Our analysis shows that while comments that vio