ظهرت العديد من الطرق المستندة إلى العنقودية للكشف عن التغير الدلالي بموظفي السياق مؤخرا.إنهم يتيحون تحليلا غرامة لاستخدام كلمة التغيير عن طريق تجميع المدينات في مجموعات تعكس استخدامات الكلمة المختلفة.ومع ذلك، فإن هذه الطرق غير مستقرة من حيث استهلاك الذاكرة ووقت الحساب.لذلك، فإنها تتطلب مجموعة محدودة من الكلمات المستهدفة التي سيتم اختيارها مسبقا.هذا يحد بشكل كبير من قابلية استخدام هذه الأساليب في مهام الاستكشافية المفتوحة، حيث يمكن اعتبار كل كلمة من المفردات هدف محتمل.نقترح طريقة قابلة للتطوير الجديدة للكشف عن تغيير الكلمات التي توفر مكاسب كبيرة في وقت المعالجة وفورات كبيرة في الذاكرة مع تقدم نفس التفسير وأداء أفضل من الأساليب غير القابلة للتحصيل.نوضح إمكانية تطبيق الأسلوب المقترح من خلال تحليل جثة كبيرة من مقالات إخبارية حول Covid-19.
Several cluster-based methods for semantic change detection with contextual embeddings emerged recently. They allow a fine-grained analysis of word use change by aggregating embeddings into clusters that reflect the different usages of the word. However, these methods are unscalable in terms of memory consumption and computation time. Therefore, they require a limited set of target words to be picked in advance. This drastically limits the usability of these methods in open exploratory tasks, where each word from the vocabulary can be considered as a potential target. We propose a novel scalable method for word usage-change detection that offers large gains in processing time and significant memory savings while offering the same interpretability and better performance than unscalable methods. We demonstrate the applicability of the proposed method by analysing a large corpus of news articles about COVID-19.
المراجع المستخدمة
https://aclanthology.org/
يمكن إلقاء العديد من الأسئلة المفتوحة على المشكلات بمثابة مهمة استقامة نصية، حيث يتم تسليم الإجابات السؤال والمرشح لتشكيل الفرضيات. ثم يحدد نظام ضمان الجودة إذا كان قواعد المعرفة الداعمة، التي تعتبر مباني محتملة، تنطوي على الفرضيات. في هذه الورقة، نح
في حين أن مجموعات بيانات الإجابة على الأسئلة المتنوعة (QA) اقترحت وساهمت بشكل كبير في تطوير نماذج التعلم العميق لمهام ضمان الجودة، فإن البيانات الحالية تقصر في جوانبين. أولا، نفتقر إلى مجموعات بيانات ضمان الجودة التي تغطي الأسئلة المعقدة التي تنطوي ع
يتعرض المستخدمون عبر الإنترنت اليوم للمقالات الإخبارية المضللة والدعاية ووظائف الإعلام على أساس يومي.وبالتالي، فقد تم تصميم عدد من الأساليب تهدف إلى تحقيق أخبار غير صحية وأكثر أمانا على الإنترنت واستهلاك وسائل الإعلام.النظم التلقائية قادرة على دعم ال
حققت نماذج الإجابة على الجدول (TableQa) ضعيفا (TableQA) أداء حديثة من خلال استخدام محول بيرت المدرب مسبقا إلى ترميز سؤال وجداول لإنتاج استعلام منظم للسؤال. ومع ذلك، في الإعدادات العملية يتم نشر أنظمة Tableqa عبر جدول كوربورا وجود توزيعات موضوعية وتوز
في حين أن حل مشاكل كلمة الرياضيات تلقائيا تلقى اهتماما كبيرا في مجتمع NLP، فقد عالجت القليل من الأعمال مشاكل كلمة الاحتمالية على وجه التحديد.في هذه الورقة، نحن نوظف وتحليل النماذج العصبية المختلفة للإجابة على مشاكل هذه الكلمة.في نهج من خطوتين، يتم تع