غير قادر على أهمية فهم الإعلان والكوميديا وسياسة الكلب الصافرة.ومع ذلك، يتم إعاقة البحوث الحسابية على غير قادر على عدم وجود مجموعات البيانات المتاحة.في هذه الورقة، نقترح مجموعة بيانات صينية كبيرة ومتنوعة لإنشاء وفهم غير قادر على منظور اللغويات الحسابية.نحن صياغة مهمة لا يمكن فهمها وتوفير كل من التحليل الكمي والنوعي لكل من كلمة اختبار تضمين التشابه واللغة المحددة مسبقا.تشير التجارب إلى أن هذه المهمة تتطلب فهم اللغة العميقة والضمان السليم والمعرفة العالمية وبالتالي يمكن أن يكون اختبارا جيدا من أجل نماذج اللغة المحددة مسبقا ونماذج المساعدة تؤدي بشكل أفضل على المهام الأخرى.
Cant is important for understanding advertising, comedies and dog-whistle politics. However, computational research on cant is hindered by a lack of available datasets. In this paper, we propose a large and diverse Chinese dataset for creating and understanding cant from a computational linguistics perspective. We formulate a task for cant understanding and provide both quantitative and qualitative analysis for tested word embedding similarity and pretrained language models. Experiments suggest that such a task requires deep language understanding, common sense, and world knowledge and thus can be a good testbed for pretrained language models and help models perform better on other tasks.
المراجع المستخدمة
https://aclanthology.org/
لفتت تلخيص الحوار اهتماما كبيرا مؤخرا. خاصة في مجال خدمة العملاء، يمكن للوكلاء استخدام ملخصات الحوار للمساعدة في زيادة أعمالهم من خلال معرفة قضايا العملاء بسرعة وتقدم الخدمة. تتطلب هذه التطبيقات ملخصات لاحتواء منظور مكبر صوت واحد ولديك هيكل تدفق موضو
اجتذبت تحليل المعنويات الاهتمام المتزايد في التجارة الإلكترونية. تعتبر أسابير المشاعر الأساسيين لمراجعات المستخدمين ذات قيمة كبيرة لذكاء الأعمال. تحليل المعنويات الفئة في الأساس (ACSA) ومراجعة التنبؤ بالتصنيف (RP) هما مهامان أساسيان للكشف عن أسطاطات
سنلقاشر 17000 وظيفة SNS مع كل من الكثافة العاطفية الشخصية للكاتب وهدف القارئ واحد لبناء مجموعة بيانات تحليل العاطفة اليابانية.في هذه الدراسة، نستكشف الفرق بين الكثافة العاطفية للكاتب والقراء مع هذه البيانات.وجدنا أن القارئ لا يمكن أن يكتشف تماما عواط
تقدم هذه الورقة مجموعة بيانات جديدة للفيديو واللغة مع إجراءات بشرية للاستدلال المنطقي متعدد الوسائط، والتي تركز على التعبيرات المتعمدة وجوقية تصف الإجراءات البشرية الديناميكية.تتكون DataSet من 200 فيديو، 5554 ملصقات عمل، و 1،942 ثلاثة توائم عمل من ال
في هذه الورقة، نقدم نيريل، مجموعة بيانات روسية للتعرف على الكيان المسمى واستخراج العلاقة.نيريل أكبر بكثير من مجموعات البيانات الروسية القائمة: حتى الآن تحتوي على 56 كيلو كيانات المسماة المشروحة وعلاقات مشروحة 39 ألفا.الفرق المهم له من مجموعات البيانا