إن اكتشاف المهن في النصوص ذات صلة بمجموعة من سيناريوهات التطبيق الهامة، مثل الذكاء التنافسي والتحليل الاجتماعي والمندول الاجتماعي أو تعدين البيانات المرتبطة بالصحة الصحية. على الرغم من الأهمية وأنواع البيانات غير المتجانسة التي تذكر المهن، كانت جهود التعدين النصية للتعرف عليها محدودة. ويرجع ذلك إلى عدم وجود إرشادات توضيحية واضحة وعالية ذهبية عالية الجودة. يمكن اعتبار بيانات وسائل التواصل الاجتماعي مصدرا ذا صلة للمعلومات للمراقبة في الوقت الفعلي للمجموعات المهنية المعرضة للخطر في سياق الأوبئة مثل واحد CovID-19، مما يسهل استراتيجيات التدخل للمهن في الاتصال المباشر مع الوكلاء المعديين أو المتضررين من العقلية العقلية مشاكل صحية. لتقييم أساليب NLP الحالية وإنشاء الموارد، نظمت المسار الفرعي في SMM4H 2021، وتوفير المشاركين الرئيسيين مع مجموعة قياسية ذهبية من التغريدات المشروح يدويا (IAA من 0.919) بعد المبادئ التوجيهية التوضيحية المتاحة باللغة الإسبانية والإنجليزية، Gazetteer الاحتلال ، إصدار مترجم آلة من التغريدات، و STASTEXT AGEDDINGS. من بين 35 فريقا مسجلا، 11 قدم ما مجموعه 27 أشواط. قام المشاركون الأكثر أداء بنظامين يعتمدون على تقنيات NLP الأخيرة (E.G. المحولات) وحقق 0.93 درجة فئة في تصنيف النص و 0.839 في الاعتراف الكي Corpus: https://doi.org/10.5281/zenodo.4309356.
Detection of occupations in texts is relevant for a range of important application scenarios, like competitive intelligence, sociodemographic analysis, legal NLP or health-related occupational data mining. Despite the importance and heterogeneous data types that mention occupations, text mining efforts to recognize them have been limited. This is due to the lack of clear annotation guidelines and high-quality Gold Standard corpora. Social media data can be regarded as a relevant source of information for real-time monitoring of at-risk occupational groups in the context of pandemics like the COVID-19 one, facilitating intervention strategies for occupations in direct contact with infectious agents or affected by mental health issues. To evaluate current NLP methods and to generate resources, we have organized the ProfNER track at SMM4H 2021, providing ProfNER participants with a Gold Standard corpus of manually annotated tweets (human IAA of 0.919) following annotation guidelines available in Spanish and English, an occupation gazetteer, a machine-translated version of tweets, and FastText embeddings. Out of 35 registered teams, 11 submitted a total of 27 runs. Best-performing participants built systems based on recent NLP technologies (e.g. transformers) and achieved 0.93 F-score in Text Classification and 0.839 in Named Entity Recognition. Corpus: https://doi.org/10.5281/zenodo.4309356
المراجع المستخدمة
https://aclanthology.org/
تصبح الصحة العقلية أكثر اهتماما مؤخرا مؤخرا، والاكتئاب كونه مرض شائع جدا في الوقت الحاضر، ولكن أيضا اضطرابات أخرى مثل القلق أو الاضطرابات القهرية الهوس أو اضطرابات التغذية أو اضطرابات نقص الانتباه / اضطرابات نقص الانتباه / فرط النشاط. توفر كمية كبيرة
تقدم هذه الورقة مساهمتنا في المهمة المشتركة الفرعية.ركز عملنا على تقييم مختلف تمثيلات تضمين الكلمة المدربة مسبقا مناسبة للمهمة.لقد استكشفنا مزيدا من مجموعات من المدينات من أجل تحسين النتائج الإجمالية.
يستخدم عمل خطاب الشكوى من قبل البشر للتواصل مع عدم وجود عدم تطابق سلبي بين الواقع والتوقعات كرد فعل على وضع غير موات. تصنف النظرية اللغوية للبراغماتية شكاوى إلى مستويات شدة مختلفة تعتمد على تهديد الوجه الذي يرغب فيه الشكوى في القيام به. هذا مفيد بشكل
ركزت الأبحاث السائدة على خطاب الكراهية في الغالب في الوقت الحالي في مهمة تصنيف وظائف وسائل التواصل الاجتماعي بشكل رئيسي فيما يتعلق بطبقات نطاقات الكراهية المحددة مسبقا إلى حد ما.قد يكون هذا كافيا إذا كان الهدف هو اكتشاف وحذف الوظائف اللغوية المسيئة.و
السخرية عبارة عن تعبير لغوي يستخدم في كثير من الأحيان للتواصل مع عكس ما يقال، وعادة ما يكون شيئا غير سار للغاية بقصد الإهانة أو السخرية.الغموض الكامنة في التعبيرات الساخرة يجعل اكتشاف السخرية صعبة للغاية.في هذا العمل، نركز على الكشف عن السخرية في محا