ترغب بنشر مسار تعليمي؟ اضغط هنا

Word Embeddings، التشابه الجيبكي والتعلم العميق لتحديد المهن \ والمهن في وسائل التواصل الاجتماعي المرتبط بالصحة

Word Embeddings, Cosine Similarity and Deep Learning for Identification of Professions \& Occupations in Health-related Social Media

189   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يركز Profner-St على اعتراف المهن والمهن من تويتر باستخدام البيانات الإسبانية.تعتمد مشاركتنا على مزيج من Adgeddings على مستوى الكلمات، بما في ذلك بيرت الإسبانية المدربة مسبقا، بالإضافة إلى تشابه التموين المحسوبة فوق مجموعة فرعية من الكيانات التي تعمل كمدخل للحصول على بنية فك تشفير التشفير مع آلية الاهتمام.أخيرا، حقق أفضل درجة لدينا قياس F1 من 0.823 في مجموعة الاختبار الرسمية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم هذه الورقة مساهمتنا في المهمة المشتركة الفرعية.ركز عملنا على تقييم مختلف تمثيلات تضمين الكلمة المدربة مسبقا مناسبة للمهمة.لقد استكشفنا مزيدا من مجموعات من المدينات من أجل تحسين النتائج الإجمالية.
تصف هذه الورقة إدخال مجموعة الأبحاث سيناء في مهمة SMM4H الرئيسية على تحديد المهن والمهن في وسائل التواصل الاجتماعي ذات الصلة بالصحة.على وجه التحديد، شاركنا في المهمة 7A: Tweet تصنيف ثنائي لتحديد ما إذا كانت تغريدة تحتوي على تذوق من المهن أم لا، وكذلك في المهمة 7 ب: كشف إزاحة وتصنيف NER الذي يهدف إلى تذكر المهن وتصنيفها عن التمييز بين المهن وحضال العمل.
تستخدم Word Embeddings على نطاق واسع في معالجة اللغة الطبيعية (NLP) لمجموعة واسعة من التطبيقات. ومع ذلك، فقد ثبت باستمرار أن هذه المدينات تعكس نفس التحيزات البشرية الموجودة في البيانات المستخدمة لتدريبها. معظم مؤشرات التحيز المنصوص عليها للكشف عن تحي ز Word Embeddings مؤشرات قائمة على أساس مقياس التشابه الجيبلي. في هذه الدراسة، ندرس آثار تدابير التشابه المختلفة وكذلك التقنيات الوصفية الأخرى أكثر من المتوسط ​​في قياس تحيزات تضمين الكلمات السياقية وغير السياقية. نظهر أن حجم التحيزات المكشوفة في Word Embeddings يعتمد على تدابير الإحصاءات الوصفية والتشابه المستخدمة لقياس التحيز. وجدنا أنه خلال الفئات العشرة من اختبارات جمعية تضمين Word، تكشف مسافة Mahalanobis عن أصغر التحيز، وتكشف مسافة Euclidean عن أكبر تحيز في Word Ageddings. بالإضافة إلى ذلك، تكشف النماذج السياقية عن تحيزات أقل حدة من نماذج تضمين الكلمة غير السياقية.
استخراج المعلومات الزمنية أمر بالغ الأهمية لمعالجة النص المتعلق بالصحة. إن استخراج المعلومات الزمنية هي مهمة صعبة للنماذج اللغوية لأنها تتطلب معالجة النصوص والأرقام. علاوة على ذلك، فإن التحدي الأساسي هو كيفية الحصول على مجموعة بيانات تدريبية واسعة ال نطاق. لمعالجة هذا، نقترح خوارزمية توليد البيانات الاصطناعية. أيضا، نقترح نموذج استخراج المعلومات الزمني متعدد المهام الجديد والتحقيق فيما إذا كان التعلم متعدد المهام يمكن أن يسهم في تحسين الأداء من خلال استغلال إشارات تدريبية إضافية مع بيانات التدريب الحالية. بالنسبة للتجارب، جمعنا مجموعة بيانات مخصصة تحتوي على نصوص غير منظم مع المعلومات الزمنية للأنشطة المتعلقة بالنوم. تظهر النتائج التجريبية أن استخدام البيانات الاصطناعية يمكن أن تحسن الأداء عندما يكون عامل التكبير 3. النتائج تظهر أيضا أنه عند استخدام التعلم متعدد المهام مع كمية مناسبة من البيانات الاصطناعية، يمكن أن يتحسن الأداء بشكل كبير من 82. إلى 88.6 ومن 88.6 ومن 83.9 إلى 91.9 فيما يتعلق بعشرات المطابقة الدقيقة والمتوسط ​​الكلي من التوقعات في الوقت المحدد، على التوالي.
في حين أن إنتاج المعلومات في الفترة الحديثة الأوروبية المبكرة هو موضوع بحثي جيدا، فإن السؤال كيف كان الناس يشاركون مع انفجار المعلومات الذي حدث في أوروبا الحديثة المبكرة، لا يزال غير مقصود. تقدم هذه الورقة التعليقات التوضيحية والتجارب التي تهدف إلى ا ستكشاف ما إذا كان بإمكاننا استخراج المعلومات ذات الصلة بالوسائط (المصدر، والإدراك، والمستقبل) من جثة من سجلات هولندية حديثة مبكرة من أجل الحصول على نظرة ثاقبة في وسائل الإعلام من أفراد الطبقة الوسطى الحديثة المبكرة من منظور تاريخي. في عدد من تجارب التصنيف مع الحقول العشوائية الشرطية، يتم اختبار ثلاث فئات من الميزات: (1) ميزات تضمين Word RAW و Binary، (II) ميزات المعجم، و (III) ميزات الأحرف. بشكل عام، يؤدي المصنف الذي يستخدم embeddings الخام أفضل قليلا. ومع ذلك، بالنظر إلى أن أفضل درجات F حوالي 0.60، نستنتج أن نهج التعلم الآلي يجب الجمع بين نهج قراءة وثيق للنتائج مفيدة للإجابة على أسئلة بحث التاريخ.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا