ترغب بنشر مسار تعليمي؟ اضغط هنا

عرض التقطير مع بيانات غير مسفولة لاستخراج تأثيرات المخدرات الضارة من البيانات التي تم إنشاؤها من قبل المستخدم

View Distillation with Unlabeled Data for Extracting Adverse Drug Effects from User-Generated Data

339   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم خوارزمية استنادا إلى محولات متعددة الطبقات لتحديد ردود الفعل الدوائية الضارة (ADR) في بيانات وسائل التواصل الاجتماعي.يعتمد نموذجنا على خصائص المشكلة وخصائص ASTDDings Word السياقي لاستخراج وجهات نظرتين من المستندات.ثم يتم تدريب المصنف على كل طريقة عرض لتسمية مجموعة من المستندات غير المستخدمة لاستخدامها كتهيئة لتصنيف جديد في الرأي الآخر.أخيرا، يتم تدريب المصنف التهيئي في كل طريقة عرض باستخدام أمثلة التدريب الأولي.قمنا بتقييم نموذجنا في أكبر مجموعة بيانات ADR المتاحة للجمهور.تشهد التجارب أن نموذجنا يتفوق بشكل كبير على النماذج القائمة على المحولات مسبقا على البيانات الخاصة بالمجال.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تشمل النصوص التي تم إنشاؤها من قبل المستخدم أنواعا مختلفة من الخصائص الأسلوبية، أو الضوضاء.لا تتم معالجة مثل هذه النصوص بشكل صحيح من خلال محلل مورفيم الحاليين أو نماذج اللغة القائمة على النصوص الرسمية مثل الموسوعات أو المقالات الإخبارية.في هذه الورقة ، نقترح أذكيلة بسيطة مناسبة مورفولوجية (K-MT) التي يمكن أن تعالج بشكل أفضل الأسماء المعدنية والتعاوض واللغة العامية الإنترنت من بين أنواع أخرى من الضوضاء في النصوص التي تم إنشاؤها من قبل المستخدمين الكورية.لقد اختبرنا خصومنا من خلال إجراء مهام التصنيف في مراجعات الأفلام الكورية التي أنشأها المستخدم ومجموعات بيانات الكلام الكراهية، ومجموعات بيانات التعرف على الكيان الكورية.من خلال اختباراتنا، وجدنا أن K-MT مناسبا بشكل أفضل لمعالجة علاوات الإنترنت والأسماء المناسبة والتعاملات المعدنية، مقارنة بمحلل مورفيم ومزمله لوائح التحميم على مستوى الطابع.
تعظيم البيانات غير المزعجة (UDA) هي تقنية شبه بيئية تنطبق على فقدان الاتساق لمعاقبة الاختلافات بين تنبؤات النماذج على (أ) أمثلة ملحوظة (غير مسفحة)؛ و (ب) الأمثلة الواضحة المقابلة التي تم إنتاجها عبر تكبير البيانات. في حين أن UDA اكتسبت شعبية لتصنيف ا لنصوص، فإن الأسئلة المفتوحة باقية من قرارات التصميم ضرورية وكيفية تمديد الطريقة لتسلسل مهام وضع العلامات. في هذه الورقة، نعيد فحص UDA وإظهار فعاليتها في العديد من المهام المتسلسلة. مساهمتنا الرئيسية هي دراسة تجريبية ل UDA لتأسيس مكونات الخوارزمية التي تمنح استحقاقات NLP. وخاصة، على الرغم من أن العمل السابق قد أكد على استخدام تقنيات تكبير ذكية بما في ذلك الترجمة ذات الترجمة المرجانية، نجد أن التناسق بين التنبؤات المخصصة للكلمات الملحوظة والمستبدلة غالبا ما تسفر عن فوائد قابلة للمقارنة (أو أكبر) مقارنة بنماذج الاضطرابات الأكثر تعقيدا. علاوة على ذلك، نجد أن تطبيق فقدان اتساق UDA يوفر مكاسب ذات مغزى دون أي بيانات غير قابلة للتحقيق على الإطلاق، أي في إعداد قياسي إشرافي. باختصار، لا تحتاج UDA إلى عدم إدراكها لتحقيق الكثير من فوائدها المذكورة، ولا تتطلب تكبير بيانات معقدة لتكون فعالة.
يمكن أن تفحص نماذج استخراج أحداث المخدرات السلبية (ADE) بسرعة مجموعات كبيرة من نصوص وسائل التواصل الاجتماعي، والكشف عن ذكرات التفاعلات السلبية ذات الصلة بالمخدرات وتحريك التحقيقات الطبية.ومع ذلك، على الرغم من التقدم الأخير في NLP، فإنه غير معروف حالي ا إذا كانت هذه النماذج قوية في مواجهة النفي، والتي تنتشر عبر أصناف اللغة.في هذه الورقة، نقيم ثلاث أنظمة ثلاثية، تظهر هشاشةها ضد النفي، ثم نقدم استراتيجيتين ممكنين لزيادة متانة هذه النماذج: نهج خط أنابيب، بالاعتماد على مكون محدد للكشف عن النفي؛تكبير بيانات استخراج ADE لإنشاء عينات نفي بشكل مصطنع وتدريب النماذج الأخرى.نظهر أن كلا الاستراتيجيتين تجلب الزيادات الكبيرة في الأداء، مما أدى إلى خفض عدد الكيانات الزائفة المتوقعة من النماذج.سيتم إصدار بيانات DataSet و Code علنا لتشجيع البحث على الموضوع.
تحليل مورفولوجي (MA) والتطبيع المعجمي (LN) هي مهام مهمة للنص الياباني الذي تم إنشاؤه بواسطة المستخدمين (UGT).لتقييم ومقارنة أنظمة MA / LN المختلفة، قمنا ببناء كوربوس UGT اليابانية المتاحة للجمهور.يشتمل كوربوس لدينا على 929 جمل مشروحة مع معلومات مورفو لوجية وتطبيعا، إلى جانب معلومات الفئة المصنفة لظواهر خاصة بوحشية UGT.أظهرت التجارب على الجثة أداء أداء منخفضة من أساليب MA / LN الحالية للكلمات غير العامة والنماذج غير القياسية، مما يشير إلى أن الكائن ستكون معيارا صعبا لمزيد من البحث حول UGT.
في معظم سيناريوهات جهاز التقطير أو سرقة الترجمة الآلية العصبية، يتم استخدام فرضية التسجيل أعلى النموذج المستهدف (المعلم) لتدريب نموذج جديد (طالب).إذا كانت الترجمات المرجعية متاحة أيضا، فيمكن إظهار الفرضيات الأفضل (فيما يتعلق بالمراجع) وفرضيات فقراء إ ما إما إما إما أو إشرافها.تستكشف هذه الورقة طريقة مشهد أخذ العينات (تشذيب، فرضية ترشيحها وتشكيلها، واستكريسيا ومجمديها) مع الإنجليزية إلى التشيكية والإنجليزية إلى طرازات MT الألمانية باستخدام مقاييس تقييم MT القياسية.نظرا لأن الإرتفاع الدقيق والتركيبة مع البيانات الأصلية يؤدي إلى أداء أفضل عند مقارنتها بالتدريب فقط على البيانات الأصلية أو المركبة أو تركيها المباشر.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا