ترغب بنشر مسار تعليمي؟ اضغط هنا

اختيار كلمة البذور لتصنيف النص الإشراف ضعيف مع تقدير الأخطاء غير المركبات

Seed Word Selection for Weakly-Supervised Text Classification with Unsupervised Error Estimation

232   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يهدف تصنيف النص الخاضع للإشراف ضعيف إلى حثص نصوص النص من عدد قليل من كلمات البذور التي توفرها المستخدم. غالبية العمل العظمى من العمل السابق يفترض أن كلمات البذور عالية الجودة تعطى. ومع ذلك، فإن كلمات البذور المشروح للخبراء في بعض الأحيان غير تافهة للتوصل إلى ذلك. علاوة على ذلك، في إعداد التعلم الإشراف ضعيف، ليس لدينا أي وثيقة مسمى لقياس فعالية كلمات البذور، مما يجعل عملية اختيار كلمة البذور المشي في الظلام ". في هذا العمل، نقوم بإزالة الحاجة إلى كلمات البذور التي يديرها الخبراء من قبل كلمات البذور المرشحة الأولى (صاخبة) المرتبطة بأسماء الفئات. ثم تدريب نماذج مؤقتة بكلمات البذور المرشحة الفردية. أخيرا، نقدر معدل خطأ النماذج المؤقتة بطريقة غير منشأة. تتم إضافة كلمات البذور التي تسفر عن أدنى معدلات الخطأ المقدرة إلى مجموعة كلمات البذور النهائية. يوضح تقييم شامل لستة مهام التصنيف الثنائية على أربع مجموعات بيانات شائعة أن الطريقة المقترحة تتفوق على خط أساس باستخدام كلمات البذور اسم الفئة فقط والحصول على أداء مماثل كظرف باستخدام كلمات البذور المشروح من الخبراء.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

لا ينبغي أن يؤدي نظام الحوار الذكي في إعداد متعدد المنعطف إلى إنشاء الاستجابات فقط من نوعية جيدة، ولكن يجب أن تولد أيضا الردود التي يمكن أن تؤدي إلى نجاح طويل الأجل للحوار. على الرغم من أن الأساليب الحالية تحسنت جودة الاستجابة، إلا أنها تنظر إلى الإش ارات التدريبية الموجودة في بيانات الحوار. يمكننا الاستفادة من هذه الإشارات لتوليد بيانات التدريب الإشراف ضعيف لسياسة حوار التعلم ومقدر المكافآت، وجعل السياسة تتخذ إجراءات (يولد الردود) التي يمكن أن تتوقع الاتجاه المستقبلي للمحادثة الناجحة (مكافأة). نحاكي الحوار بين وكيل ومستخدم (على غرار وكيل مع هدف التعلم الخاضع للإشراف) للتفاعل مع بعضها البعض. يستخدم الوكيل حدودا ديناميكيا لإنشاء ردود متنوعة في المرتبة واستغلال الاستكشاف لتحديد عدد الردود الأعلى. يتم تقييم كل زوج عمل محاكي لحالة الدولة (يعمل كشروح ضعيفة) مع ثلاث وحدات الجودة: الدلالي ذات الصلة والتماسك الدلالي وتدفق متسق. تشير الدراسات التجريبية التي لديها معيارين إلى أن طرازنا يمكن أن نفذت بشكل كبير جودة الاستجابة وتؤدي إلى محادثة ناجحة على كل من التقييم التلقائي والحكم البشري.
تهدف التلخيص التلقائي إلى استخراج معلومات مهمة من كميات كبيرة من البيانات النصية من أجل إنشاء إصدار أقصر من النصوص الأصلية مع الحفاظ على معلوماتها. تعتمد تدريب نماذج تلخيص الاستخراجية التقليدية بشكل كبير على الملصقات المهندسة البشرية مثل التعليقات ال توضيحية على مستوى الجملة للجدارة القصيرة. ومع ذلك، في العديد من حالات الاستخدام، فإن هذه الملصقات المهندسة البشرية غير موجودة وتشريح يدويا الآلاف من المستندات لغرض نماذج التدريب قد لا تكون ممكنة. من ناحية أخرى، غالبا ما تكون إشارات غير مباشرة للتلخيص متاحة، مثل إجراءات الوكيل لحوارات خدمة العملاء، العناوين الرئيسية للمقالات الإخبارية، التشخيص للسجلات الصحية الإلكترونية، إلخ. في هذه الورقة، نقوم بتطوير إطار عام يولد تلخيصا استخراجا نتيجة ثانوية من مهام التعلم الإشراف للإشارات غير المباشرة عبر مساعدة آلية الاهتمام. نختبر نماذجنا على حوارات خدمة العملاء ونتائج التجريبية أظهرت أن نماذجنا يمكن أن تختار بشكل موثوق الجمل والكلمات الإعلامية للتلخيص التلقائي.
يعد إعادة صياغة نص إعادة صياغة مهمة NLP طويلة الأمد لديها تطبيقات متنوعة على مهام NLP المصب. ومع ذلك، تعتمد فعالية الجهود الحالية في الغالب على كميات كبيرة من البيانات الذهبية المسمى. على الرغم من أن المساعي غير الخاضعة للإشعال قد اقترحت تخفيف هذه ال مسألة، إلا أنها قد تفشل في توليد صياغة هادفة بسبب عدم وجود إشارات الإشراف. في هذا العمل، نذهب إلى أبعد من النماذج الحالية واقتراح نهج رواية لتوليد صياغة عالية الجودة مع بيانات الإشراف الضعيف. على وجه التحديد، نتعامل مع مشكلة توليد إعادة صياغة الإشراف ضعيفا من خلال: (1) الحصول على جمل متوازية ضعيفة وفرة عن طريق توسيع إعادة صياغة الزائفة القائمة على استرجاع؛ و (2) تطوير إطار تعليمي التعلم إلى تحديد عينات قيمة تدريجيا لضبط النموذج اللغوي المدرب مسبقا في مهمة إعادة توجيهها مسبقا في مهمة إعادة الصياغة الخطية. نوضح أن نهجنا يحقق تحسينات كبيرة على النهج القائمة غير المدمرة، وهو ما يمكن قابلة للمقارنة في الأداء مع أحدث من الفنون المغلفة.
في تصنيف النص عبر اللغات، يطلب من أن البيانات التدريبية الخاصة بمهام المهام في لغات مصدر عالية الموارد متوفرة، حيث تكون المهمة مطابقة لتلك لغة مستهدفة منخفضة الموارد. ومع ذلك، يمكن أن يكون جمع هذه البيانات التدريبية غير ممكنة بسبب تكلفة العلامات وخصا ئص المهام ومخاوف الخصوصية. تقترح هذه الورقة حل بديل يستخدم فقط تضييق كلمة مهمة من المهام لغات الموارد عالية الموارد وقواميس ثنائية اللغة. أولا، نبني رسم بياني غير متجانس (DHG) من القواميس ثنائية اللغة. هذا يفتح إمكانية استخدام الشبكات العصبية الرسم البيانية للتحويل عبر اللغات. التحدي المتبقي هو عدم تجانس DHG لأنه يتم النظر في لغات متعددة. لمعالجة هذا التحدي، نقترح شبكة عصبية غير متجانسة مقرها القاموس (Dhgnet) التي تعالج بفعالية عدم تجانس DHG بشكل فعال بمقدار تجميعتين، وهي مجامعات على مستوى الكلمة ومستوى اللغة. توضح النتائج التجريبية أن أسلوبنا تفوق النماذج المحددة على الرغم من أنها لا تصل إلى كورسا كبيرة. علاوة على ذلك، يمكن أن يؤدي ذلك بشكل جيد على الرغم من أن القواميس تحتوي على العديد من الترجمات غير الصحيحة. تتيح قوتها لاستخدام مجموعة واسعة من القواميس مثل القاموس المصنوع تلقائيا وقاموس التعيد الجماعي، وهو أمر مناسب لتطبيقات العالم الحقيقي.
تلقت تصنيف النص الإشراف ضعيف اهتماما كبيرا في السنوات الأخيرة لأنه يمكن أن يخفف من العبء الثقيل في التخلص من البيانات الضخمة. من بينها، الأساليب التي يحركها الكلمات الرئيسية هي السائدة حيث يتم استغلال الكلمات الرئيسية التي توفرها المستخدم لتوليد ملصق ات زائفة للنصوص غير المسبقة. ومع ذلك، فإن الطرق الحالية تعالج الكلمات الرئيسية بشكل مستقل، وبالتالي تجاهل الارتباط بينها، والتي ينبغي أن تكون مفيدة إذا استغلت بشكل صحيح. في هذه الورقة، نقترح إطارا جديدا يسمى ClassKG لاستكشاف ارتباط الكلمات الرئيسية الكلمة الرئيسية على الرسم البياني للكلمة الرئيسية بواسطة GNN. إطار عملنا هو عملية تكرارية. في كل تكرار، نقوم أولا بإنشاء رسم بياني للكلمات الرئيسية، لذلك يتم تحويل مهمة تعيين ملصقات زائفة إلى التسجيل عبر الكلمات الرئيسية. لتحسين جودة التعليق التوضيحي، نقدم مهمة ذاتية الإشراف على الصنع بتقسيم Annetator Sigcraph، ثم Finetune IT. باستخدام الملصقات الزائفة التي تم إنشاؤها بواسطة Annotator Siggraph، ثم تدريب مصنف نصي لتصنيف النصوص غير المسبق. أخيرا، نعيد استخراج الكلمات الرئيسية من النصوص المبوبة. تظهر تجارب واسعة النطاق على كل من مجموعات البيانات الطويلة والنص القصير أن طريقتنا تتفوق بشكل كبير على تلك الموجودة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا