ترغب بنشر مسار تعليمي؟ اضغط هنا

الرسم البياني موضوع الاستقرائي التشفير التلقائي لتصنيف النص

Inductive Topic Variational Graph Auto-Encoder for Text Classification

196   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تم تطبيق الشبكات التنافسية الرسمية (GCNS) مؤخرا لتصنيف النص وإنتاج أداء ممتاز. ومع ذلك، فإن الأساليب القائمة على GCN القائمة لا تتحمل بنية دلالة كامنة واضحة للمستندات، مما يجعل التمثيلات المستفادة أقل فعالية ويصعب تفسيرها. كما أنها تتجاوز الطبيعة، وبالتالي لا يمكن التعامل مع مستندات خارج الجرأ. لمعالجة هذه المشكلات، نقترح نموذج رواية باسم الرسم البياني التلقائي الإحسابي، الذي يشتمل على نموذج موضوع في التشفير التلقائي التلقائي (VGAE) لالتقاط المعلومات الدلالية المخفية بين المستندات والكلمات. ترث T-VGAE إمكانية تفسير نموذج الموضوع وآلية انتشار المعلومات الفعالة من VGAE. يتعلق الأمر بالتمثيلات الاحتمالية للكلمات والمستندات من خلال ترميز الرسم العالمي وإعادة بناء الرسوم البيانية العالمية على مستوى الكلمة والرسوم البيانية ذات الأطباء الحيوي، حيث يتم اعتبار كل مستند بشكل فردي وتثبيتها من الرسم البياني العلوي العالمي لتمكين التعلم الاستقرائي. تبين تجاربنا على عدة مجموعات من مجموعات البيانات القياسية أن أسلوبنا تتفوق على النماذج التنافسية الحالية على تصنيف النص الإشراف وشبه إشراف، وكذلك تعلم تمثيل النص غير المدقق. بالإضافة إلى ذلك، فإنه يحتوي على زيادة الترجمة الترجمة الشاملة وقادرة على التعامل مع المستندات غير المرئية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصنيف النص القصير هو مهمة أساسية في معالجة اللغة الطبيعية.من الصعب بسبب عدم وجود معلومات السياق والبيانات المسمى في الممارسة العملية.في هذه الورقة، نقترح طريقة جديدة تسمى SHINE، والتي تعتمد على الشبكة العصبية الرسم البيانية (GNN)، لتصنيف النص القصير. أولا، نقوم بنمذت مجموعة بيانات النص القصيرة كشركة بيانية غير متجانسة هرمية تتكون من رسومات مكونة على مستوى Word والتي تقدم معلومات أكثر دلالة ونقصية.بعد ذلك، نتعلم ديناميكيا رسم بياني مستند قصير يسهل نشر الملصقات الفعالة بين النصوص القصيرة المشابهات.وبالتالي، فإن المقارنة مع الأساليب القائمة على GNN القائمة، والتألق يمكن أن يستغل أفضل التفاعلات بين العقد من نفس الأنواع والقبض على أوجه التشابه بين النصوص القصيرة.تظهر تجارب واسعة النطاق على مختلف مجموعات البيانات القصيرة القصيرة المعجمية أن التألق يتفوق باستمرار على الأساليب الحديثة، خاصة مع عدد أقل من الملصقات.
في تصنيف النص عبر اللغات، يطلب من أن البيانات التدريبية الخاصة بمهام المهام في لغات مصدر عالية الموارد متوفرة، حيث تكون المهمة مطابقة لتلك لغة مستهدفة منخفضة الموارد. ومع ذلك، يمكن أن يكون جمع هذه البيانات التدريبية غير ممكنة بسبب تكلفة العلامات وخصا ئص المهام ومخاوف الخصوصية. تقترح هذه الورقة حل بديل يستخدم فقط تضييق كلمة مهمة من المهام لغات الموارد عالية الموارد وقواميس ثنائية اللغة. أولا، نبني رسم بياني غير متجانس (DHG) من القواميس ثنائية اللغة. هذا يفتح إمكانية استخدام الشبكات العصبية الرسم البيانية للتحويل عبر اللغات. التحدي المتبقي هو عدم تجانس DHG لأنه يتم النظر في لغات متعددة. لمعالجة هذا التحدي، نقترح شبكة عصبية غير متجانسة مقرها القاموس (Dhgnet) التي تعالج بفعالية عدم تجانس DHG بشكل فعال بمقدار تجميعتين، وهي مجامعات على مستوى الكلمة ومستوى اللغة. توضح النتائج التجريبية أن أسلوبنا تفوق النماذج المحددة على الرغم من أنها لا تصل إلى كورسا كبيرة. علاوة على ذلك، يمكن أن يؤدي ذلك بشكل جيد على الرغم من أن القواميس تحتوي على العديد من الترجمات غير الصحيحة. تتيح قوتها لاستخدام مجموعة واسعة من القواميس مثل القاموس المصنوع تلقائيا وقاموس التعيد الجماعي، وهو أمر مناسب لتطبيقات العالم الحقيقي.
تلقت تصنيف النص الإشراف ضعيف اهتماما كبيرا في السنوات الأخيرة لأنه يمكن أن يخفف من العبء الثقيل في التخلص من البيانات الضخمة. من بينها، الأساليب التي يحركها الكلمات الرئيسية هي السائدة حيث يتم استغلال الكلمات الرئيسية التي توفرها المستخدم لتوليد ملصق ات زائفة للنصوص غير المسبقة. ومع ذلك، فإن الطرق الحالية تعالج الكلمات الرئيسية بشكل مستقل، وبالتالي تجاهل الارتباط بينها، والتي ينبغي أن تكون مفيدة إذا استغلت بشكل صحيح. في هذه الورقة، نقترح إطارا جديدا يسمى ClassKG لاستكشاف ارتباط الكلمات الرئيسية الكلمة الرئيسية على الرسم البياني للكلمة الرئيسية بواسطة GNN. إطار عملنا هو عملية تكرارية. في كل تكرار، نقوم أولا بإنشاء رسم بياني للكلمات الرئيسية، لذلك يتم تحويل مهمة تعيين ملصقات زائفة إلى التسجيل عبر الكلمات الرئيسية. لتحسين جودة التعليق التوضيحي، نقدم مهمة ذاتية الإشراف على الصنع بتقسيم Annetator Sigcraph، ثم Finetune IT. باستخدام الملصقات الزائفة التي تم إنشاؤها بواسطة Annotator Siggraph، ثم تدريب مصنف نصي لتصنيف النصوص غير المسبق. أخيرا، نعيد استخراج الكلمات الرئيسية من النصوص المبوبة. تظهر تجارب واسعة النطاق على كل من مجموعات البيانات الطويلة والنص القصير أن طريقتنا تتفوق بشكل كبير على تلك الموجودة.
جذب إنشاء نص طويل مشروط وفقا لنص الإدخال القصير مؤخرا المزيد والمزيد من جهود البحثية. تركز معظم الأساليب الموجودة على إدخال معرفة إضافية لاستكمال نص الإدخال القصير، ولكن تجاهل مسألة الاتساق من النصوص التي تم إنشاؤها. لمعالجة مشكلة البحث المذكورة أعلا ه، تقترح هذه الورقة نهجا جديدا على مرحلتين لتوليد نص طويل متماسك. خاصة، نقوم أولا ببناء مسار مستوى المستند لكل نص إخراج مع كل جملة تضمين عقدة، ويقترح خريطة تنظيم ذاتية المنقحة (SOM) عن العقد مماثلة لعائلة من مسارات مستوى المستندات لبناء الموجهة الرسم البياني الدلالي. بعد ذلك، يقترح ثلاث طرق محاذاة منصرا فوقها لاستخراج الحد الأقصى لمسارات المطابقة أو الأخبار. تعتبر هذه المجموعة الدراسية الموجهة التي يتم توجيهها بشكل جيد محتوى إضافي ولكنه ذي صلة بنص المدخلات القصيرة، ثم يتم فك تشفيره بواسطة النموذج المستخدم المدرب مسبقا لتوليد نص طويل متماسك. تم إجراء تجارب واسعة على ثلاث مجموعات بيانات حقيقية، وتظهرت النتائج الواعدة أن النهج المقترح متفوقا على النهج التي من بين الفنون. عدد من معايير التقييم.
أظهر العمل الأخير على تصنيف المعنويات على مستوى جانب جانب الجسبي فعالية دمج الهياكل النحوية مثل أشجار الاعتمادية مع شبكات عصبية رسم بيانية (GNN)، ولكن هذه الأساليب عادة ما تكون عرضة للخطأ في التحليل. لتحسين الاستفادة من المعلومات الأساسية في مواجهة ا لأخطاء التي لا مفر منها، نقترح تقنية رسم بياني بسيطة ولكنها فعالة، Grapmerge، للاستفادة من التنبؤات من المحللين المختلفين. بدلا من تعيين مجموعة واحدة من المعلمات النموذجية إلى كل شجرة التبعية، نقدم أولا علاقات التبعية من يوزعات مختلفة قبل تطبيق GNNS على الرسم البياني الناتج. يسمح هذا نماذج GNN قوية بتحليل الأخطاء دون أي تكلفة حسابية إضافية، ويساعد على تجنب التغلب على التغلب والتجول من تكديس طبقة GNN عن طريق إدخال المزيد من التوصيلية في الرسم البياني للفرقة. تظهر تجاربنا في مهمة Semeval 2014 Task 4 و ACL 14 Twitter أن نموذج Graphmerge الخاص بنا ليس فقط تفوق النماذج مع شجرة الاعتماد الفردي، ولكن أيضا يدق نماذج فرقة أخرى دون إضافة معلمات النموذج.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا