ترغب بنشر مسار تعليمي؟ اضغط هنا

استخراج المواضيع مع الرسوم البيانية الوصية المتزامنة واللوانية الدلالية: النمذجة النمذجة العصبية للنصوص القصيرة

Extracting Topics with Simultaneous Word Co-occurrence and Semantic Correlation Graphs: Neural Topic Modeling for Short Texts

506   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أصبح نص قصير في الوقت الحاضر أشكالا أكثر عصرية من البيانات النصية، على سبيل المثال، منشورات Twitter، عناوين الأخبار ومراجعات المنتجات. يلعب استخراج الموضوعات الدلالية من النصوص القصيرة دورا مهما في مجموعة واسعة من تطبيقات NLP، ومصمم الموضوع العصبي الآن أداة رئيسية لتحقيقها. بدافع من تعلم موضوعات أكثر متماسكا ودلاليا، في هذه الورقة نطور نموذج موضوع عصبي رواية يدعى طراز موضوع الرسم البياني المزدوج Word (DWGTM)، والذي يستخرج الموضوعات من الرسوم البيانية المرتبطة بالكلمة المتزامنة وترابط العلاقة الدلالية. لتكون محددة، نتعلم ميزات كلمة من الرسم البياني العالمي للكلمة المشتركة، وذلك لاستيعاب معلومات حدوث كلمة غنية؛ ثم نقوم بإنشاء ميزات نصية مع ميزات Word، وإطعامها في شبكة تشفير للحصول على نسب موضوعية لكل نص؛ أخيرا، نعيد إعادة بناء الرسوم البيانية الرسمية والكلمات الرسم البياني مع التوزيعات الموضعية وميزات Word، على التوالي. بالإضافة إلى ذلك، لالتقاط دلالات الكلمات، نقوم أيضا بتطبيق ميزات Word لإعادة بناء الرسم البياني للعلاقة الدلالية كلمة محسوبة بواسطة Adgeddings المدربة للكلمة المدربة مسبقا. بناء على هذه الأفكار، نقوم بصياغة DWGTM في نموذج الترميز التلقائي وتدريبه بكفاءة مع روح الاستدلال التباين العصبي. تتحقق النتائج التجريبية التي يمكنها توليد DWGTM موضوعات أكثر متماسكة من النماذج الأساسية من طرازات موضوع الأساس.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقترح أن نقترح تصميم الرسوم البيانية التي تم تفكيكها عن الكلمات الفائقة من الفئة الدلالية الفائقة بين استخدامات الكلمات مع صياغة Bayesian لنموذج Black Block المرجح، وهو نموذج عام لرسوم بيانية عشوائية شعبية في علم الأحياء والفيزياء والعلوم الاجتماعية. من خلال توفير نموذج احتمامي للكلمة المتقدمة مما يعني أننا نهدف إلى الاقتراب من الفكرة الزلقة وحتى الآن استخدامها على نطاق واسع من معنى كلمة بطريقة جديدة.يتيح لنا الإطار المقترح من مقارنة نماذج Word بصرامة فيما يتعلق بملائمها للبيانات.نحن نؤدي تجارب واسعة وتحديد النموذج الأكثر كفاءة تجريبيا.
أحدث دراسات لاستخراج العلاقات (إعادة) الاستفادة من شجرة التبعية من جملة الإدخال لإدماج المعلومات السياقية التي يحركها بناء الجملة لتحسين الأداء النموذجي، مع القليل من الاهتمام المدفوع للقيود حيث محلل التبعية عالية الجودة في معظم الحالات غير متوفرة، خ اصة في سيناريوهات البناء. لمعالجة هذا القيد، في هذه الورقة، نقترح شبكات اتصال بياني اختصاصية (A-GCN) لتحسين الأساليب العصبية بطريقة غير مرئية لبناء الرسم البياني للسياق، دون الاعتماد على وجود محلل التبعية. على وجه التحديد، نقوم بإنشاء الرسم البياني من N-Grams المستخرجة من معجم مبني من المعلومات المتبادلة غير التاريخية (PMI) وتطبيق الانتباه عبر الرسم البياني. لذلك، يتم مرجح أزواج كلمة مختلفة من السياقات داخل وعبر N-Grams في النموذج وتسهيل إعادة استخدامها وفقا لذلك. النتائج التجريبية مع المزيد من التحليلات على مجموعات بيانات قياسية باللغة الإنجليزية لإظهار فعالية نهجنا، حيث يلاحظ أداء حديثة على كلا البيانات.
نماذج الموضوعات هي أدوات مفيدة لتحليل وتفسير المواضيع الأساسية الرئيسية للنص الكبير.تعتمد معظم نماذج الموضوعات على حدوث كلمة Word لحساب موضوع، أي مجموعة مرجحة من الكلمات التي تمثل معا مفهوم دلالي رفيع المستوى.في هذه الورقة، نقترح نموذجا جديدا جديدا م ختلفا عن الخفيفة الوزن في الوزن (SNTM) يتعلم سياق غني من خلال تعلم تمثيل موضوعي بالاشتراك من ثلاثة كلمات مشتركة وثيقة تنشأ ثلاثية.تشير نتائجنا التجريبية إلى أن نموذج الموضوع العصبي المقترح لدينا، SNTM، يتفوق على نماذج الموضوعات الموجودة سابقا في مقاييس الاتساق بالإضافة إلى دقة تجميع المستندات.علاوة على ذلك، بصرف النظر عن تماسك الموضوع وأداء التجميع، فإن طراز الموضوع العصبي المقترح لديه عدد من المزايا، وهي، كونها فعالة بشكل حسابي وسهل التدريب.
يتم إجراء جيل نصي من الرسوم البيانية الدلالية تقليديا مع الطرق الحتمية، والتي تولد وصفا فريدا نظرا رسم بياني للإدخال.ومع ذلك، تعترف مشكلة الجيل مجموعة من النواتج النصية المقبولة، وعرض الاختلاف المعجمي والمنظمات والدلية.لمعالجة هذا الفصل، نقدم مساهمتي ن رئيسيتين.أولا، نقترح نموذج رسم بياني مؤشر استوكاستكي، حيث يتضمن متغير كامنة في نموذج فك الترميز، واستخدامه في مجموعة.ثانيا، لتقييم تنوع الجمل التي تم إنشاؤها، نقترح مقياس التقييم التلقائي الجديد الذي يقيم بشكل مشترك تنوع المخرجات وجودة في إعداد متعدد المراجع.نقيم النماذج على مجموعات بيانات Webnlg باللغة الإنجليزية والروسية، وإظهار مجموعة من نماذج الاستوكاستك تنتج مجموعات متنوعة من الجمل التي تم إنشاؤها أثناء الاستفيؤ بجودة مماثلة لنماذج أحدث من النماذج.
يمكن أن تصدر نماذج الموضوع العصبي أو استبدال مدخلات كيس الكلمات مع التمثيلات المستفادة من نماذج التنبؤ بكلمة التنبؤ المدربة مسبقا مسبقا. تتمثل إحدى فائدة واحدة عند استخدام التمثيلات من النماذج متعددة اللغات هي أنها تسهل نمذجة موضوع الصلاع اللاحق للصف ر. ومع ذلك، في حين أنه لوحظ على نطاق واسع أن المدينات المدربة مسبقا يجب أن يتم ضبطها بشكل جيد لمهمة معينة، فليس من الواضح على الفور ما يجب أن يبدو الإشراف بهذه المهمة غير المزدوجة مثل نمذجة الموضوع. وبالتالي، نقترح عدة طرق لترميز التركيز الدقيق لتحسين كل من النمذجة النمذجة العصبية أحادية الألوان والصفرية. نحن نفكر في ضبط المهام الإضافية، بناء مهمة تصنيف موضوع جديد، دمج هدف تصنيف الموضوع بشكل مباشر في التدريب النموذجي للموضوع، واستمر التدريب قبل التدريب. نجد أن تمثيل تشفير الترميز بشكل جيد على تصنيف الموضوع وإدماج مهمة تصنيف الموضوع مباشرة في نمذجة موضوع يحسن جودة الموضوع، وأن تمثيل التشفير الدقيق في أي مهمة في أي مهمة هي أهم عامل لتسهيل النقل عبر اللغات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا