ترغب بنشر مسار تعليمي؟ اضغط هنا

التصنيف المخروطي لتصميم موضوع فيء من فئة واحدة

Conical Classification For Efficient One-Class Topic Determination

299   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

كما ينمو الإنترنت في الحجم، فهذا يفعل مقدار المعلومات القائمة على النص الموجود.بالنسبة للعديد من المساحات التطبيق، فإن الأمر أساسي لعزل وتحديد النصوص التي تتعلق بموضوع معين.في حين أن التصنيف من الفئة من الفئة سيكون مثاليا لهذه التحليل، فهناك نقص قريب في البحث فيما يتعلق بالنهج الفعالة مع قوة تنبؤية عالية.من خلال الإشارة إلى أن مجموعة المستندات التي يرغبنا في تحديدها كمجموعات خطية إيجابية لنموذج مساحة المتجهات التي تمثل نصنا، نقترح تصنيف مخروطي، وهو نهج يسمح لنا بتحديد ما إذا كان المستند من موضوع معين في حسابيبطريقة فعالة.نقترح أيضا استبعاد طبيعي، نسخة معدلة من الفصل العادي الذي يجعله أكثر ملاءمة في سياق التصنيف من فئتين.نظهر في تحليلنا أن نهجنا ليس لديه فقط قوة تنبؤية فقط على مجموعات البيانات الخاصة بنا، ولكنه أسرع أيضا في حسابه.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الهند هي واحدة من أغنى مراكز اللغات على الأرض وهي متنوعة للغاية وتعدد اللغات. ولكن بصرف النظر عن عدد قليل من اللغات الهندية، ما زال معظمهم يعتبرون فقراء الموارد. نظرا لأن معظم تقنيات NLP تتطلب معرفة لغوية لا يمكن تطويرها إلا من قبل الخبراء والمتحدثين الأصليين في هذه اللغة أو أنها تتطلب الكثير من البيانات المسمى باهظة الثمن مرة أخرى لتوليد، فإن مهمة تصنيف النص تصبح تحديا لمعظم الهندي اللغات. الهدف الرئيسي من هذه الورقة هو معرفة كيف يمكن للمرء الاستفادة من التشابه المعجمي الموجود باللغات الهندية في سيناريو متعدد اللغات. هل يمكن إعادة استخدام نموذج تصنيف مدرب على لغة هندية واحدة لغات هندية أخرى؟ لذا، أجرينا تصنيف نصي بالرصاص عن طريق استغلال التشابه المعجمي وملاحظ أن طرازنا ينفذ بشكل أفضل في تلك الحالات حيث يتداخل المفردات بين مجموعات البيانات اللغوية كحد أقصى. تؤكد تجاربنا أيضا أن نموذجا واحدا متعدد اللغات مدرب عبر رابط استغلال اللغة يتفوق على الأساس من الهوامش الهامة.
تم تطبيق الشبكات التنافسية الرسمية (GCNS) مؤخرا لتصنيف النص وإنتاج أداء ممتاز. ومع ذلك، فإن الأساليب القائمة على GCN القائمة لا تتحمل بنية دلالة كامنة واضحة للمستندات، مما يجعل التمثيلات المستفادة أقل فعالية ويصعب تفسيرها. كما أنها تتجاوز الطبيعة، وب التالي لا يمكن التعامل مع مستندات خارج الجرأ. لمعالجة هذه المشكلات، نقترح نموذج رواية باسم الرسم البياني التلقائي الإحسابي، الذي يشتمل على نموذج موضوع في التشفير التلقائي التلقائي (VGAE) لالتقاط المعلومات الدلالية المخفية بين المستندات والكلمات. ترث T-VGAE إمكانية تفسير نموذج الموضوع وآلية انتشار المعلومات الفعالة من VGAE. يتعلق الأمر بالتمثيلات الاحتمالية للكلمات والمستندات من خلال ترميز الرسم العالمي وإعادة بناء الرسوم البيانية العالمية على مستوى الكلمة والرسوم البيانية ذات الأطباء الحيوي، حيث يتم اعتبار كل مستند بشكل فردي وتثبيتها من الرسم البياني العلوي العالمي لتمكين التعلم الاستقرائي. تبين تجاربنا على عدة مجموعات من مجموعات البيانات القياسية أن أسلوبنا تتفوق على النماذج التنافسية الحالية على تصنيف النص الإشراف وشبه إشراف، وكذلك تعلم تمثيل النص غير المدقق. بالإضافة إلى ذلك، فإنه يحتوي على زيادة الترجمة الترجمة الشاملة وقادرة على التعامل مع المستندات غير المرئية.
يتم وضع تقدير الجودة على مستوى الجملة (QE) من الترجمة الآلية بشكل تقليدي كملقمة الانحدار، ويتم قياس أداء نماذج QE عادة بواسطة ارتباط بيرسون مع ملصقات بشرية. حققت نماذج QE الأخيرة مستويات ارتباطا غير مرئي مسبقا بأحكام بشرية، لكنها تعتمد على نماذج لغوي ة محلية متعددة اللغات الكبيرة باهظة الثمن بشكل حسابي وجعلها غير ممكنة لتطبيقات العالم الحقيقي. في هذا العمل، نقوم بتقييم العديد من تقنيات ضغط النماذج ل QE والعثور على ذلك، على الرغم من شعبيتها في مهام NLP الأخرى، فإنها تؤدي إلى ضعف الأداء في وضع الانحدار هذا. نلاحظ أن هناك حاجة إلى معلمة نموذجية كاملة لتحقيق نتائج SOTA في مهمة الانحدار. ومع ذلك، فإننا نجادل بأن مستوى التعبير عن نموذج في مجموعة مستمرة غير ضرورية لإحضار تطبيقات المصب في QE، وإظهار أن إعادة صياغة QE كمشكلة تصنيف وتقييم نماذج QE باستخدام مقاييس التصنيف من شأنها أن تعكس أدائها الفعلي بشكل أفضل في الواقع تطبيقات العالم.
اللغة العربية هي اللغة الرسمية البالغ 22 دولة، تحدث بأكثر من 400 مليون متحدث.تستخدم كل واحد من هذا البلد على الأقل لهجة محادثة الحياة اليومية.ثم، العربية لديها 22 لهجة على الأقل.يمكن كتابة كل لهجة في البرامج النصية العربية أو العربية.تركز أحدث الأبحا ث على بناء نموذج لغة وجزعة تدريب لكل لهجة، في كل برنامج نصي.بعد هذه التقنية تعني إنشاء 46 موارد مختلفة (بما في ذلك اللغة العربية القياسية الحديثة، MSA) للتعامل مع لغة واحدة فقط.في هذه الورقة، استخرفنا مجموعة واحدة، ونقترح خوارزمية واحدة لإنشاء كائن تدريب واحد تلقائيا باستخدام بنية نموذج تصنيف واحد لتحليل المعنويات MSA ولهجات مختلفة.بعد مراجعة كوربوس التدريب يدويا، تتفوق النتائج التي تم الحصول عليها جميع نتائج الأدب البحثية ل Test Test Corpora.
تطبق هذه الورقة نمذجة الموضوع لفهم موضوعات صحة الأم والاهتمامات والأسئلة المعبرين عنها في المجتمعات عبر الإنترنت على مواقع الشبكات الاجتماعية.ندرس تحليل Dirichlet الكامن (LDA) وطريقين حديثين: نموذج موضوع عصبي مع تقطير المعرفة (KD) ونموذج الموضوع المد مج (ETM) على نصوص صحة الأم يتم جمعها من Reddit.يتم تقييم النماذج على جودة موضوع الاستدلال والموضوع، باستخدام مقاييس التقييم التلقائي والتقييم البشري.نحن نحلل قطع اتصال بين المقاييس التلقائية والتقييمات البشرية.في حين أن LDA يؤدي الأفضل بشكل عام مع مقاييس التقييم التلقائي NPMI والتماسك، فإن نموذج الموضوع العصبي مع تقطير المعرفة مواتية من خلال تقييم الخبراء.ونحن أيضا إنشاء خبير جديد جزئيا مشروح موضوع صحة الأم

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا