ترغب بنشر مسار تعليمي؟ اضغط هنا

تشفير ضبط الدقيقة لتحسين النمذجة النمذجة النمذجة النمذجة

Fine-tuning Encoders for Improved Monolingual and Zero-shot Polylingual Neural Topic Modeling

319   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يمكن أن تصدر نماذج الموضوع العصبي أو استبدال مدخلات كيس الكلمات مع التمثيلات المستفادة من نماذج التنبؤ بكلمة التنبؤ المدربة مسبقا مسبقا. تتمثل إحدى فائدة واحدة عند استخدام التمثيلات من النماذج متعددة اللغات هي أنها تسهل نمذجة موضوع الصلاع اللاحق للصفر. ومع ذلك، في حين أنه لوحظ على نطاق واسع أن المدينات المدربة مسبقا يجب أن يتم ضبطها بشكل جيد لمهمة معينة، فليس من الواضح على الفور ما يجب أن يبدو الإشراف بهذه المهمة غير المزدوجة مثل نمذجة الموضوع. وبالتالي، نقترح عدة طرق لترميز التركيز الدقيق لتحسين كل من النمذجة النمذجة العصبية أحادية الألوان والصفرية. نحن نفكر في ضبط المهام الإضافية، بناء مهمة تصنيف موضوع جديد، دمج هدف تصنيف الموضوع بشكل مباشر في التدريب النموذجي للموضوع، واستمر التدريب قبل التدريب. نجد أن تمثيل تشفير الترميز بشكل جيد على تصنيف الموضوع وإدماج مهمة تصنيف الموضوع مباشرة في نمذجة موضوع يحسن جودة الموضوع، وأن تمثيل التشفير الدقيق في أي مهمة في أي مهمة هي أهم عامل لتسهيل النقل عبر اللغات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نماذج الموضوعات هي أدوات مفيدة لتحليل وتفسير المواضيع الأساسية الرئيسية للنص الكبير.تعتمد معظم نماذج الموضوعات على حدوث كلمة Word لحساب موضوع، أي مجموعة مرجحة من الكلمات التي تمثل معا مفهوم دلالي رفيع المستوى.في هذه الورقة، نقترح نموذجا جديدا جديدا م ختلفا عن الخفيفة الوزن في الوزن (SNTM) يتعلم سياق غني من خلال تعلم تمثيل موضوعي بالاشتراك من ثلاثة كلمات مشتركة وثيقة تنشأ ثلاثية.تشير نتائجنا التجريبية إلى أن نموذج الموضوع العصبي المقترح لدينا، SNTM، يتفوق على نماذج الموضوعات الموجودة سابقا في مقاييس الاتساق بالإضافة إلى دقة تجميع المستندات.علاوة على ذلك، بصرف النظر عن تماسك الموضوع وأداء التجميع، فإن طراز الموضوع العصبي المقترح لديه عدد من المزايا، وهي، كونها فعالة بشكل حسابي وسهل التدريب.
أصبح نص قصير في الوقت الحاضر أشكالا أكثر عصرية من البيانات النصية، على سبيل المثال، منشورات Twitter، عناوين الأخبار ومراجعات المنتجات. يلعب استخراج الموضوعات الدلالية من النصوص القصيرة دورا مهما في مجموعة واسعة من تطبيقات NLP، ومصمم الموضوع العصبي ال آن أداة رئيسية لتحقيقها. بدافع من تعلم موضوعات أكثر متماسكا ودلاليا، في هذه الورقة نطور نموذج موضوع عصبي رواية يدعى طراز موضوع الرسم البياني المزدوج Word (DWGTM)، والذي يستخرج الموضوعات من الرسوم البيانية المرتبطة بالكلمة المتزامنة وترابط العلاقة الدلالية. لتكون محددة، نتعلم ميزات كلمة من الرسم البياني العالمي للكلمة المشتركة، وذلك لاستيعاب معلومات حدوث كلمة غنية؛ ثم نقوم بإنشاء ميزات نصية مع ميزات Word، وإطعامها في شبكة تشفير للحصول على نسب موضوعية لكل نص؛ أخيرا، نعيد إعادة بناء الرسوم البيانية الرسمية والكلمات الرسم البياني مع التوزيعات الموضعية وميزات Word، على التوالي. بالإضافة إلى ذلك، لالتقاط دلالات الكلمات، نقوم أيضا بتطبيق ميزات Word لإعادة بناء الرسم البياني للعلاقة الدلالية كلمة محسوبة بواسطة Adgeddings المدربة للكلمة المدربة مسبقا. بناء على هذه الأفكار، نقوم بصياغة DWGTM في نموذج الترميز التلقائي وتدريبه بكفاءة مع روح الاستدلال التباين العصبي. تتحقق النتائج التجريبية التي يمكنها توليد DWGTM موضوعات أكثر متماسكة من النماذج الأساسية من طرازات موضوع الأساس.
مجردة التعرف على الكيانات المسماة (NER) هي مهمة NLP الأساسية، والتي صاغها عادة كتصنيف على سلسلة من الرموز. تشكل اللغات الغنية المورفولوجية (MRLS) تحديا لهذه الصياغة الأساسية، حيث لا تتزامن حدود الكيانات المسماة بالضرورة مع حدود الرمز المميز، بل يحترم ون الحدود المورفولوجية. لمعالجة NER في MRLS، نحتاج إلى الإجابة عن أسئلتين أساسيتين، وهي، ما هي الوحدات الأساسية التي سيتم تسميةها، وكيف يمكن الكشف عن هذه الوحدات وتصنيفها في إعدادات واقعية (أي، حيث لا يتوفر مورفولوجيا ذهبية). نحن نحقق تجريبيا في هذه الأسئلة حول معيار NENT الجديد، مع الشروح النيرية المتوازية من المستوى المتوازي ومستوى مورفيم، والتي نطورنا للعبرية الحديثة، وهي لغة غنية بالغريات المورفولوجية. تظهر نتائجنا أن النمذجة الصرخة على حدود مورفولوجية تؤدي إلى تحسين الأداء النيري، وأن الهندسة المعمارية المختلطة الهجينة، التي يسبقها ner يسبقها التحلل المورفولوجي، تتفوق بشكل كبير على خط الأنابيب القياسي، حيث يسبق التحلل المورفولوجي بشكل صارم NER، وضع شريط أداء جديد لكليهما العبرية NER والعبرية المهام المورفولوجية.
هناك نقص في شورا عالي الجودة للغات الجنوبية السلافية. مثل هذه الشركات مفيدة لعلماء الكمبيوتر والباحثين في العلوم الاجتماعية والعلوم الإنسانية على حد سواء، مع التركيز على العديد من تطبيقات اللغات والمحتوى وتطبيقات معالجة اللغة الطبيعية. تقدم هذه الورق ة سيرجال سير عمل للتعدين محتوى ويكيبيديا ومعالجته في كوربورا معالجته اللغوي، المطبق على البوسنة والكبلانية والكرواتية والكرواتية والصلبيون والرويبو الكرواتية والسلوفانية والسلوفينية. نحن نجعل سبعة كوربورا متاحة للجمهور. نعرض هذه كوربورا من خلال مقارنة محتوى ويكيبيديا الأساسي، افتراضنا أن محتوى ويكيبيداس يعكس المصالح على نطاق واسع في موضوعات مختلفة في هذه الدول البلقان. نقوم بإجراء مقارنة المحتوى باستخدام خوارزميات نمذجة الموضوع ومقارنات التوزيع المختلفة. تظهر النتائج أن جميع ويكيبيداس متشابهة موضعيا تماما، مع كلها تغطي الفن والثقافة والأدب، في حين أنها تحتوي على اختلافات في الجغرافيا والسياسة والتاريخ والعلوم.
تعرض هذه الورقة تعدد الأبعاد التعدين على المحتوى الذي تم إنشاؤه من قبل المستخدم الذي تم جمعه من Newshires وخدمات الشبكات الاجتماعية بثلاث لغات مختلفة: اللغة الإنجليزية --- لغة عالية الموارد، المالطية --- لغة منخفضة الموارد، والالططية-الإنجليزية -- لغ ة تبديل الكود.العديد من طرازات لغة التصنيف العصبي المتعددة التي تلبي اللغات التي تلبيها اللغات الإنجليزية واللطاطية واللطاطية والإنجليزية وكذلك الثانية) خمسة أبعاد الرأي الاجتماعي المختلفة، وهي الذاتية، قطبية المعنويات، العاطفة والسخرية والسخرية، مقدمة.تتم مناقشة النتائج لكل نموذج تصنيف لكل البعد الاجتماعي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا