ترغب بنشر مسار تعليمي؟ اضغط هنا

أكثر سخونة: نقل الموضوع الهرمي المثلى مع تمثيلات السياق التوضيحية

HOTTER: Hierarchical Optimal Topic Transport with Explanatory Context Representations

242   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

غالبا ما تكون معالجة اللغات الطبيعية (NLP) هي العمود الفقري لأنظمة اليوم لتفاعلات المستخدم واسترجاع المعلومات وغيرها. تعتمد العديد من تطبيقات NLP هذه على تمثيلات متخصصة متخصصة (E.G. Adgeddings Word، نماذج الموضوع) التي تحسن القدرة على السبب في العلاقات بين وثائق Corpus. يقترن التقدم بالتقدم المحرز في التمثيلات المستفادة، كما أن مقاييس التشابه المستخدمة لمقارنة تمثيل الوثائق تتطور أيضا، مع اختلاف العديد من المقترحات في وقت الحساب أو الترجمة الشفوية. في هذه الورقة نقترح امتدادا لمقياس مسافة توثيق هجينة ناشئة محددة تجمع بين نماذج الموضوع و Adgeddings Word: النقل الهرمي للموضوع (Hott). في محددة، نقوم بتوسيع Hott باستخدام تمثيلات الكلمات المحسنة للسياق. نحن نقدم التحقق من صحة نهجنا على مجموعات البيانات العامة، باستخدام برت نموذج اللغة لمهمة تصنيف المستندات. تشير النتائج إلى أداء تنافسي من متري Hott الموسعة. علاوة على ذلك، قم بتطبيق مقياس التشغيل السريع وتمديده لدعم أبحاث الوسائط التعليمية، بمهمة استرجاع للمواضيع المطابقة في المناهج الدراسية الألمانية إلى ممرات الكتب المدرسية التعليمية، إلى جانب تقديم وثيقة توضيحية مساعدة تمثل الموضوع المهيمن للوثيقة المستردة. في دراسة المستخدم، تفضل طريقة تفسيرنا على الكلمات الرئيسية الموضوعية العادية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

مع الوفاء المتزايد من نصوص الاجتماعات، اجتذبت ملخص الاجتماع المزيد والمزيد من الاهتمام من الباحثين. حققت طريقة التدريب المسبق غير المعروضة على أساس هيكل المحولات المبلغة مع ضبط المهام المصب الناجمة نجاحا كبيرا في مجال تلخيص النص. ومع ذلك، فإن الهيكل الدلالي وأسلوب حقول الاجتماع يختلف تماما عن مقالات. في هذا العمل، نقترح شبكة فك ترميز ترميز ترميز هيرسلجية ذات مهام مسبقة مهام متعددة. على وجه التحديد، نحن نخفي الجمل الرئيسية في تشفير مستوى الكلمات وتوليدها في وحدة فك الترميز. علاوة على ذلك، نقع بشكل عشوائي بعض محاذاة الدور في نص الإدخال وإجبار النموذج على استعادة علامات الدور الأصلية لإكمال المحاذاة. بالإضافة إلى ذلك، نقدم آلية تجزئة موضوعا لمواصلة تحسين جودة الملخصات التي تم إنشاؤها. تظهر النتائج التجريبية أن طرازنا متفوق على الأساليب السابقة في مجموعات بيانات ملخص الاجتماع AMI و ICSI.
ندرس مشكلة جديدة في التعلم عبر التحويلات المتبادلة لحدث القرار (ECR) حيث يتم تكييف النماذج المدربة على البيانات من لغة مصدر للتقييمات باللغات المستهدفة المختلفة. نقدم النموذج الأساسي الأول لهذه المهمة بناء على نموذج لغة XLM-Roberta، وهو نموذج لغوي مت عدد اللغات مسبقا. نحن نستكشف أيضا الشبكات العصبية اللغوية اللغوية (LANN) التي تتولى التمييز بين النصوص من المصدر واللغات المستهدفة لتحسين تعميم اللغة ل ECR. بالإضافة إلى ذلك، نقدم آليتين رواية لتعزيز التعلم التمثيلي العام ل LANN، والتي تتميز بما يلي: (1) محاذاة متعددة الرؤية لمعاقبة محاذاة التسمية العاصمة من Aquerence من الأمثلة في المصدر واللغات المستهدفة، و (2) النقل الأمثل إلى حدد أمثلة وثيقة في المصدر واللغات المستهدفة لتوفير إشارات تدريبية أفضل لتمييز اللغة. أخيرا، نقوم بإجراء تجارب مكثفة ل ECR عبر اللغات من الإنجليزية إلى الإسبانية والصينية لإظهار فعالية الأساليب المقترحة.
في خطوط أنابيب معالجة اللغة الطبيعية الحديثة، فمن الممارسات الشائعة أن تعزز "نموذج لغة تابعة له على جثة كبيرة من النص، ثم إلى Finetune '' من التمثيلات التي تم إنشاؤها من خلال الاستمرار في تدريبهم على مهمة استنصائية نصية تمييزية.ومع ذلك، ليس من الواضح فورا ما إذا كان المعنى المنطقي ضروري لنموذج الاستقصاء المنطقي يتم التقاطه بواسطة نماذج اللغة في هذه النموذج.نحن ندرس هذه الوصفة المؤقتة الوصيفة مع نماذج اللغة التي تم تدريبها على مهمة استقامة اللغة الاصطناعية، والنتائج الحالية على مجموعات الاختبار معرفة نماذج التحقيق "بديهيا" منطق الدرس الأول.
مع الصحة العقلية كملم مشكلة في NLP، يدور الجزء الأكبر من الأدب المعاصر حول بناء نماذج تنبؤات أمرية أفضل. كان البحث التركيز على تحديد مجموعات المناقشة في مجتمعات الصحة العقلية عبر الإنترنت محدودا نسبيا. علاوة على ذلك، نظرا لأن المنهجيات الأساسية المست خدمة في هذه الدراسات تتفق بشكل أساسي مع نماذج تعليم الآلة التقليدية والأساليب الإحصائية، فإن نطاق إدخال تمثيلات الكلمات السياقية لموضوع استخراج الموضوع والشيء من المجتمعات الصحية العقلية عبر الإنترنت مفتوحة. وهكذا، في هذا البحث، نقترح تمثيل موضوعي عميق مدعوم، وهي تقنية تمثيل بيانات رواية تستخدم ABLENCODERS لجمع بين المدينات السياقية العميقة مع المعلومات الموضعية، وتوليد تمثيلات قوية للتجميع النصي. التحقيق في الخطاب Reddit على اضطراب ما بعد الصدمة الاضطرابات (PTSD) واضطراب الإجهاد بعد الصدمة المعقدة (C-PTSD)، ونحن نرفض المجموعات المواضيعية التي تمثل المواضيع والسمات الكامنة التي تمت مناقشتها في Subretits R / PTSD و R / CPTSD. علاوة على ذلك، نقدم أيضا تحليلا نوعيا وتوصيف كل كتلة، وكشف مواضيع الخطاب السائدة.
منذ إنشائها، أدت نماذج اللغة القائمة على المحولات إلى مكاسب أداء مثيرة للإعجاب عبر مهام معالجة لغات طبيعية متعددة. بالنسبة للعربية، يتم تحقيق النتائج الحالية من أحدث البيانات في معظم مجموعات البيانات بواسطة نموذج اللغة العربية. على الرغم من هذه التطو رات الحديثة، يستمر الكشف عن السخرية والشاحنات بمهام تحديا باللغة العربية، بالنظر إلى التشكل الغني باللغة والتفاوت اللغوي والاختلافات الجدلية. تقدم فريق Project Team Profers لفريق SPPU-AASM للمهمة المشتركة Wanlp Arsarcasm المشتركة 2021، والمراكز حول الكشف عن السخرية ومشاعر القطبية للعقائز العربية. تقترح الدراسة نموذجا مختلطا، يجمع بين تمثيلات الجملة من أرابيرت مع ناقلات كلمة ثابتة تدربت على شركة الوسائط الاجتماعية العربية. يحقق النظام المقترح درجة F1-Saarchastic من 0.62 ودرجة F-PN من 0.715 بمهام الكشف عن السخرية والشاحنات، على التوالي. تشير نتائج المحاكاة إلى أن النظام المقترح تتفوق على العديد من النهج الحالية لكل من المهام، مما يشير إلى أن دمج تمثيلات نصية خالية من السياق والسياق يمكن أن تساعد في التقاط جوانب تكميلية من معنى الكلمات باللغة العربية. احتل النظام المرتبة الثانية والعاشرة في المهام الفرعية ذات الصلة بتكشف السخرية وتحديد المعنويات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا