ترغب بنشر مسار تعليمي؟ اضغط هنا

تمثيل وثيقة السياق غير المدعومة

Unsupervised Contextualized Document Representation

256   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تحتاج العديد من مهام NLP إلى إصدارات فعالة من الوثائق النصية.Arora et al.، 2017 توضح أن الشيخوخة المرجحة المرجحة بسيطة لنماذج Word بشكل متكرر في كثير من الأحيان نماذج. SCDV (MEKALA et al.، 2017) يمتد هذا من الجمل إلى DoCu-Mets عن طريق توظيف مجموعة ناعمة ومتخرفة على مجلات الكلمات المحسوبة مسبقا. كيف على الإطلاق، كلتا التقنيتين تتجاهل الشخصية السياقية Polysemyand للكلمات. في هذا القبيل، نتعامل مع هذه المشكلة عن طريق اقتراح CTXDV + Bert (CTXD)، وهو تمثيل بسيط وفعال للأمم المتحدة الذي يشتمل على مزين بالقدمين النصي (ديفلين وآخرون)، 2019 . WEShow أن تضميننا تضميننا أوريجيز نال SCDV، برت قبل قطار، وعدة أخرى على العديد من مجموعات بيانات التصنيف. Wealso إظهار تضميننا فعالا - نيس على مهام أخرى، مثل مفهوم مباراة جي ومشاكل تشابه. في الإضافة، نعرض أن Bertv + Bertperformsfine-Tune-Tune Bert و AP-PROACHES المختلفة AP-PROACHES في السيناريوهات ذات البيانات المحدودة أمثلة لقطات.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أظهرت التقدم المحرز الأخير في نماذج اللغة المستندة إلى المحولات الاحترام نجاحا كبيرا في تعلم التمثيل السياقي للنص.ومع ذلك، نظرا لتعقيد الاهتمام من الدرجة الثانية، يمكن لمعظم نماذج المحولات مسبقا التعامل مع النص القصير نسبيا.لا يزال يمثل تحديا عندما ي تعلق الأمر بنمذة مستندات طويلة جدا.في هذا العمل، نقترح استخدام شبكة انتباه الرسوم البيانية أعلى نموذج المحولات مسبقا متوفرة لتعلم تضمين الوثائق.تتيح لنا شبكة انتباه الرسم البياني هذه الاستفادة من الهيكل الدلالي الرفيع المستوى للوثيقة.بالإضافة إلى ذلك، استنادا إلى نموذج وثيقة الرسم البياني لدينا، نقوم بتصميم استراتيجية تعليمية بسيطة بسيطة للتعبير عن نماذجنا بمقدار كبير من الكائنات الكبيرة.تجريبيا، نوضح فعالية نهجنا في تصنيف الوثائق ومهام استرجاع المستندات.
لتسليط الضوء على تحديات تحقيق تنصيب تمثيل المجال النصي في إعداد غير محدد، في هذه الورقة نقوم بتحديد مجموعة تمثيلية من النماذج المطبقة بنجاح من مجال الصورة.نحن نقيم هذه النماذج على 6 مقاييس DEFENTANCE، وكذلك على مهام التصنيف المصب والمهماطوب.لتسهيل ال تقييم، نقترح اثنين من مجموعات البيانات الاصطناعية مع عوامل تابعة معروفة.تبرز تجاربنا الفجوة الموجودة في المجال النصي وتوضح أن بعض العناصر مثل التمثيل SPARSITY (كحيز حثي)، أو اقتران التمثيل مع وحدة فك الترميز يمكن أن يؤثر على deventanglement.إلى حد ما من معرفتنا، فإن عملنا هو المحاولة الأولى لتقاطع تحسس وتصوير تمثيل غير مدهش، ويوفر الإطار التجريبي ومجموعات البيانات لفحص التطورات المستقبلية في هذا الاتجاه.
استخراج العلاقات غير المدعومة من قبل أزواج كيان التجمع التي لها نفس العلاقات في النص. تقوم بعض الأساليب المتنوعة (VAE) المتنوعة (VAE) بتدريب نموذج استخراج العلاقة كترفيه يولد تصنيفات العلاقة. يتم تدريب وحدة فك الترميز جنبا إلى جنب مع التشفير لإعادة ب ناء إدخال التشفير بناء على تصنيفات العلاقة التي يتم إنشاؤها المشن. هذه التصنيفات هي متغير كامن حتى يطلب منهم اتباع توزيع مسبق محدد مسبقا يؤدي إلى تدريب غير مستقر. نقترح تقنية استخراج العلاقات التي تعتمد عليها VAE تقوم بتغيير هذا القيد باستخدام التصنيفات كمتغير متوسط ​​بدلا من متغير كامن. على وجه التحديد، تكون التصنيفات مشروطة بإدخال الجملة، في حين أن المتغير الكامن مشروط على كل من التصنيفات وإدخال الجملة. يتيح ذلك نموذجنا لتوصيل وحدة فك الترميز مع التشفير دون وضع قيود على توزيع التصنيف؛ الذي يحسن استقرار التدريب. يتم تقييم نهجنا على بيانات DataSet NYT وتفوق الطرق الحديثة.
في هذه الورقة، نقدم مساهمتنا في مهمة Semeval-2021 1: تنبؤ التعقيد المعجمي، حيث ندمج الممتلكات اللغوية والإحصائية والدلية للكلمة المستهدفة وسياقها كميزات ضمن إطار تعلم الجهاز (ML) للتنبؤ بالتعقيد المعجميوبعدعلى وجه الخصوص، نستخدم شركة Bert Contentrali zed Word Adgeddings لتمثيل المعنى الدلالي للكلمة المستهدفة وسياقها.شاركنا في المهمة الفرعية المتمثلة في التنبؤ بدرجة تعقيد كلمات واحدة
تعرض تعقيدات الحسابية والذاكرة التربيعية للمحولات الكبيرة محدودة قابلية توسعها لتلخيص وثيقة طويلة.في هذه الورقة، نقترح هيبوس، وهو اهتمام مفكف مفكف من التشفير مع خطوات وضعية من الدرجة الأولى بفعالية المعلومات البارزة من المصدر.ونحن كذلك إجراء دراسة من هجية للانتباه الذاتية الفعالة الحالية.جنبا إلى جنب مع HEPOS، نحن قادرون على معالجة المزيد من الرموز عشرة أضعاف من النماذج الحالية التي تستخدم الاهتزازات الكاملة.للتقييم، نقدم مجموعة بيانات جديدة، الحكومة، مع وثائق وملخصات أطول بكثير.تشير النتائج إلى أن نماذجنا تنتج درجات Rouge أعلى بكثير من المقارنات التنافسية، بما في ذلك النتائج الجديدة من أحدث النتائج على PubMed.يوضح التقييم البشري أيضا أن نماذجنا تولد ملخصات أكثر إعلانية مع أخطاء أقل غير مانعة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا