ترغب بنشر مسار تعليمي؟ اضغط هنا

تمثيل تمثيل غير مؤظفي النص: تقييم في مجموعات البيانات الاصطناعية

Unsupervised Representation Disentanglement of Text: An Evaluation on Synthetic Datasets

354   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

لتسليط الضوء على تحديات تحقيق تنصيب تمثيل المجال النصي في إعداد غير محدد، في هذه الورقة نقوم بتحديد مجموعة تمثيلية من النماذج المطبقة بنجاح من مجال الصورة.نحن نقيم هذه النماذج على 6 مقاييس DEFENTANCE، وكذلك على مهام التصنيف المصب والمهماطوب.لتسهيل التقييم، نقترح اثنين من مجموعات البيانات الاصطناعية مع عوامل تابعة معروفة.تبرز تجاربنا الفجوة الموجودة في المجال النصي وتوضح أن بعض العناصر مثل التمثيل SPARSITY (كحيز حثي)، أو اقتران التمثيل مع وحدة فك الترميز يمكن أن يؤثر على deventanglement.إلى حد ما من معرفتنا، فإن عملنا هو المحاولة الأولى لتقاطع تحسس وتصوير تمثيل غير مدهش، ويوفر الإطار التجريبي ومجموعات البيانات لفحص التطورات المستقبلية في هذا الاتجاه.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تحتاج العديد من مهام NLP إلى إصدارات فعالة من الوثائق النصية.Arora et al.، 2017 توضح أن الشيخوخة المرجحة المرجحة بسيطة لنماذج Word بشكل متكرر في كثير من الأحيان نماذج. SCDV (MEKALA et al.، 2017) يمتد هذا من الجمل إلى DoCu-Mets عن طريق توظيف مجموعة نا عمة ومتخرفة على مجلات الكلمات المحسوبة مسبقا. كيف على الإطلاق، كلتا التقنيتين تتجاهل الشخصية السياقية Polysemyand للكلمات. في هذا القبيل، نتعامل مع هذه المشكلة عن طريق اقتراح CTXDV + Bert (CTXD)، وهو تمثيل بسيط وفعال للأمم المتحدة الذي يشتمل على مزين بالقدمين النصي (ديفلين وآخرون)، 2019 . WEShow أن تضميننا تضميننا أوريجيز نال SCDV، برت قبل قطار، وعدة أخرى على العديد من مجموعات بيانات التصنيف. Wealso إظهار تضميننا فعالا - نيس على مهام أخرى، مثل مفهوم مباراة جي ومشاكل تشابه. في الإضافة، نعرض أن Bertv + Bertperformsfine-Tune-Tune Bert و AP-PROACHES المختلفة AP-PROACHES في السيناريوهات ذات البيانات المحدودة أمثلة لقطات.
نقدم نهج عصبي نهاية إلى نهج لإنشاء جمل إنجليزية من تمثيلات المعنى الرسمي، وهياكل تمثيل الخطاب (DRSS).نستخدم نموذج تسلسل ثنائي التسلسل BI-LSTM القياسي بدلا من ذلك، والعمل بتمثيل إدخال DRS SNEARIZED، وتقييم رقائق الرقص على مستوى الأحرف ومستوى الكلمات.ن حصل على نتائج مشجعة للغاية فيما يتعلق بالمقاييس التلقائية المستندة إلى المرجعية مثل بلو.ولكن نظرا لأن هذا المقاييس يقوم فقط بتقييم مستوى السطح من الإخراج الناتج، فإننا نطور متريا جديدا، وارتفعت، والتي تستهدف الظواهر الدلالية المحددة.نحن نقوم بذلك مع خمسة مجموعات تحدي جيل DRS التركيز على العدد القطبي والقطبية والكمييات المسماة.الهدف من مجموعات التحدي هذه هو تقييم تنظيمي المولد العصبي وتعميم المدخلات غير المرئية.
نقترح النماذج العصبية لتوليد نص من تمثيلات معناية رسمية بناء على هياكل تمثيل الخطاب (DRSS).DRSS هي تمثيلات على مستوى المستند والتي تشفص بالتفاصيل الدلالية الغنية المتعلقة بالعلاقات الخطابية، والافتراض، والتعايش التعاوني داخل وعبر الجمل.نقوم بإضفاء ال طابع الرسمي على مهمة الجيل العصبي DRS إلى النص وتوفير حلول النمذجة لمشاكل طلب الشرط وتسمية التسمية المتغيرة التي تجعل الجيل من DRSS غير تافهة.يعتمد مولدنا على نموذج Treelstm الرواية القادرة على تمثيل هياكل DRS بدقة وهو مناسب بشكل عام للأشجار ذات فروع واسعة.نحقق أداء تنافسي (59.48 بلو) على معيار GMB ضد العديد من خطوط الأساس القوية.
مجردة أن هذه الدراسة تنفذ تقييم جوهري منهجي للتمثيل الدلالي الذي تعلمته المحولات متعددة الوسائط المدربة مسبقا. يزعم هذه التمثيلات أنها غير ملائمة للمهمة وأظهرت للمساعدة في العديد من مهام اللغة والرؤية المصب. ومع ذلك، فإن المدى الذي يتماشى فيه مع الحد س الدلالي البشري لا يزال غير واضح. نقوم بتجربة نماذج مختلفة والحصول على تمثيلات كلمة ثابتة من تلك السياق التي يتعلمونها. ثم قمنا بتقييمها ضد الأحكام الدلالية التي قدمها مكبرات الصوت البشرية. تمشيا مع الأدلة السابقة، نلاحظ ميزة معممة للتمثيلات متعددة الوسائط على اللغات فقط على أزواج كلمة ملموسة، ولكن ليس على تلك المجردة. من ناحية، يؤكد ذلك فعالية هذه النماذج لمحاذاة اللغة والرؤية، مما يؤدي إلى تحسين تمثيلات الدلالية للمفاهيم التي ترتكز في الصور. من ناحية أخرى، تبين أن النماذج تتبع أنماط تعليم التمثيل المختلفة، والتي سفي بعض الضوء على كيفية وعند تنفيذ تكامل متعدد الوسائط.
ينطوي نقل نمط النص على إعادة كتابة محتوى الجملة المصدر بأسلوب مستهدف.على الرغم من وجود عدد من المهام النمط مع البيانات المتاحة، فقد كانت هناك مناقشة منهجية محدودة حول كيفية توصيل مجموعات بيانات نمط النص مع بعضها البعض.ومع ذلك، من المحتمل أن يكون لهذا الفهم آثار على اختيار مصادر بيانات متعددة للتدريب على النماذج.في حين أنه من الحكمة النظر في خصائص أسلوبية متأصلة عند تحديد هذه العلاقات، يجب علينا أيضا التفكير في كيفية تحقيق النمط في مجموعة بيانات معينة.في هذه الورقة، نقوم بإجراء العديد من التحليلات التجريبية لمجموعات بيانات أسلوب النص الحالي.بناء على نتائجنا، نقترح تصنيف خصائص أسلوبية وموينة البيانات للنظر عند استخدام أو مقارنة مجموعات بيانات نمط النص.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا