لتسليط الضوء على تحديات تحقيق تنصيب تمثيل المجال النصي في إعداد غير محدد، في هذه الورقة نقوم بتحديد مجموعة تمثيلية من النماذج المطبقة بنجاح من مجال الصورة.نحن نقيم هذه النماذج على 6 مقاييس DEFENTANCE، وكذلك على مهام التصنيف المصب والمهماطوب.لتسهيل التقييم، نقترح اثنين من مجموعات البيانات الاصطناعية مع عوامل تابعة معروفة.تبرز تجاربنا الفجوة الموجودة في المجال النصي وتوضح أن بعض العناصر مثل التمثيل SPARSITY (كحيز حثي)، أو اقتران التمثيل مع وحدة فك الترميز يمكن أن يؤثر على deventanglement.إلى حد ما من معرفتنا، فإن عملنا هو المحاولة الأولى لتقاطع تحسس وتصوير تمثيل غير مدهش، ويوفر الإطار التجريبي ومجموعات البيانات لفحص التطورات المستقبلية في هذا الاتجاه.
To highlight the challenges of achieving representation disentanglement for text domain in an unsupervised setting, in this paper we select a representative set of successfully applied models from the image domain. We evaluate these models on 6 disentanglement metrics, as well as on downstream classification tasks and homotopy. To facilitate the evaluation, we propose two synthetic datasets with known generative factors. Our experiments highlight the existing gap in the text domain and illustrate that certain elements such as representation sparsity (as an inductive bias), or representation coupling with the decoder could impact disentanglement. To the best of our knowledge, our work is the first attempt on the intersection of unsupervised representation disentanglement and text, and provides the experimental framework and datasets for examining future developments in this direction.
المراجع المستخدمة
https://aclanthology.org/
تحتاج العديد من مهام NLP إلى إصدارات فعالة من الوثائق النصية.Arora et al.، 2017 توضح أن الشيخوخة المرجحة المرجحة بسيطة لنماذج Word بشكل متكرر في كثير من الأحيان نماذج. SCDV (MEKALA et al.، 2017) يمتد هذا من الجمل إلى DoCu-Mets عن طريق توظيف مجموعة نا
نقدم نهج عصبي نهاية إلى نهج لإنشاء جمل إنجليزية من تمثيلات المعنى الرسمي، وهياكل تمثيل الخطاب (DRSS).نستخدم نموذج تسلسل ثنائي التسلسل BI-LSTM القياسي بدلا من ذلك، والعمل بتمثيل إدخال DRS SNEARIZED، وتقييم رقائق الرقص على مستوى الأحرف ومستوى الكلمات.ن
نقترح النماذج العصبية لتوليد نص من تمثيلات معناية رسمية بناء على هياكل تمثيل الخطاب (DRSS).DRSS هي تمثيلات على مستوى المستند والتي تشفص بالتفاصيل الدلالية الغنية المتعلقة بالعلاقات الخطابية، والافتراض، والتعايش التعاوني داخل وعبر الجمل.نقوم بإضفاء ال
مجردة أن هذه الدراسة تنفذ تقييم جوهري منهجي للتمثيل الدلالي الذي تعلمته المحولات متعددة الوسائط المدربة مسبقا. يزعم هذه التمثيلات أنها غير ملائمة للمهمة وأظهرت للمساعدة في العديد من مهام اللغة والرؤية المصب. ومع ذلك، فإن المدى الذي يتماشى فيه مع الحد
ينطوي نقل نمط النص على إعادة كتابة محتوى الجملة المصدر بأسلوب مستهدف.على الرغم من وجود عدد من المهام النمط مع البيانات المتاحة، فقد كانت هناك مناقشة منهجية محدودة حول كيفية توصيل مجموعات بيانات نمط النص مع بعضها البعض.ومع ذلك، من المحتمل أن يكون لهذا