ترغب بنشر مسار تعليمي؟ اضغط هنا

منح تمثيل النص من خلال إخفاء المحولات

Disentangling Representations of Text by Masking Transformers

362   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تمثل التمثيلات من النماذج الكبيرة المحددة مسبقا مثل Bert مجموعة من الميزات في متجهات غير متجانسة، مما يوفر دقة تنبؤية قوية عبر مجموعة من المهام المصب. في هذه الورقة، نستكشف ما إذا كان من الممكن تعلم تمثيلات محددة من خلال تحديد الشبكات الفرعية الحالية داخل النماذج المحددة التي ترمز الجوانب المميزة والكمية. بشكل ملموس، نتعلم الأقنعة الثنائية على أوزان المحولات أو الوحدات المخفية للكشف عن مجموعات فرعية من الميزات التي ترتبط مع عامل اختلاف محدد؛ هذا يلغي الحاجة إلى تدريب نموذج DESTANGLED من الصفر لمهمة معينة. نقوم بتقييم هذه الطريقة فيما يتعلق بقدرتها على تحفيز تمثيلات المعنويات من النوع في مراجعات الأفلام، السمية من لهجة التغريدات، وبناء جملة من دلالات. من خلال الجمع بين التقليب مع تقليم الحجم، نجد أنه يمكننا تحديد الشبكات الفرعية المتنينة في بيرت التي ترمز بقوة جوانب معينة (على سبيل المثال، الدلالات) في حين ترميز الآخرين ضعيفة (E.G.، بناء الجملة). علاوة على ذلك، على الرغم من الأقنعة التعليمية فقط، فإن الإعفاء من عمليات الإخفاء فقط - - - وغالبا ما تكون أفضل من الأساليب المقترحة سابقا استنادا إلى السيارات الآلية المتنوعة والتدريب الخصم.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أن تكون قادرا على أداء تقدير صعوبة الأسئلة بدقة (QDE) تحسين دقة تقييم الطلاب وتحسين تجربة التعلم. الأساليب التقليدية إلى QDE هي إما ذاتية أو إدخال تأخير طويل قبل أن يتم استخدام أسئلة جديدة لتقييم الطلاب. وبالتالي، اقترح العمل الأخير النهج القائم على التعلم في التعلم للتغلب على هذه القيود. يستخدمون أسئلة من صعوبة معروفة لتدريب النماذج القادرة على استنتاج صعوبة الأسئلة من نصها. بمجرد التدريب، يمكن استخدامها لأداء QDE من الأسئلة التي تم إنشاؤها حديثا. توفر الأساليب الحالية النماذج الخاضعة للإشراف والتي تعتمد على نطاق ومتطلبات مجموعة بيانات كبيرة من الأسئلة المعروفة للتدريب. لذلك، لا يمكن استخدامها إذا كانت هذه البيانات غير متوفرة (للدورات الجديدة على منصة التعلم الإلكتروني). في هذا العمل، نقوم بتجربة إمكانية أداء QDE من النص بطريقة غير منشأة. على وجه التحديد، نستخدم عدم اليقين من الأسئلة المعايرة في الرد النماذج كوكيل للصعوبة المتصورة للإنسان. تظهر تجاربنا نتائج واعدة، مما يشير إلى أن عدم اليقين النموذجي يمكن الاستفادة بنجاح لأداء QDE من النص، مما يقلل من كل من التكاليف والوقت المنقضي.
نقترح النماذج العصبية لتوليد نص من تمثيلات معناية رسمية بناء على هياكل تمثيل الخطاب (DRSS).DRSS هي تمثيلات على مستوى المستند والتي تشفص بالتفاصيل الدلالية الغنية المتعلقة بالعلاقات الخطابية، والافتراض، والتعايش التعاوني داخل وعبر الجمل.نقوم بإضفاء ال طابع الرسمي على مهمة الجيل العصبي DRS إلى النص وتوفير حلول النمذجة لمشاكل طلب الشرط وتسمية التسمية المتغيرة التي تجعل الجيل من DRSS غير تافهة.يعتمد مولدنا على نموذج Treelstm الرواية القادرة على تمثيل هياكل DRS بدقة وهو مناسب بشكل عام للأشجار ذات فروع واسعة.نحقق أداء تنافسي (59.48 بلو) على معيار GMB ضد العديد من خطوط الأساس القوية.
نقدم نهج عصبي نهاية إلى نهج لإنشاء جمل إنجليزية من تمثيلات المعنى الرسمي، وهياكل تمثيل الخطاب (DRSS).نستخدم نموذج تسلسل ثنائي التسلسل BI-LSTM القياسي بدلا من ذلك، والعمل بتمثيل إدخال DRS SNEARIZED، وتقييم رقائق الرقص على مستوى الأحرف ومستوى الكلمات.ن حصل على نتائج مشجعة للغاية فيما يتعلق بالمقاييس التلقائية المستندة إلى المرجعية مثل بلو.ولكن نظرا لأن هذا المقاييس يقوم فقط بتقييم مستوى السطح من الإخراج الناتج، فإننا نطور متريا جديدا، وارتفعت، والتي تستهدف الظواهر الدلالية المحددة.نحن نقوم بذلك مع خمسة مجموعات تحدي جيل DRS التركيز على العدد القطبي والقطبية والكمييات المسماة.الهدف من مجموعات التحدي هذه هو تقييم تنظيمي المولد العصبي وتعميم المدخلات غير المرئية.
في السؤال المرئي الرد على (VQA)، تركز الأساليب الطيفة الموجودة على التفاعل بين الصور والأسئلة. نتيجة لذلك، يتم تقسيم الإجابات إلى الأسئلة أو المستخدمة كملصقات فقط للتصنيف. من ناحية أخرى، تستخدم نماذج Trilinear مثل نموذج CTI بكفاءة معلومات فيما بين ال اعتراضات بين الإجابات والأسئلة والصور، مع تجاهل معلومات المشرفة داخل العملية. مستوحاة من هذه الملاحظة، نقترح إطارا جديدا للتفاعل Trilinear يسمى Mirtt (تعلم تشكيل التفاعل المتعدد الوسائط من محولات Trilinear)، مما يشتمل على آليات الاهتمام لالتقاط علاقات الوسائط المشتركة بين الوسائط والتعديل. علاوة على ذلك، نقوم بتصميم سير عمل من مرحلتين حيث يقلل نموذج Silinear النموذج الحر، مشكلة VQA مفتوحة العضوية في مشكلة VQA متعددة الخيارات. علاوة على ذلك، للحصول على تمثيلات دقيقة وجميلة متعددة الاستخدامات، فإننا قرب ما قبل تدريب Mirtt مع التنبؤ اللغوي الملثمين. تقوم طريقةنا بتحقيق الأداء الحديث في مهمة Visual7W Task و VQA-1.0 متعددة الخيارات ومفتوحة خطوط الأساس Silinear على مجموعات بيانات VQA-2.0 و TDIUC و GQA.
يتم تدريب نماذج NLP الحالية في الغالب من خلال خط أنابيب ما قبل المرحلة من مرحلتين. لقد أظهر العمل المسبق أن إدراج مرحلة ما قبل التدريب الوسيط، باستخدام سياسات إخفاء الإرشادية لنمذجة لغة ملثم (MLM)، يمكن أن تحسن بشكل كبير الأداء النهائي. ومع ذلك، لا ي زال غير واضح (1) في أي حالات مثل هذا التدريب المسبق الوسيط مفيد، (2) سواء كانت الأهداف المهمة المصنوعة يدويا هي مهمة معينة، و (3) ما إذا كانت سياسة إخفاء مصممة لمهمة واحدة تعزيم خارج تلك المهمة. في هذه الورقة، نقوم بإجراء دراسة تجريبية واسعة النطاق للتحقيق في تأثير سياسات اخفاء مختلفة في التدريب المسبق المتوسط ​​مع تسع مهام مختارة عبر ثلاث فئات. من الأهمية، نقدم طرق لأتمتة اكتشاف سياسات إخفاء الأمثل عبر الإشراف المباشر أو التعلم التلوي. نستنتج أن نجاح التدريب المسبق الوسيط يعتمد على Corpus ما قبل القطارات المناسبة، واختيار تنسيق الإخراج (أي، يمثل الموافق أو الجملة الكاملة)، وفهم واضح للدور الذي يلعبه الامتيازات والرهون البحرية لمهمة المصب. بالإضافة إلى ذلك، نجد أن سياسات الاخفاء المتعلميتنا تتفوق على مزعجة إخفاء الكيانات المسماة على Triviaqa، والسياسات المستفادة من مهمة يمكن أن تنتقل بشكل إيجابي إلى مهام أخرى في بعض الحالات، مما يدعو إلى البحث في المستقبل في هذا الاتجاه.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا