ترغب بنشر مسار تعليمي؟ اضغط هنا

كورت: تصنيفات تكميلية من المحولات

CoRT: Complementary Rankings from Transformers

101   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

العديد من الأساليب الأخيرة تجاه استرجاع المعلومات العصبية تخفف من تكاليفها الحاسوبية باستخدام خط أنابيب الترتيب متعدد المراحل.في المرحلة الأولى، يتم استرجاع عدد من المرشحين المحتملين ذوي الصلة باستخدام نموذج استرجاع فعال مثل BM25.على الرغم من أن BM25 قد أثبت أداء لائق كمرفاة في المرحلة الأولى، فإنه يميل إلى تفويت الممرات ذات الصلة.في هذا السياق، نقترح كورت، وهو نموذج بسيط في المرحلة الأولى من المرحلة الأولى يرفع تمثيلات سياقية من نماذج اللغة المسبقة مسبقا مثل بيرت لاستكمال وظائف الترتيب القائمة على الأجل مع عدم التسبب في عدم وجود تأخير كبير في وقت الاستعلام.باستخدام DataSet MS Marco، نظهر أن Cort يزيد بشكل كبير من استدعاء المرشح من خلال استكمال BM25 مع المرشحين المفقودين.وبالتالي، نجد أن إعادة الراهنات اللاحقة تحقيق نتائج فائقة مع أقل مرشحين.نوضح كذلك أن استرجاع المرور باستخدام CORT يمكن تحقيقه مع انخفاض الآمون المنخفض بشكل مدهش.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

النهج الحالي لجمع الأحكام البشرية لجودة الترجمة الآلية لمهمة الترجمة الأخبار في WMT - تصنيف القطاع مع سياق المستند - هو الأحدث في سلسلة من التغييرات في بروتوكول التعليق البشري WMT.نظرا لأن البروتوكولات التوضيحية هذه تغيرت مع مرور الوقت، فقد انجرفت بع يدا عن بعض الافتراضات الإحصائية الأولية التي تدعمها، مع عواقب تسمون صحة تصنيفات نظام المهام الأخبار WMT إلى سؤال.في المحاكاة بناء على البيانات الحقيقية، نوضح أن التصنيفات يمكن أن تتأثر بوجود القيم المتطرفة (أنظمة عالية الجودة أو منخفضة الجودة)، مما أدى إلى تصنيفات ونظام مختلفة.ونحن ندرس أيضا أسئلة تكوين مهمة التوضيحية وكيف قد تؤثر سهولة ترجم أو صعوبة ترجمة المستندات المختلفة في تصنيفات النظام.نحن نقدم مناقشة طرق لتحليل هذه القضايا عند النظر في التغييرات المستقبلية في بروتوكولات التعليق التوضيحي.
في السؤال المرئي الرد على (VQA)، تركز الأساليب الطيفة الموجودة على التفاعل بين الصور والأسئلة. نتيجة لذلك، يتم تقسيم الإجابات إلى الأسئلة أو المستخدمة كملصقات فقط للتصنيف. من ناحية أخرى، تستخدم نماذج Trilinear مثل نموذج CTI بكفاءة معلومات فيما بين ال اعتراضات بين الإجابات والأسئلة والصور، مع تجاهل معلومات المشرفة داخل العملية. مستوحاة من هذه الملاحظة، نقترح إطارا جديدا للتفاعل Trilinear يسمى Mirtt (تعلم تشكيل التفاعل المتعدد الوسائط من محولات Trilinear)، مما يشتمل على آليات الاهتمام لالتقاط علاقات الوسائط المشتركة بين الوسائط والتعديل. علاوة على ذلك، نقوم بتصميم سير عمل من مرحلتين حيث يقلل نموذج Silinear النموذج الحر، مشكلة VQA مفتوحة العضوية في مشكلة VQA متعددة الخيارات. علاوة على ذلك، للحصول على تمثيلات دقيقة وجميلة متعددة الاستخدامات، فإننا قرب ما قبل تدريب Mirtt مع التنبؤ اللغوي الملثمين. تقوم طريقةنا بتحقيق الأداء الحديث في مهمة Visual7W Task و VQA-1.0 متعددة الخيارات ومفتوحة خطوط الأساس Silinear على مجموعات بيانات VQA-2.0 و TDIUC و GQA.
أن تكون قادرا على أداء تقدير صعوبة الأسئلة بدقة (QDE) تحسين دقة تقييم الطلاب وتحسين تجربة التعلم. الأساليب التقليدية إلى QDE هي إما ذاتية أو إدخال تأخير طويل قبل أن يتم استخدام أسئلة جديدة لتقييم الطلاب. وبالتالي، اقترح العمل الأخير النهج القائم على التعلم في التعلم للتغلب على هذه القيود. يستخدمون أسئلة من صعوبة معروفة لتدريب النماذج القادرة على استنتاج صعوبة الأسئلة من نصها. بمجرد التدريب، يمكن استخدامها لأداء QDE من الأسئلة التي تم إنشاؤها حديثا. توفر الأساليب الحالية النماذج الخاضعة للإشراف والتي تعتمد على نطاق ومتطلبات مجموعة بيانات كبيرة من الأسئلة المعروفة للتدريب. لذلك، لا يمكن استخدامها إذا كانت هذه البيانات غير متوفرة (للدورات الجديدة على منصة التعلم الإلكتروني). في هذا العمل، نقوم بتجربة إمكانية أداء QDE من النص بطريقة غير منشأة. على وجه التحديد، نستخدم عدم اليقين من الأسئلة المعايرة في الرد النماذج كوكيل للصعوبة المتصورة للإنسان. تظهر تجاربنا نتائج واعدة، مما يشير إلى أن عدم اليقين النموذجي يمكن الاستفادة بنجاح لأداء QDE من النص، مما يقلل من كل من التكاليف والوقت المنقضي.
تمثل التمثيلات من النماذج الكبيرة المحددة مسبقا مثل Bert مجموعة من الميزات في متجهات غير متجانسة، مما يوفر دقة تنبؤية قوية عبر مجموعة من المهام المصب. في هذه الورقة، نستكشف ما إذا كان من الممكن تعلم تمثيلات محددة من خلال تحديد الشبكات الفرعية الحالية داخل النماذج المحددة التي ترمز الجوانب المميزة والكمية. بشكل ملموس، نتعلم الأقنعة الثنائية على أوزان المحولات أو الوحدات المخفية للكشف عن مجموعات فرعية من الميزات التي ترتبط مع عامل اختلاف محدد؛ هذا يلغي الحاجة إلى تدريب نموذج DESTANGLED من الصفر لمهمة معينة. نقوم بتقييم هذه الطريقة فيما يتعلق بقدرتها على تحفيز تمثيلات المعنويات من النوع في مراجعات الأفلام، السمية من لهجة التغريدات، وبناء جملة من دلالات. من خلال الجمع بين التقليب مع تقليم الحجم، نجد أنه يمكننا تحديد الشبكات الفرعية المتنينة في بيرت التي ترمز بقوة جوانب معينة (على سبيل المثال، الدلالات) في حين ترميز الآخرين ضعيفة (E.G.، بناء الجملة). علاوة على ذلك، على الرغم من الأقنعة التعليمية فقط، فإن الإعفاء من عمليات الإخفاء فقط - - - وغالبا ما تكون أفضل من الأساليب المقترحة سابقا استنادا إلى السيارات الآلية المتنوعة والتدريب الخصم.
نماذج المحولات باهظة الثمن لحن النغمة، والبطيئة للتناسم، ولديها متطلبات تخزين كبيرة.تتناول النهج الحديثة هذه أوجه القصور عن طريق تدريب النماذج الأصغر، مما يقلل ديناميكيا حجم النموذج، وتدريب محولات الوزن الخفيف.في هذه الورقة، نقترح Adapterdrop، وإزالة محولات من طبقات محول أقل أثناء التدريب والاستدلال، مما يشتمل على المفاهيم من الاتجاهات الثلاثة.نظهر أن Adapterdrop يمكن أن تقلل ديناميكيا من العلامة الحسابية الحسابية عند إجراء الاستدلال على مهام متعددة في وقت واحد، مع انخفاض الحد الأدنى في عروض العمل.سنقوم بمزيد من المحولات من Adaperfusion، مما يحسن كفاءة الاستدلال مع الحفاظ على أداء العمل بالكامل.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا