ترغب بنشر مسار تعليمي؟ اضغط هنا

حزمة للتعلم على البيانات الجداول والنصوص مع المحولات

A Package for Learning on Tabular and Text Data with Transformers

348   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أدت التقدم المحرز الأخير في معالجة اللغات الطبيعية إلى أن تصبح هياكل المحولات النموذجية السائدة المستخدمة لمهام اللغة الطبيعية.ومع ذلك، في العديد من مجموعات البيانات في العالم، يتم تضمين طرائق إضافية التي لا يستوفي المحول مباشرة.نقدم مجموعة أدوات متعددة الوسائط، حزمة بيثون مفتوحة المصدر لتضمين بيانات النص والمجدول (القاطع والرقمي) مع المحولات لتطبيقات المصب.تدمج مجموعة أدواتنا جيدا مع تعانق واجهة برمجة التطبيقات الموجودة في وجه المعانقة مثل التوت والمركز النموذجي الذي يتيح تنزيل سهلة من مختلف النماذج المدربة مسبقا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

Qurantree.jl عبارة عن حزمة مفتوحة المصدر للعمل مع القرآن الكراني العربية (Dukes and Habash، 2010).يهدف إلى تزويد جوليا برمجة برمجة برمجة برمجة آية آية بودية كبديل ل Apis Java JQurantree.تقدم Qurantree.jl حاليا وظائف للحصول على فهرسة بديهية للفصول وال أعياء والكلمات وأجزاء من كلمات القرآن؛لإنشاء حرفي مخصص؛للشخصية DEDIACRECOTION والتطبيع؛وبالتعامل مع الميزات المورفولوجية.أخيرا، يمكن أن تعمل بشكل جيد مع أجهزة Julia TextanalySysis.jl وأدوات جمل بيثون.
تلقى الكشف عن اللغة الهجومية (القديم) اهتماما متزايدا بسبب تأثيرها المجتمعي.يوضح العمل الحديث أن الأساليب القائمة على المحولات ثنائية الاتجاه تحصل على أداء مثير للإعجاب في القديم.ومع ذلك، فإن هذه الأساليب تعتمد عادة على مجموعات البيانات القديمة ذات ا لمسمى على نطاق واسع لتدريب النماذج.لمعالجة مسألة ندرة البيانات / التسمية في القديم، في هذه الورقة، نقترح نهج بسيط في مجال تكيف مجال بسيط ولكنه فعال لتدريب المحولات ثنائية الاتجاه.تقدم نهجنا إجراءات التدريب على التكيف (DA) إلى ألبرت، بحيث يمكنها استغلال البيانات المساعدة الفعالة من مجالات المصدر لتحسين الأداء القديم في مجال مستهدف.تظهر النتائج التجريبية على مجموعات البيانات القياسية أن نهجنا، ألبرت (دا)، يحصل على الأداء الحديثة في معظم الحالات.على وجه الخصوص، فإن نهجنا يستفيد بشكل كبير من الدروس الممثلة بشكل كبير وغير مصنوع من الأداء، مع تحسن كبير على ألبرت.
في السنوات الأخيرة، تلقت معالجة الوقت الحرج (المعالجة في الوقت الحقيقي) وتحليل البيانات الكبيرة قدراً كبيراً من الاهتمام. فهناك العديد من المجالات التي يمكن فيها معالجة البيانات في الوقت الفعلي، حيث أن اتخاذ القرارات في الوقت المناسب يستطيع إنقاذ ا لآلاف من الأرواح البشرية، التقليل من مخاطر أرواح البشر والموارد، تعزيز نوعية حياة البشر، تعزيز فرص الربحية، وإدارة الموارد بفعالية. فتأتي هنا هذه الورقة التي تسّلط الضوء على هذا النوع من التطبيقات التحليلية للبيانات الكبيرة في الوقت الحقيقي وتصّنف تلك التطبيقات. بالإضافة إلى ذلك، فإنها تقدم نظرة عامة على البيانات الكبيرة لوصف المعرفة الأساسية في هذا المجال، فضلاً عن علاقة البيانات الكبيرة بتعلم الآلة وكيفية ربطهم سويًة لتحسين الأداء ورفع سويته.
مجردة مؤخرا، اكتسبت نماذج محولات متعددة الوسائط شعبية لأن أدائها على المهام المصب التي تشير إلى أنهم يتعلمون تمثيلات غنية بصرية لغوية.مع التركيز على مهام استرجاع الصور صفرية، ندرس ثلاثة عوامل مهمة يمكن أن تؤثر على جودة التمثيلات المستفادة: محاولات ال بيانات، آلية الاهتمام، وظائف الخسائر.من خلال نماذج الاحتياطية على ست مجموعات بيانات، نلاحظ أن ضوضاء البيانات وتشابه لغة له مهمتنا المصب لدينا هي مؤشرات مهمة لأداء النموذج.من خلال التحليل المعماري، نتعلم أن النماذج ذات آلية اهتمام متعددة الوسائط يمكن أن تفوق النماذج العميقة مع آليات الاهتمام الخاصة بالطريقة.أخيرا، نظهر أن الخسائر الناجحة للتناقض المستخدمة في أدب التعلم الإشراف على الذات لا تسفر عن مكاسب أداء مماثلة عند استخدامها في محولات متعددة الوسائط.
يمكن أن تستفيد مهام التعلم المختلفة من الوصول إلى معلومات خارجية عن طرائق مختلفة، مثل النص والصور.ركز العمل الحديث على تعلم الهندسة مع ذكريات كبيرة قادرة على تخزين هذه المعرفة.نقترحنا زيادة شبكات عصبية محول التوليد مع وحدات جلب المعلومات المستندة إلى KNN (KIF).تعلم كل وحدة KIF عملية قراءة للوصول إلى المعرفة الخارجية الثابتة.نحن نطبق هذه الوحدات النمطية لنمذجة الحوار المولاد، وهي مهمة صعبة حيث يجب استرجاع المعلومات بشكل مرني وإدماجها للحفاظ على موضوع وتدفق المحادثة.نوضح فعالية نهجنا من خلال تحديد المعرفة ذات الصلة المطلوبة للحوار دراية ولكن المشاركة من Wikipedia، والصور، وإظهار أن الاستفادة من هذه المعلومات المستردة تعمل على تحسين أداء النموذج، ويتم قياسه بواسطة التقييم التلقائي والإنساني.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا