ترغب بنشر مسار تعليمي؟ اضغط هنا

من العودة إلى الجذور في الغابة البوصل: التعلم العميق ل NLP

From back to the roots into the gated woods: Deep learning for NLP

59   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

ثورة الشبكات العصبية العميقة في العديد من المجالات، بما في ذلك معالجة اللغة الطبيعية.تحدد هذه الورقة مواد تعليمية لمحاضرة تمهيدية بشأن التعلم العميق في معالجة اللغة الطبيعية (NLP).تغطي المواد المقدمة الرئيسية محاضرة مدرسية صيفية حول نماذج ترميز التشفير.التكميلية لهذا هي مجموعة من النزلات دفتر Jupyter من التدريس المبكر، والتي استندت فيها أجزاء من المحاضرة.الهدف الرئيسي من المواد التعليمية هذه هو تقديم نظرة عامة على نهج الشبكة العصبية لمعالجة اللغة الطبيعية، مع ترابط المفاهيم الحديثة إلى الجذور تظهر نظيراتها الأساسية التقليدية.تغادر المحاضرة من الأساليب الإحصائية القائمة على العد، ويمتد إلى الشبكات المتكررة المتكررة والاهتمام، وهو في كل مكان في NLP اليوم.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

مكنت نماذج اللغة العصبية العميقة مثل بيرت التطورات الأخيرة في العديد من مهام معالجة اللغة الطبيعية. ومع ذلك، نظرا للجهد والتكلفة الحاسوبية المشاركة في التدريب المسبق لها، يتم إدخال هذه النماذج عادة فقط لعدد صغير من لغات الموارد عالية الوزن مثل اللغة الإنجليزية. في حين تتوفر نماذج متعددة اللغات التي تغطي أعدادا كبيرة من اللغات، فإن العمل الحديث يشير إلى أن التدريب أحادي الأحادي يمكن أن ينتج عن نماذج أفضل، وفهمنا للمفاضرة بين التدريب الأحادي وغير اللغوي غير مكتمل. في هذه الورقة، نقدم خط أنابيب بسيطة وأتمتة بالكامل لإنشاء نماذج بيرت الخاصة باللغة من البيانات من بيانات ويكيبيديا وإدخال 42 من هذه النماذج الجديدة، والأكثر من اللازم لغات حتى الآن تفتقر إلى نماذج اللغة العصبية العميقة المخصصة. نقوم بتقييم مزايا هذه النماذج باستخدام اختبارات Cloze و Autify Parser على بيانات التبعيات العالمية، والأداء المتناقض مع النتائج باستخدام طراز Bert (Mbert) متعدد اللغات. نجد أن نماذج WikiBert المقدمة حديثا تفوقت Mbert في اختبارات Cloze لجميع اللغات تقريبا، وأن uDify باستخدام نماذج Wikibert تفوق المحلل باستخدام Mbert في المتوسط، مع توضح الطرز الخاصة باللغة تحسين أداء محسنة بشكل كبير لبعض اللغات، ولكن تحسين محدود أو تحسين انخفاض في الأداء للآخرين. تتوفر جميع الطرق والنماذج المقدمة في هذا العمل تحت التراخيص المفتوحة من https://github.com/turkunlp/wikibert.
نحن نعتبر مهمة ربط حسابات وسائل الاعلام الاجتماعية التي تنتمي إلى المؤلف نفسه في أزياء آلية على أساس المحتوى والبيانات التعريف لتدفقات المستندات المقابلة.نركز على تعلم التضمين الذي يقوم بخرائط عينات ذات حجم متغير من نشاط المستخدم - بدءا من مشاركات وا حدة بأكمله أشهر من النشاط - إلى مساحة متجهية، حيث عينات من نفس خريطة المؤلف إلى النقاط القريبة.لا يتطلب نهجنا بيانات مشروح من البشر لأغراض تدريبية، مما يتيح لنا الاستفادة من كميات كبيرة من محتوى وسائل التواصل الاجتماعي.تتفوق النموذج المقترح على العديد من خطوط الأساس التنافسية بموجب إطار تقييم رواية على غرار بعد معايير الاعتراف المنشأة في مجالات أخرى.إن طريقتنا تحقق دقة ربط عالية، حتى مع عينات صغيرة من الحسابات غير المرجة في وقت التدريب، شرط أساسي للتطبيقات العملية لإطار الارتباط المقترح.
يعد تطبيع المفهوم للنصوص السريرية للتصنيفات الطبية القياسية والاتجاهات مهمة ذات أهمية عالية للبحث الطبي للرعاية الصحية. نحاول حل هذه المشكلة من خلال ترميز CT التلقائي CT، حيث يعد CT Snomed CT أحد أونولوجيات المصطلحات السريرية الأكثر استخداما وشاملة ع لى نطاق واسع. ومع ذلك، فإن تطبيق نماذج التعلم العميق الأساسية يؤدي إلى نتائج غير مرغوب فيها بسبب الطبيعة غير المتوازنة للبيانات والعدد المتطرف من الفصول الدراسية. نقترح إجراء التصنيف الذي يحتوي على سير عمل متعدد الخطوات يتكون من تجميع الملصقات، والتصنيف متعدد الكتلة، ورسم الخرائط عن المجموعات إلى الملصقات. بالنسبة للتصنيف متعدد المجموعات، BioBert يتم ضبطه بشكل جيد على مجموعة بياناتنا المخصصة. يتم إجراء تعيين مجموعات إلى التسميات من قبل A One-VS-All Mederifier (SVC) المطبق على كل كتلة واحدة. نقدم أيضا خطوات لتوليد البيانات التلقائي من الأوصاف النصية المشروحة مع رموز CT Conomed بناء على البيانات العامة والبيانات المفتوحة المرتبطة. من أجل التعامل مع المشكلة أن DataSet لدينا غير متوازنة للغاية، يتم تطبيق بعض طرق تكبير البيانات. تظهر النتائج من التجارب التي أجريت دقة عالية وموثوقية نهجنا للتنبؤ برموز CT Conomed ذات الصلة بنص سريري.
تم عرض التعلم النشط للحد من متطلبات التوضيحية للعديد من مهام معالجة اللغة الطبيعية، بما في ذلك وضع العلامات الدلالية (SRL).تنطوي SRL على وسيطة وسيطة تمتد من أجل المحتمل أن يحتمل أن يتسرب المتعددة في جملة، مما يجعل من الصعب تجميع القرارات العديدة في د رجة واحدة لتحديد حالات جديدة للتعليق.في هذه الورقة، نطبق طريقتين للحصول على درجات تجميع عبر المسندات المتعددة من أجل اختيار جمل الاستعلام مع طريقتين تقدير اليقين النموذجي: استخدام مخرجات الشبكة العصبية واستخدام التعلم النشط في Bayesian في التسرب عن طريق الخلاف.قارنا هذه الأساليب بثلاثة أسماطية سلبية --- اختيار الجملة العشوائية، تحديد المستندات العشوائية بالكامل، واختيار الجمل مع معظم المتوقع --- وتحليل تأثير هذه الاستراتيجيات لديها على منحنى التعلم فيما يتعلق بتخفيض عدد المشروحالجمل والمسند لتحقيق الأداء العالي.
ألقى النمو الأسي للإنترنت والوسائط الاجتماعية في العقد الماضي الطريق إلى زيادة نشر المعلومات الخاطئة أو المضللة. منذ الانتخابات الرئاسية الأمريكية لعام 2016، أصبحت مصطلح أخبار وهمية "أصبحت شعبية متزايدة وقد تلقت هذه الظاهرة اهتماما أكبر. في السنوات ا لماضية، تم إنشاء العديد من وكالات فحص الحقائق، ولكن بسبب عدد كبير من الوظائف اليومية على وسائل التواصل الاجتماعي، والفحص اليدوي غير كاف. حاليا، هناك حاجة ملحة لأدوات الكشف عن الأخبار التلقائي، إما لمساعدة قوائم الداما اليدوية أو التشغيل كأدوات قائمة بذاتها. هناك العديد من المشاريع جارية حول هذا الموضوع، لكن معظمهم يركزون على اللغة الإنجليزية. تناقش ورقة البحث في البحث هذه توظيف أساليب التعلم العميق، وتطوير أداة، للكشف عن الأخبار الخاطئة باللغة البرتغالية. كخطوة أولى، سنقوم بمقارنة الهيغات الراسخة التي تم اختبارها بلغات أخرى وتحليل أدائها على بياناتنا البرتغالية. بناء على النتائج الأولية لهذه المصنفات، يجب أن نختار نموذجا للتعلم العميق أو الجمع بين العديد من نماذج التعلم العميق التي تعاني من وعد لتعزيز أداء نظام الكشف عن الأخبار المزيف.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا