ترغب بنشر مسار تعليمي؟ اضغط هنا

محول مدرب مسبقا ونموذج CNN مع معرف لغة مشتركة وعلامة جزء من الكلام لنص الوسائط الاجتماعية المختلطة

A Pre-trained Transformer and CNN Model with Joint Language ID and Part-of-Speech Tagging for Code-Mixed Social-Media Text

381   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعد خلط التعليمات البرمجية (CM) ظاهرة ملحوظة في كثير من الأحيان تستخدم لغات متعددة في الكلام أو الجملة. لا توجد قيود نحوية صارمة لاحظت في خلط التعليمات البرمجية، وتتألف من أشكال الإملاء غير القياسية. إن التعقيد اللغوي الناتج عن العوامل المذكورة أعلاه جعل التحليل الحسابي للغة المختلطة من التعليمات البرمجية مهمة صعبة. تعد تحديد الهوية اللغوية (LI) وجزء الكلام (POS) الخطوات الأساسية التي تساعد في تحليل هيكل النص المختلط من التعليمات البرمجية. في كثير من الأحيان، تعتبر مهام وضع العلامات LI و POS في سيناريو خلط التعليمات البرمجية. نحن نعلم مشكلة التعامل مع تعدد اللغات والهيكل النحوي أثناء تحليل الجملة المختلطة من التعليمات البرمجية باعتبارها مهمة تعليمية مشتركة. في هذه الورقة، قمنا بالتعاون بشكل مشترك وتحسين اكتشاف اللغة وجزء من نماذج وضع علامات الكلام في السيناريو المختلط من التعليمات البرمجية. استخدمنا محول مع بنية الشبكة العصبية التنافعية. نحن ندرب طريقة التعلم المشترك من خلال الجمع بين طرامات نقاط البيع ونماذج LI على نص الوسائط الاجتماعية المختلطة من التعليمات البرمجية التي تم الحصول عليها من المهمة المشتركة أيقونة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تنطوي تنبؤ التعقيد المعجمي (LCP) على تعيين درجة صعوبة إلى كلمة أو تعبير معين، في نص مخصص للجمهور المستهدف.في هذه الورقة، نقدم نظام جديد يعتمد على التعلم العميق لهذه المهمة الصعبة.يتكون النظام المقترح من نموذج تعليمي عميق، استنادا إلى تشفير المحولات ا لمدربة مسبقا، من أجل تنبؤ تعقيد Word و Expression متعدد الكلمة (MWE).أولا، في الجزء العلوي من تضمين الكلمة السياقية في التشفير، توظف نموذجنا طبقة اهتماما في سياق الإدخال والكلمة المعقدة أو MWE.بعد ذلك، يتسلل إخراج الانتباه مع الإخراج المجمع من التشفير وتمتاز إلى وحدة الانحدار.نحن نحقق في كل من المهمة الفردية والتدريب المشترك على كلا بيانات المهام الفرعية باستخدام الترميز المتعدد المدربين مسبقا.النتائج التي تم الحصول عليها واعدة للغاية وتعرض فعالية المحولات التي تم تدريبها مسبقا على مهام LCP.
يستخدم التعلم النشط (AL) خوارزمية اختيار البيانات لتحديد عينات تدريب مفيدة لتقليل تكلفة التوضيحية. هذه هي الآن أداة أساسية لبناء محلل تحويلات تحويلية منخفضة الموارد مثل Taggers جزء من الكلام (POS). يتم تصميم الاستدلال الموجودة بشكل عام بشكل عام على م بدأ اختيار مثيلات تدريبية غير مؤكدة ولكنها قد تقلل من هذه الحالات تقليل عدد كبير من الأخطاء. ومع ذلك، في دراسة تجريبية عبر ست لغات متنوعة من النطباض (الألمانية والسويدية والاجنية والشابات الشمالية والفارسية والأوكرانية)، وجدنا النتيجة المثيرة للدهشة أنه حتى في سيناريو أوراكل حيث نعرف عدم اليقين الحقيقي للتوقعات، هذه الاستدلال الحالية بعيدون عن الأمثل. بناء على هذا التحليل، نطرح مشكلة آل كما اختيار الحالات التي تقلل من الارتباك بين أزواج من علامات الإخراج معينة. تظهر تجربة واسعة النطاق على اللغات المذكورة أعلاه أن استراتيجيتنا المقترحة تتفوق على استراتيجيات آجال أخرى من هامش مهم. نقدم أيضا نتائج مساعدة توضح أهمية المعايرة المناسبة للنماذج، والتي نضمنها من خلال التدريب المبريد، وتحليلا إظهار كيفية تحديد استراتيجيتنا المقترحة أمثلة تتابع بشكل وثيق توزيع بيانات Oracle. يتم إصدار الرمز علني هنا
في هذا العمل، نقدم تحليل جزء واسع النطاق لخطاب مستخدمي وسائل التواصل الاجتماعي مع الاكتئاب.كشفت الأبحاث في علم النفس أن المستخدمين الاكتئابين يميلون إلى أن يكونوا مركزة ذاتيا، أكثر انشغالا مع أنفسهم ويقومون بإعادة المزيد عن حياتهم وعواطفهم.يهدف عملنا إلى الاستفادة من مجموعات بيانات واسعة النطاق والأساليب الحسابية لاستكشاف خطابي كمي.نحن نستخدم مجموعة بيانات الاكتئاب المتاحة للجمهور من التنبؤ بالمخاطر المبكرة في ورشة عمل الإنترنت (ERISK) 2018 واستخراج ميزات جزء من الكلام والعديد من المؤشرات بناء عليها.تكشف نتائجنا عن فروق ذات دلالة إحصائية بين الأفراد الاكتئاب وغير الاكتئاب الذين يؤكدون النتائج من أدب علم النفس الحالي.يوفر عملنا نظرة ثاقبة فيما يتعلق بالطريقة التي يعبر فيها الأفراد الاكتئاب عن أنفسهم على منصات وسائل التواصل الاجتماعي، مما يتيح لنماذج حسابية على علم أفضل للمساعدة في مراقبة الأمراض العقلية ومنعها.
بالنسبة للمبرمجين، تعلم استخدام واجهات برمجة التطبيقات (واجهات برمجة التطبيق) لمكتبة البرمجيات أمرا مهما للغاية. يمكن لأدوات توصية API أن تساعد المطورين في استخدام واجهات برمجة التطبيقات من خلال التوصية باستخدام واجهات برمجة التطبيقات التي سيتم استخد امها بعد ذلك بالنظر إلى واجهات برمجة التطبيقات التي تمت كتابتها. تقليديا، يتم تطبيق نماذج اللغة مثل غرام N على توصية API. ومع ذلك، نظرا لأن مكتبات البرمجيات تبقي المتغيرات والمكتبات الجديدة تبقي الناشئة، فإن واجهات برمجة التطبيقات الجديدة شائعة. يمكن رؤية واجهات برمجة التطبيقات الجديدة هذه مثل كلمات OOV (خارج المفردات) ولا يمكن التعامل معها جيدا من خلال نهج توصية API الحالية بسبب عدم وجود بيانات تدريبية. في هذه الورقة، نقترح ApireCX، أول نهج توصية API للمكتبات، والذي يستخدم BPE لتقسيم كل مكالمة API في كل تسلسل API وقم بتدريب نموذج اللغة GPT. ثم توصي باختصارها عن طريق ضبط النموذج المدرب مسبقا. يمكن ل APIRECX ترحيل معرفة المكتبات الموجودة إلى مكتبة جديدة، ويمكن أن توصي بايس واجهات برمجة التطبيقات التي تعتبرها OOV مسبقا. نقوم بتقييم ApireCX على ست مكتبات وتؤكد النتائج فعاليتها من خلال مقارنة مع نهج توصية API نموذجية.
توضح هذه المذكرة إرسال NTR-TSU المهمة المشتركة SIGTYP 2021 بشأن التنبؤ معرفات اللغة من الكلام.تعد تحديد اللغة المنطوقة (غطاء) خطوة مهمة في خط أنابيب نظام التعرف الآلي متعدد اللغات (ASR).بالنسبة للعديد من اللغات المنخفضة واللغات المهددة بالانقراض، قد تكون التسجيلات المفردة المفردة فقط متاحة، مطالبة بالحاجة إلى أنظمة معرف اللغة للمجال ومكبر الصوت.في هذه المذكرة، نوضح أن الشبكة العصبية التنافسية مع طبقة تجمع ذاتي اليقظة تظهر نتائج واعدة لمهمة تحديد اللغة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا