أدى الاستخدام المتزايد لمواقع وسائل التواصل الاجتماعي في بلدان مثل الهند إلى مجلدات كبيرة من البيانات المختلطة.يمكن أن يوفر تحليل المعنويات لهذه البيانات رؤى غير متكاملة في وجهات نظر الناس والآراء.غالبا ما تكون البيانات المختلطة من التعليمات البرمجية
صاخبة في الطبيعة بسبب تهجئة متعددة لنفس الكلمة، ونقص ترتيب واضح للكلمات في جملة، واختصرات عشوائية.وبالتالي، فإن العمل مع البيانات المختلطة من التعليمات البرمجية أكثر تحديا من بيانات أحادية الأونلينغ.تفسير التنبؤات النموذجية تتيح لنا تحديد متانة النموذج ضد أشكال مختلفة من الضوضاء.في هذه الورقة، نقترح منهجية لإدماج النهج القابلة للتفسير في تحليل المعنويات المختلطة من التعليمات البرمجية.من خلال تفسير تنبؤات نماذج تحليل المعنويات، نقيم مدى جودة النموذج قادر على التكيف مع الضوضاء الضمنية الموجودة في البيانات المختلطة التعليمات البرمجية.
بصرف النظر عن نجاح نهج تعلم النطاق المختلط في مجال التعلم العميق لحل المهام المختلفة لمعالجة اللغة الطبيعية، فإنه لا يقرض حل جماعيا للكشف عن المعلومات الخاطئة من بيانات وسائل التواصل الاجتماعي CovID-19. نظرا للتعقيد المتأصل من هذا النوع من البيانات،
الناجمة عن ديناميك (سياقه يتطور بسرعة)، ذات الطابع الدقيق (أنواع الخائن غير غامضة في كثير من الأحيان)، ومتنوعة (الفئات المنحيحة، المحبوسة والتداخل) الطبيعة، من الضروري نموذج فعال لالتقاط كل من السياق المحلي والعالمي للمجال المستهدف. من خلال إجراء تحقيق منهجي، نظهر أن: (1) النماذج المدربة مسبقا مسبقا للمحولات العميقة، المستخدمة عبر تعلم نقل المجال المختلط، جيدة فقط في التقاط السياق المحلي، وبالتالي تظهر تعميم ضعيف، و (2) يمكن أن يستخرج مزيج من النماذج الضحلة المستندة إلى الشبكة والشبكات العصبية التنافسية السياق محليا بالإضافة إلى السياق بشكل فعال بالإضافة إلى البيانات المستهدفة بطريقة هرمية بطريقة هرمية، مما يتيح من تقديم حل أكثر تعميما.
تعتبر خلط التعليمات البرمجية ظاهرة خلط الكلمات والعبارات من لغتين أو أكثر في كلام واحد من الكلام والنص.نظرا للتنوع اللغوي العالي، يعرض خلط التعليمات البرمجية العديد من التحديات في تقييم مهام توليد اللغة الطبيعية القياسية (NLG).تعمل العديد من المقاييس
الشعبية على نطاق واسع بشكل سيء بمهام NLG المختلطة من التعليمات البرمجية.لمعالجة هذا التحدي، نقدم حصة خط أنابيب التقييم المعتمدة بشكل كبير يحسن ارتباطا كبيرا بين مقاييس التقييم والأحكام البشرية على النص المزج العام الذي تم إنشاؤه.كحالة للاستخدام، نوضح أداء الفحص على جمل Hinglish التي تم إنشاؤها بواسطة الماكينات (خلط الكود باللغات الهندية والإنجليزية) من The Hinge Corpus.يمكننا تمديد استراتيجية التقييم المقترحة إلى أزواج لغة مختلطة من التعليمات البرمجية، ومهام NLG، ومقاييس التقييم مع الحد الأدنى من أي جهد.
جيل النص هو مجال نشط للغاية في البحث في المجتمع اللغوي الحسابي.يعد تقييم النص الذي تم إنشاؤه مهمة صعبة وتم اقتراح نظريات ومقاييس متعددة على مر السنين.لسوء الحظ، يتم إدراج توليد النص والتقييم نسبيا نسبيا بسبب ندرة الموارد عالية الجودة في اللغات المختل
طة من التعليمات البرمجية حيث يتم خلط الكلمات والعبارات من لغات متعددة في كلام واحد للنص والكلام.لمعالجة هذا التحدي، نقدم كوربا (المفصلي) لغرض لغة مختلطة شائعة على نطاق واسع هينجليشيلي (مزيج من اللغات الهندية والإنجليزية).يحتوي المفصلات على جمل هنشية التي تم إنشاؤها من قبل البشر بالإضافة إلى خوارزميتين تعتمد على القواعد يتوافق مع الجمل الهندية والإنجليزية الموازية.بالإضافة إلى ذلك، نوضح فعالية مقاييس التقييم المستخدمة على نطاق واسع على البيانات المختلطة من التعليمات البرمجية.ستسهل مجموعة بيانات المفصلات التقدم المحرز في مجال أبحاث توليد اللغة الطبيعية في اللغات المختلطة التعليمات البرمجية.
تم إظهار النماذج المحددة متعددة اللغات مسبقا، مثل XLM-Roberta (XLM-R) فعالة في العديد من المهام المتقاطعة عبر اللغات.ومع ذلك، لا تزال هناك فجوات بين التمثيلات السياقية للكلمات المماثلة بلغات مختلفة.لحل هذه المشكلة، نقترح إطارا جديدا يدعى تدريبات متعد
دة اللغات المختلطة (MVMLT)، والتي ترفع البيانات التي تبديل التعليمات البرمجية مع التعلم المتعدد المشاهدة لحن XLM-R.يستخدم MVMLT الرافية القائمة على التدرج لاستخراج الكلمات الرئيسية التي تعد الأكثر صلة بمهام المصب واستبدالها بالكلمات المقابلة في اللغة المستهدفة بشكل حيوي.علاوة على ذلك.تبين تجارب واسعة مزودة بأربع لغات أن نموذجنا يحقق نتائج أحدث النتائج على تصنيف المعنويات الصفرية ومهام تتبع الدولة للحوار، مما يدل على فعالية نموذجنا المقترح.
أصبح خلط التعليمات البرمجية طريقة متحركة للاتصال بين مكبرات الصوت متعددة اللغات. تتم كتابة معظم محتوى وسائل التواصل الاجتماعي للمجتمعات متعددة اللغات في النص المختلط من التعليمات البرمجية. ومع ذلك، فإن معظم أنظمة الترجمة الحالية إهمال تحويل النصوص ال
مختلطة من التعليمات البرمجية إلى لغة قياسية. تظل معظم المحتوى المكتوب من المستخدمين من المستخدمين في وسائل الإعلام الاجتماعية غير المعتمدة بسبب عدم توفر الموارد اللغوية مثل Corpus الموازي. تقترح هذه الورقة نموذجا للترجمة الآلية العصبية (NMT) لترجمة النص المختلط بين السنهالية - الإنجليزية إلى لغة سنهالا. نظرا للموارد المحدودة المتاحة لنص Sinhala-English النص المختلط (SEMM)، يتم إنشاء Corpus الموازي مع جمل SEMM وجمل Sinhala. تحتوي مواقع وسائل التواصل الاجتماعي Srilankan على نصوص SEMM بشكل متكرر أكثر من اللغات القياسية. النموذج المقترح للترجمة النصية المختلطة في التعليمات البرمجية في هذه الدراسة هو مزيج من إطار فك تشفير التشفير مع وحدات LSTM والمعلمين تجبر الخوارزمية. يتم تقييم الجمل المترجمة من النموذج باستخدام متري بلو (تقييم ثنائي اللغة). حقق نموذجنا درجة بلو رائعة للترجمة.
تعد خلط التعليمات البرمجية (CM) ظاهرة ملحوظة في كثير من الأحيان تستخدم لغات متعددة في الكلام أو الجملة. لا توجد قيود نحوية صارمة لاحظت في خلط التعليمات البرمجية، وتتألف من أشكال الإملاء غير القياسية. إن التعقيد اللغوي الناتج عن العوامل المذكورة أعلاه
جعل التحليل الحسابي للغة المختلطة من التعليمات البرمجية مهمة صعبة. تعد تحديد الهوية اللغوية (LI) وجزء الكلام (POS) الخطوات الأساسية التي تساعد في تحليل هيكل النص المختلط من التعليمات البرمجية. في كثير من الأحيان، تعتبر مهام وضع العلامات LI و POS في سيناريو خلط التعليمات البرمجية. نحن نعلم مشكلة التعامل مع تعدد اللغات والهيكل النحوي أثناء تحليل الجملة المختلطة من التعليمات البرمجية باعتبارها مهمة تعليمية مشتركة. في هذه الورقة، قمنا بالتعاون بشكل مشترك وتحسين اكتشاف اللغة وجزء من نماذج وضع علامات الكلام في السيناريو المختلط من التعليمات البرمجية. استخدمنا محول مع بنية الشبكة العصبية التنافعية. نحن ندرب طريقة التعلم المشترك من خلال الجمع بين طرامات نقاط البيع ونماذج LI على نص الوسائط الاجتماعية المختلطة من التعليمات البرمجية التي تم الحصول عليها من المهمة المشتركة أيقونة.
يمثل تحديا كبيرا في تحليل بيانات Me-Dia الاجتماعية التي تنتمي إلى لغات تستخدم البرنامج النصي غير الإنجليزي هو طبيعتها المختلطة من التعليمات البرمجية.قدمت أثر الحدث الذي أحدث طرازات تضمين حديثة تضمين تضمين الحديث (كل من أحادي الأحادي S.A.bert و Multil
ingal S.A.XLM-R) كهدوث نهج FOROMISP.في هذه الورقة، نوضح أداء هذا التضمين وزارة الدفاع إلى العوامل المتعددة، مثل الخلاط الشامل من الشفرة في DataSet، وكلفة بيانات التدريب.نحن منظمات تجريبية أن كبسولة مقدمة تقدمت حديثا يمكن أن تتفوق على مصنف مصنوع على Bertned English-Bert بالإضافة إلى مجموعة بيانات تدريب XLM-R فقط من حوالي 6500 عينة لبيانات Sinhala-English المزاجية للبيانات المختلطة.
تلعب اللغة المختلطة من التعليمات البرمجية دورا حاسما في الاتصالات في المجتمعات متعددة اللغات. على الرغم من أن النمو الأخير لمستخدمي الويب قد عززوا إلى حد كبير استخدام مثل هذه اللغات المختلطة، فإن الجيل الحالي لأنظمة الحوار مونولجة في المقام الأول. هذ
ه الزيادة في استخدام اللغة المختلطة من التعليمات البرمجية قد دفعت أنظمة الحوار بلغة مماثلة. نقدم عملنا في توليد الحوار المختلط من التعليمات البرمجية، وهي مهمة غير مستكشفة في اللغات المختلطة من التعليمات البرمجية، وتوليد الكلام في اللغة المختلطة من التعليمات البرمجية بدلا من لغة واحدة في كثير من الأحيان الإنجليزية فقط. نقدم لجنة اصطناعية جديدة في مزيج التعليمات البرمجية للحوائط، CM-DAYAYDIALOG، عن طريق تحويل كوربوس حوار موجود باللغة الإنجليزية فقط إلى Corpus مختلطة باللغة الهندية. بعد ذلك اقترحنا نهجا أساسيا حيث نظهر فعالية استخدام MBART مثل محولات تسلسل تسلسل متعدد اللغات لتوليد الحوار المختلط. يمكن لأفضل طرازات الحوار الأداء لدينا إجراء محادثات متماسكة في اللغة المختلطة الهندية - الإنجليزية كما تم تقييمها بواسطة المقاييس البشرية والآلية التي تحدد معايير جديدة لمهمة توليد الحوار المختلط من التعليمات البرمجية.
تعد خلط الكود (سم) ظاهرة شائعة في المجتمعات متعددة اللغات. يلعب CM دورا مهما في مجال التكنولوجيا والحقول الطبية حيث تكون المصطلحات في اللغة الأم وغير معروفة. سيساعد تحديد اللغة (غطاء) من بيانات CM حل مهام NLP مثل التدقيق الإملائي، والتعرف على الكيان
المسمى، وعلامات جزء من الكلام، والتحليل الدلالي. في العصر الحالي من التعلم الآلي، فإن المشكلة المشتركة للمهام المذكورة أعلاه هي توافر بيانات التعلم لتدريب نماذج. في هذه الورقة، نقدم مجموعة بيانات Telugu-English-English مزقوفة يدويا (مجموعة بيانات Twitter DataSet and Blog). تحتوي مجموعة بيانات Twitter على المزيد من التباين بالحروف بالحروف اللاتينية وأصحاب أخطاء إملائية من مجموعة بيانات المدونة. قارننا عبر نماذج التصنيف المختلفة وإجراء علامات مقاعد البدلاء واسعة النطاق باستخدام نماذج التعلم الكلاسيكية والعميقة للغطاء مقارنة بالنماذج الحالية. نقترح دورتين لتصنيف اللغة (التيلجو والإنجليزي) في بيانات CM: (1) تصنيف مستوى تصنيف مستوى الكلمات (2) تصنيف الكلمات من Word-Word وتقارن هذه النهج تقديم خطين قويين للغطاء على مجموعات البيانات هذه.