ترغب بنشر مسار تعليمي؟ اضغط هنا

وجعة للتحليل متعدد اللغات من شروط الخدمة عبر الإنترنت

A Corpus for Multilingual Analysis of Online Terms of Service

235   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم أول كائن مشروح للتحليل متعدد اللغات من البنات غير العادلة المحتملة في شروط الخدمة عبر الإنترنت.تشتمل مجموعة البيانات على ما مجموعه 100 عقد، تم الحصول عليها من 25 وثيقة مشروح في أربع لغات مختلفة: الإنجليزية والألمانية والإيطالية والبولندية.لكل عقد، يتم تفاح البنود غير العادلة للمستهلك، لتسع فئات غير ظلم مختلفة.نظهر كيف يمكن استخدام تقنية الإسقاط التوضيحي بسيطة ولكنها فعالة استنادا إلى مدماج الجملة لإجراء التعليقات التوضيحية تلقائيا عبر اللغات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أدى فجر العصر الرقمي إلى زيادة متطلبات موارد البحوث الرقمية، والتي يجب معالجتها بسرعة ومعالجتها بواسطة أجهزة الكمبيوتر.نظرا لكمية البيانات التي تم إنشاؤها بواسطة عملية الرقمنة هذه، أصبح تصميم الأدوات التي تمكن تحليل وإدارة البيانات والبيانات الوصفية موضوعا ذا صلة.في هذا السياق، يساهم الكائنات متعددة اللغات من استبيانات المسح (MCSQ) في إنشاء وتوزيع البيانات للعلوم والإعلان الاجتماعي (SSH) بعد مبادئ عادلة (غير قابلة للتحقيق، غير قابلة للوصول، قابل للتشغيل القابلة لإعادة الاستخدام)، وتوفر وظائف للمستخدمين النهائيينلا يعرف ذلك البرمجة من خلال واجهة سهلة الاستخدام.بمجرد تطبيق المرشحات المرغوبة في واجهة الرسم، يمكن للمستخدمين إنشاء موارد لغوية لمناطق البحث والترجمة، مثل ذكريات الترجمة، وبالتالي تسهيل الوصول إلى البيانات واستخدامها.
تكتسب نماذج اللغة المحددة مسبقا بسرعة شعبية بسرعة في أنظمة NLP للغات غير الإنجليزية.تتميز معظم هذه النماذج بخطوة أخذ عينات مهمة مهمة في عملية تتراكم بيانات التدريب بلغات مختلفة، للتأكد من أن الإشارة من لغات الموارد الأفضل لا تغرق منها أكثر الموارد.في هذه الدراسة، ندرب العديد من النماذج اللغوية المتكررة متعددة اللغات، بناء على بنية ELMO، وتحليل تأثير نسب حجم Corpus المتغير على الأداء المصب، بالإضافة إلى اختلاف الأداء بين نماذج أحادية الألوان لكل لغة، ونماذج لغة متعددة اللغات الأوسعوبعدكجزء من هذا الجهد، نجعل هذه النماذج المدربة المتاحة للاستخدام العام.
في طرازات اللغة عبر اللغات، تعيش تمثيلات للعديد من اللغات المختلفة في نفس المساحة. هنا، نحقق في العوامل اللغوية وغير اللغوية التي تؤثر على محاذاة على مستوى الجملة في نماذج اللغة المحددة مسبقا بين 101 لغة و 5،050 زوج لغة. باستخدام LASTE BERT-القائم عل ى BERT و LASER المستندة إلى BILSTM كنماذجنا، والكتاب المقدس كجورتنا، نحسب مقياسا يستند إلى المهمة لمحاذاة عبر اللغات في شكل أداء استرجاع BiteXT، بالإضافة إلى أربعة تدابير جوهرية لمساحة المتجهات المحاذاة والتزييف. ثم ندرس مجموعة من الميزات اللغوية واللغوية واللغوية والمتعلقة التدريبية كتنبؤ محتمل من مقاييس المحاذاة. تظهر نتائج تحليلاتنا أن اتفاقية ترتيب الكلمات والاتفاق في التعقيد المورفولوجي هي اثنتان من أقوى المتنبئ اللغوي للقلق. نلاحظ أيضا البيانات التدريبية في الأسرة كمؤشر أقوى من بيانات التدريب المحددة باللغة في جميع المجالات. نحن نتحقق من بعض النتائج اللغوية لدينا من خلال النظر في تأثير تجزئة مورفولوجية على محاذاة اللغة الإنجليزية - غير الأجنبية، بالإضافة إلى دراسة تأثير اتفاقية ترتيب الكلمات على ISomorphism ل 66 أزواج لغة الطلقة الصفرية من كائن مختلف. نحن نجعل البيانات والرمز تجاربنا متاحة للجمهور.
لقد ظهرت وحدات محول كوسيلة فعالة من المعلمات لتخصص التشفير المسبق على المجالات الجديدة. استفادت محولات متعددة اللغات بشكل كبير (MMTS) بشكل خاص من التدريب الإضافي للمحولات الخاصة باللغة. ومع ذلك، فإن هذا النهج ليس قابلا للتطبيق بالنسبة للغالبية العظمى من اللغات، بسبب القيود في حجم الشقوق أو حساب الميزانيات. في هذا العمل، نقترح جنون G (جيل محول متعدد اللغات)، الذي يولد محولات لغة محلية من تمثيلات اللغة بناء على الميزات النموذجية. على عكس العمل السابق، يتيح نهجنا المجنون بوقتنا وفعال الفضاء (1) تبادل المعرفة اللغوية عبر اللغات و (2) استنتاج صفرية عن طريق توليد محولات لغة للغات غير المرئية. نحن نقيم بدقة جنون G في النقل الصفر - نقل عبر اللغات على علامة جزء من الكلام، وتحليل التبعية، والاعتراف كيان المسمى. أثناء تقديم (1) تحسين كفاءة ضبط الدقيقة (1) من خلال عامل حوالي 50 في تجاربنا)، (2) ميزانية معلمة أصغر، و (3) زيادة تغطية اللغة، لا تزال جنون جي تنافسية مع أساليب أكثر تكلفة للغة تدريب محول محدد في جميع اللوحة. علاوة على ذلك، فإنه يوفر فوائد كبيرة لغات الموارد المنخفضة، لا سيما في مهمة NER في لغات أفريقية منخفضة الموارد. أخيرا، نوضح أن أداء نقل جنون جي يمكن تحسينه عبر: (1) التدريب متعدد المصادر، أي، من خلال توليد ومجتمعة محولات لغات متعددة مع بيانات التدريب الخاصة بمهام المهام المتاحة؛ و (2) عن طريق مزيد من ضبط محولات جنون G للغات ولغات مع بيانات أحادية الأونلينغ.
أحضر جائحة Covid-19 المستمر التعليم عبر الإنترنت في طليعة المناقشات التربوية. لجعل هذه الفائدة المتزايدة المستدامة في حقبة ما بعد الوباء، يجب بناء الدورات التدريبية عبر الإنترنت على أسس ترياجية قوية. مع تاريخ طويل من البحث التربوي، هناك العديد من الم بادئ والأطر والنماذج المتاحة لمساعدة المعلمين في القيام بذلك. تغطي هذه النماذج وجهات نظر تدريس مختلفة، مثل المحاذاة البناءة والتعليقات وبيئة التعلم. في هذه الورقة، نناقش كيف صممنا ونفذت دورة معالجة اللغات الطبيعية على الإنترنت (NLP) عبر الإنترنت بعد المحاذاة البناءة والالتزام بالمبادئ التربوية لل LTU. من خلال فحص الدورة التدريبية لدينا وتحليل نماذج تقييم الطلاب، نوضح أننا حققنا هدفنا وتقديمها بنجاح الدورة. علاوة على ذلك، نناقش الفوائد الإضافية الناتجة عن الوضع الحالي للتسليم، بما في ذلك زيادة إعادة استخدام محتوى الدورة التدريبية وزيادة إمكانات التعاون بين الجامعات. أخيرا، نناقش أيضا حيث يمكننا وسنمزيد من تحسين تصميم الدورة التدريبية الحالية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا