أدى فجر العصر الرقمي إلى زيادة متطلبات موارد البحوث الرقمية، والتي يجب معالجتها بسرعة ومعالجتها بواسطة أجهزة الكمبيوتر.نظرا لكمية البيانات التي تم إنشاؤها بواسطة عملية الرقمنة هذه، أصبح تصميم الأدوات التي تمكن تحليل وإدارة البيانات والبيانات الوصفية موضوعا ذا صلة.في هذا السياق، يساهم الكائنات متعددة اللغات من استبيانات المسح (MCSQ) في إنشاء وتوزيع البيانات للعلوم والإعلان الاجتماعي (SSH) بعد مبادئ عادلة (غير قابلة للتحقيق، غير قابلة للوصول، قابل للتشغيل القابلة لإعادة الاستخدام)، وتوفر وظائف للمستخدمين النهائيينلا يعرف ذلك البرمجة من خلال واجهة سهلة الاستخدام.بمجرد تطبيق المرشحات المرغوبة في واجهة الرسم، يمكن للمستخدمين إنشاء موارد لغوية لمناطق البحث والترجمة، مثل ذكريات الترجمة، وبالتالي تسهيل الوصول إلى البيانات واستخدامها.
The dawn of the digital age led to increasing demands for digital research resources, which shall be quickly processed and handled by computers. Due to the amount of data created by this digitization process, the design of tools that enable the analysis and management of data and metadata has become a relevant topic. In this context, the Multilingual Corpus of Survey Questionnaires (MCSQ) contributes to the creation and distribution of data for the Social Sciences and Humanities (SSH) following FAIR (Findable, Accessible, Interoperable and Reusable) principles, and provides functionalities for end-users that are not acquainted with programming through an easy-to-use interface. By simply applying the desired filters in the graphic interface, users can build linguistic resources for the survey research and translation areas, such as translation memories, thus facilitating data access and usage.
المراجع المستخدمة
https://aclanthology.org/
نقدم أول كائن مشروح للتحليل متعدد اللغات من البنات غير العادلة المحتملة في شروط الخدمة عبر الإنترنت.تشتمل مجموعة البيانات على ما مجموعه 100 عقد، تم الحصول عليها من 25 وثيقة مشروح في أربع لغات مختلفة: الإنجليزية والألمانية والإيطالية والبولندية.لكل عق
في هذه الورقة، نقدم العمل في التقدم الذي يهدف إلى تطوير مجموعة بيانات جديدة للصورة مع كائنات مشروح. تتكون Corpus Image متعددة اللغات من طبولوجيا الكائنات المرئية (بناء على WordNet) ومجموعة من الصور ذات الصلة بشكل موضوعي المشروح مع أقنعة تجزئة وفئات ا
تتيح أقسام التعليقات للمستخدمين مشاركة تجاربهم الشخصية، ومناقش آراء مختلفة وتشكيلها، وبناء مجتمعات خارج المحادثات العضوية.ومع ذلك، فإن العديد من أقسام التعليقات تقدم ترتيب زمني لجميع المستخدمين.في هذه الورقة، أقوم بمناقشة نهج التخصيص في أقسام التعليق
تكتسب نماذج اللغة المحددة مسبقا بسرعة شعبية بسرعة في أنظمة NLP للغات غير الإنجليزية.تتميز معظم هذه النماذج بخطوة أخذ عينات مهمة مهمة في عملية تتراكم بيانات التدريب بلغات مختلفة، للتأكد من أن الإشارة من لغات الموارد الأفضل لا تغرق منها أكثر الموارد.في
في تطوير نظام لإجواب الأسئلة عبر الإنترنت للنطاقات الطبية، تلعب نماذج الاستدلال باللغة الطبيعية (NLI) دورا رئيسيا في مطابقة الأسئلة والكشف عن النية.ومع ذلك، ما هي النماذج هي الأفضل لمجموعات البيانات لدينا؟اختيار أو ضبط نموذج يدويا هو تستغرق وقتا طويل