ترغب بنشر مسار تعليمي؟ اضغط هنا

تكنولوجيا اللغة التطبيقية: NLP للعلوم الإنسانية

Applied Language Technology: NLP for the Humanities

350   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصف هذه المساهمة وحدة من الدورة التدريبية تسعى إلى توفير التخصصات الإنسانية مع فهم أساسي لتكنولوجيا اللغة وتطبيقاتها باستخدام Python.تتكون مواد التعلم من أجهزة الكمبيوتر المحمولة Jupyter التفاعلية ومرافقة مقاطع فيديو YouTube، والتي تتوفر بدراء مع ترخيص Creative Commons.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

كلمة الويب الأيسلندية الجديدة (IW) هي إعادة تصميم تكنولوجيا لغة تركز على قاعدة بيانات معجمية للإدخالات ذات الصلة الدوالية.تم تنفيذ كيانات IW والعلاقات وخطط البيانات الوصفية والتصنيف من الصفر في أنظمة اثنين، Ontolex and Skos.بعد إجراء بعض التعديلات عل ى نظام التشغيل البيني Ontolex و SKOS، كان من الممكن أيضا تنفيذ ميزات IW المحددة التي، في حين أن المحتمل غير المحتمل، تشكل جزءا لا يتجزأ من الوظيفة المعجمية للإنترنت Word.أيضا في هذا التنفيذ يتم الوصول إلى كمية أكبر من البيانات اللغوية، ومجموعة أكبر من خيارات البحث، وإمكانية معالجة الآلي، والقدرة على إجراء البحوث من خلال Sparql دون امتلاك إتقان أيسلندي.
في هذه الورقة، نقدم رؤية تجاه إنشاء منصة مالطا لتكنولوجيا اللغات الوطنية؛جهد مستمر يهدف إلى توفير أساس لتعزيز اللغات الرسمية في مالطا، أي المالطية والإنجليزية، باستخدام الترجمة الآلية.سيؤدي ذلك إلى المساهمة في تحسين دعم تكنولوجيا اللغة الحالية لغوية لغة الموارد المنخفضة المالطية، عبر حقول اللغويات الحسابية المتعددة، مثل معالجة الكلام والترجمة الآلية وتحليل النصوص ومصادر متعددة الوسائط.تتمثل الأهداف النهائية في إزالة الحواجز اللغوية، وزيادة إمكانية الوصول، وتعزيز الخدمات عبر الحدود، والأهم من ذلك لتسهيل الحفاظ على اللغة المالطية.
توفر معالجة اللغة الطبيعية رؤى جديدة في بيانات اللغة عبر جميع التخصصات والمجالات تقريبا، وتتيح لنا التأكيدات و / أو تحدي المعرفة الموجودة.الحواجز الأساسية لتوسيع مشاركة هذه الأدوات البحثية الجديدة واستخدامها هي، أولا، عدم وجود مهارات الترميز في الطلا ب عبر K-16، وفي السكان ككل، وثانيا، عدم وجود معرفة بكيفية أساليب NLPأن تستخدم للإجابة على أسئلة الاهتمام التأديبي خارج اللغويات و / أو علوم الكمبيوتر.لتوسيع نطاق المشاركة في NLP وتحسين محو الأمية NLP، أدخلنا أداة قائمة على شبكة الإنترنت أداة جديدة تسمى معالجة اللغة الطبيعية 4 جميعها (NLP4ALL).الغرض المقصود من NLP4ALL هو مساعدة المعلمين على تسهيل التعلم مع NLP وحولها، من خلال توفير واجهات سهلة الاستخدام لأساليب NLP والبيانات والتحليلات، مما يجعل من الممكن للمبرمجين غير المبتدئين تعلم مفاهيم NLP بشكل تفاعلي.
تجمع أبحاث معالجة اللغة الطبيعية (NLP) بين دراسة المبادئ العالمية، من خلال العلوم الأساسية، مع استهداف العلوم التطبيقية في حالات الاستخدام وإعدادات محددة. ومع ذلك، غالبا ما يفترض عملية التبادل بين NLP والتطبيقات الأساسية في كثير من الأحيان الظهور بشك ل طبيعي، مما أدى إلى العديد من الابتكارات التي تسير دون مبرر والعديد من الأسئلة المهمة تركت غير مستعصة. نحن نصف نموذج جديد من Translationations NLP، الذي يهدف إلى بنية وتيسير العمليات التي تبلغ بها بحث NLP الأساسي والتطبيقي بعضها البعض. وبالتالي يعرض NLP نموذجا للبحث الثالث، ركز على فهم التحديات التي تطرحها احتياجات التطبيق وكيف يمكن أن تدفع هذه التحديات الابتكار في تصميم العلوم والتكنولوجيا الأساسية. نظرا لأن العديد من التطورات المهمة في أبحاث NLP قد برزت من تقاطع المبادئ الأساسية مع احتياجات الطلب، وتقديم إطار مفاهيمي يحدد أصحاب المصلحة والأسئلة الرئيسية في البحوث المتعلقة بالجمالية. يوفر إطار عملنا خريطة طريق لتطوير Translationations NLP كجال بحث مخصص، وتحدد المبادئ التعليمية العامة لتسهيل التبادل بين البحوث الأساسية والتطبيقية.
تركز هذه الورقة على تنظيف البيانات كجزء من إجراء مسبق مسبق تطبق على البيانات النصية المستردة من الويب. على الرغم من أن أهمية هذه المرحلة المبكرة في مشروع باستخدام أساليب NLP غالبا ما يسلط الضوء عليها من قبل الباحثون، فإن التفاصيل، والمبادئ والتقنيات العامة عادة ما يتم استبعادها بسبب النظر في الفضاء. في أحسن الأحوال، يتم رفضهم بتعليق تم تطبيق إجراءات تنظيف البيانات المعتادة ومعالجتها المعتميات ". عادة ما يتم إعطاء المزيد من التغطية الشرح النص التلقائي النصي مثل Lemmatisation ووضع العلامات والتحليلات الجزئية والتحليلات، والتي غالبا ما يتم تضمينها في Preprocessing. في الأدب، يتم استخدام مصطلح المعالجة المسبق "للإشارة إلى مجموعة واسعة من الإجراءات، من التصفية والتنظيف لتحويل البيانات مثل التمثيل الناتج والرقم، مما قد يخلق الارتباك. نقول أن إعادة معالجة النصوص قد تشوه توزيع البيانات الأصلية فيما يتعلق بالبيانات الوصفية، مثل أنواع المواقع والأوقات وأوقات البيانات المسجلة. في هذه الورقة، نصف نهجا منهجيا لتنظيف البيانات النصية الملغومة من قبل شركة لتوفير البيانات لبرنامج العلوم الإنسانية الرقمية (DH) التي تركز على التحليلات الثقافية. نحن نكشف عن أنواع وكمية الضوضاء في البيانات الواردة من مصادر الويب المختلفة وتقدير التغييرات في حجم البيانات المرتبطة بالموافقة المسبقة. نحن أيضا مقارنة نتائج تجربة تصنيف النص يعمل على البيانات الخام ومعالجتها. نأمل أن تساعد تجربتنا ونهجنا على مساعدة مجتمع DH لتشخيص جودة البيانات النصية التي تم جمعها من الويب وإعدادها لمزيد من معالجة اللغة الطبيعية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا