ترغب بنشر مسار تعليمي؟ اضغط هنا

إعادة النظر في النص وآثارها في مشروع العلوم الإنسانية الرقمية

Text Preprocessing and its Implications in a Digital Humanities Project

214   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تركز هذه الورقة على تنظيف البيانات كجزء من إجراء مسبق مسبق تطبق على البيانات النصية المستردة من الويب. على الرغم من أن أهمية هذه المرحلة المبكرة في مشروع باستخدام أساليب NLP غالبا ما يسلط الضوء عليها من قبل الباحثون، فإن التفاصيل، والمبادئ والتقنيات العامة عادة ما يتم استبعادها بسبب النظر في الفضاء. في أحسن الأحوال، يتم رفضهم بتعليق تم تطبيق إجراءات تنظيف البيانات المعتادة ومعالجتها المعتميات ". عادة ما يتم إعطاء المزيد من التغطية الشرح النص التلقائي النصي مثل Lemmatisation ووضع العلامات والتحليلات الجزئية والتحليلات، والتي غالبا ما يتم تضمينها في Preprocessing. في الأدب، يتم استخدام مصطلح المعالجة المسبق "للإشارة إلى مجموعة واسعة من الإجراءات، من التصفية والتنظيف لتحويل البيانات مثل التمثيل الناتج والرقم، مما قد يخلق الارتباك. نقول أن إعادة معالجة النصوص قد تشوه توزيع البيانات الأصلية فيما يتعلق بالبيانات الوصفية، مثل أنواع المواقع والأوقات وأوقات البيانات المسجلة. في هذه الورقة، نصف نهجا منهجيا لتنظيف البيانات النصية الملغومة من قبل شركة لتوفير البيانات لبرنامج العلوم الإنسانية الرقمية (DH) التي تركز على التحليلات الثقافية. نحن نكشف عن أنواع وكمية الضوضاء في البيانات الواردة من مصادر الويب المختلفة وتقدير التغييرات في حجم البيانات المرتبطة بالموافقة المسبقة. نحن أيضا مقارنة نتائج تجربة تصنيف النص يعمل على البيانات الخام ومعالجتها. نأمل أن تساعد تجربتنا ونهجنا على مساعدة مجتمع DH لتشخيص جودة البيانات النصية التي تم جمعها من الويب وإعدادها لمزيد من معالجة اللغة الطبيعية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يبدو أن نجاح النماذج اللغوية المستندة إلى بنية المحولات لا يتعارض مع خصائص الخواص المتجاهية الملحوظة التي تعلمتها هذه النماذج.نقوم بحل هذا من خلال إظهار، خلافا للدراسات السابقة، أن التمثيل لا تشغل مخروطا ضيقا، ولكن الانجراف في اتجاهات مشتركة إلى حد م ا.عند أي خطوة تدريبية، يتم تحديث جميع المدينات باستثناء تضمين الهدف الأساسي للحقيقة مع التدرج في نفس الاتجاه.يضاعف فوق مجموعة التدريب، وانجرف المدينات وتبادل المكونات الشائعة، حيث تجلى في شكلها في جميع النماذج التي اختبرناها تجريبيا.تظهر تجاربنا أن iSotropy يمكن استعادتها باستخدام تحول بسيط.
يمثل عدم المساواة بين الجنسين خسارة كبيرة في الإمكانات البشرية وإدامة ثقافة العنف، وارتفاع الفجوات في مجال الأجور بين الجنسين، وعدم وجود تمثيل المرأة في المناصب العليا والقيادية. يتم استخدام التطبيقات المدعومة من الذكاء الاصطناعي (AI) بشكل متزايد في العالم الحقيقي لتوفير قرارات نقدية حول من الذي سيتم توظيفه، ومنح قرضا، مقبول في الكلية، إلخ. ومع ذلك، فإن الركائز الرئيسية ل AI ومعالجة اللغة الطبيعية ( تم عرض NLP) وتعلم الجهاز (ML) تعكس وحتى تضخيم التحيزات والقوالب النمطية للجنسين، والتي تورثها أساسا من بيانات التدريب التاريخية. في محاولة لتسهيل تحديد الهوية والتخفيف من التحيز بين الجنسين في نص اللغة الإنجليزية، نطور تصنيفا شاملا للتصنيفات التي تعتمد على أنواع المنحات بين الجنسين التالية: الضمائر العامة، الجنسية، التحيز المهني، التحيز الاستبعاد، والدليل. ونحن نقدم أيضا نظرة عامة على نحو من القاعدة من خلال التحيز بين الجنسين، من أصلها المجتمعي إلى اللغة إلى اللغة. أخيرا، نربط الآثار المجتمعية على التحيز بين الجنسين من النوع (الأنواع) المقابلة في التصنيف المقترح. الدافع الأساسي لعملنا هو المساعدة في تمكين المجتمع الفني لتحديد والتخفيف من التحيزات ذات الصلة من التدريب كورسا لتحسين الإنصاف في أنظمة NLP.
هدفت هذه الدراسة إلى التعرف على واقع إدارة الجودة الشاملة في كلية الآداب و العلوم الإنسانية في جامعة البعث و الى التعرف على العلاقة بين المتغيرات الديموغرافية و الوظيفية لأفراد العينة و مبادئ إدارة الجودة الشاملة. و استخدمت الدراسة المنهج المسح ال ميداني، و أعد الباحث استبانة تضم ست مجالات هي (التحسين المستمر، مشاركة العاملين، التدريب و التعليم، التحسين المستمر، فرق العمل، رضا المستفيد).
في مهام توليد اللغة الطبيعية، يتم استخدام نموذج لغة عصبي لتوليد سلسلة من الكلمات التي تشكل جملة.يمكن اعتبار مصفوفة الوزن الأعلى من طراز اللغة، المعروف باسم طبقة التصنيف، كمجموعة من المتجهات، كل منها يمثل كلمة مستهدفة من قاموس الهدف.يتم تعلم ومكافحة ا لكلمات المستهدفة، إلى جانب بقية المعلمات النموذجية، أثناء التدريب.في هذه الورقة، نقوم بتحليل الممتلكات المشفرة في المتجهات المستهدفة والسؤال على ضرورة تعلم هذه المتجهات.نقترح تعيين ناقلات المستهدفة بشكل عشوائي وتحديدها على أنها ثابتة حتى يتم إجراء تحديثات للأوزان أثناء التدريب.نظهر أنه من خلال استبعاد ناقلات التحسين، ينخفض عدد المعلمات بشكل كبير مع تأثير هامشي على الأداء.نوضح فعالية طريقتنا في التسمية التوضيحية للصورة والترجمة الآلية.
يعد المشروع الصهيو-أمريكي استكمالا للمشاريع التي وضعتها و خططت لها الدوائر الاستعمارية و الصهيونية، و التي كانت تهدف إلى فصل مشرق الوطن العربي عن مغربه، عن طريق زرع الكيان الصهيوني في قلب الوطن العربي، و ذلك بعد سلسلة من الاتفاقيات و المعاهدات التي م هدت لقيامه كاتفاقية سايكس-بيكو الاستعمارية عام 1916 ، و وعد بلفور عام 1917 . و من ثم فإن ما يجري اليوم في الوطن العربي ليس إلا استكمالا لما خطط له، و لا يمكن فصله عن مخطط أمريكي-صهيوني-أوروبي غربي يستهدف اختراق المنطقة العربية برمتها، بغية اصطناع دويلات هزيلة ضعيفة يسهل السيطرة عليها، و من ثَم نهب ثروات و مقدرات العرب، و ضمان أمن "إسرائيل". ليس هذا فحسب بل وصلت أهداف تلك الدول إلى حد العمل على تفتيت الوطن العربي و احتلاله، و القضاء على الحكومات و الأحزاب القومية، و من ثَم إنهاء المشروع القومي و النظام العربي. و إحدى الأدوات أو السيناريوهات الاستعمارية المطروحة لتحقيق ذلك من قبل أصحاب المشروع الصهيوني-الأمريكي يتمثل في ضرب النوع بالنوع في المنطقة العربية سواء أكان طائفيًا أم مذهبيًا أم إثنيًا أم قوميًا. و من ثَم يهدف إلى إشعال الحروب الطائفية و الأهلية بين مكونات المجتمع العربي حتى تعود شعوب المنطقة إلى ما قبل الدولة الوطنية، الأمر الذي يؤدي إلى إشاعة الفوضى و الاضطرابات و فقدان الأمن، مما يسبب انعكاسات خطيرة و تداعيات كارثية على مناحي الحياة المختلفة الثقافية و السياسية و الاجتماعية و الاقتصادية و غيرها. ما تقدم يشكل المناخ المناسب لتقسيم الدول العربية، و تجزئتها إلى دويلات لها طابع طائفي و مذهبي و قومي و من ثَم رسم خريطة جديدة للمنطقة العربية تخدم مصالح الدول الاستعمارية. إن هذا المناخ من الفوضى يعطي المبررات و الحجج للدول أصحاب المشروع الصهيو-أمريكي للتدخل في شؤون الدول العربية، و انتهاك سيادتها، و السيطرة على مواردها سواء أكانت موارد نفطية أم غازية، أو الإفادة من موقعها الاستراتيجي للتحكم بطرق التجارة العالمية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا