ترغب بنشر مسار تعليمي؟ اضغط هنا

نحو فهم أفضل للضوضاء في معالجة اللغة الطبيعية

Towards a Better Understanding of Noise in Natural Language Processing

438   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نقترح تعريف وتعريفي من أنواع مختلفة من المحتوى النصي غير القياسي - يشار إليها عموما باسم الضوضاء "- في معالجة اللغة الطبيعية (NLP). في حين أن معالجة البيانات المسبقة هي بلا شك مهم بلا شك في NLP، خاصة عند التعامل مع المحتوى الذي تم إنشاؤه من قبل المستخدم، فإن فهم أوسع لمصادر الضوضاء المختلفة وكيفية التعامل معها هو جانب تم إهماله إلى حد كبير. نحن نقدم قائمة شاملة للمصادر المحتملة للضوضاء، وتصنيفها ووصفها، وتظهر تأثير مجموعة فرعية من استراتيجيات المعالجة القياسية المعدلة على مهام مختلفة. هدفنا الرئيسي هو زيادة الوعي بالمحتوى غير المعتاد - والذي لا ينبغي اعتباره دائما ضوضاء "- والحاجة إلى المعالجة المسبقة التي تعتمد على المهام. هذا بديل إلى بطانية، مثل الحلول الشاملة التي تطبقها الباحثون بشكل عام من خلال "خطوط أنابيب معالجة مسبقا مسبقا". النية هي لهذا التصنيف بمثابة نقطة مرجعية لدعم الباحثين NLP في وضع الاستراتيجيات لتنظيف أو تطبيع أو احتضان المحتوى غير المعتاد.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

هناك الآلاف من الأوراق حول معالجة اللغة الطبيعية واللغويات الحاسوبية، ولكن عدد قليل جدا من الكتب المدرسية.أصف الدافع والعملية لكتابة كتاب مدرسي في كلية حول معالجة اللغة الطبيعية، وتقديم المشورة والتشجيع للقراء الذين قد يهتمون بكتابة كتاب مدرسي خاص بهم.
تقطير المعرفة (KD) هي خوارزمية ضغط نموذجية تساعد في نقل المعرفة في شبكة عصبية كبيرة في واحدة أصغر.على الرغم من أن KD قد أظهرت وعد على مجموعة واسعة من تطبيقات معالجة اللغة الطبيعية (NLP)، يفهم القليل حول كيفية مقارنة خوارزمية KD واحدة مع آخر وما إذا ك انت هذه الأساليب يمكن أن تكون مجانية لبعضها البعض.في هذا العمل، نقوم بتقييم خوارزميات KD المختلفة على اختبار داخل المجال والخروج والمصدري.نقترح إطارا لتقييم متانة الخصومة لخوارزميات متعددة الدكتوراط.علاوة على ذلك، نقدم خوارزمية KD جديدة، مجتمعة د.ك، والتي تستفيد من نهجين واعدين (مخطط تدريب أفضل وزعم البيانات أكثر كفاءة).تظهر النتائج التجريبية الواسعة لدينا أن مجتمعة - KD تحقق نتائج أحدث النتائج على مرجع الغراء، وتعميم خارج المجال، ومتانة الخصومة مقارنة بالأساليب التنافسية.
كيف يمكننا تصميم أنظمة معالجة اللغة الطبيعية (NLP) التي تتعلم من ردود الفعل البشرية؟هناك هيئة بحثية متزايدة من أطر NLP البشرية (HITL) التي تدمج بشكل مستمر ردود الفعل الإنسانية لتحسين النموذج نفسه.Hitl NLP Research NLP NATCENT ولكن MultiriSious - حل م شاكل NLP المختلفة، وجمع تعليقات متنوعة من أشخاص مختلفين، وتطبيق أساليب مختلفة للتعلم من ردود الفعل الإنسانية.نقدم دراسة استقصا لمجتمعات Hitl NLP من كل من مجتمعات التعلم الآلي (ML) وتفاديا الإنسان (HCI) التي تسلط الضوء على تاريخها القصير الذي يلهم، ويلخص تماما الأطر الأخيرة التي تركز على مهامها وأهدافها والتفاعلات البشرية وتعلم ردود الفعلطرق.أخيرا، نناقش الدراسات المستقبلية لإدماج ردود فعل إنسانية في حلقة تطوير NLP.
تستكشف هذه المقالة إمكانية معالجة اللغات الطبيعية (NLP) لتمكين نموذج شرطة مركزة وأقل فعالية وأقل من المواجهة التي كانت تستهلك حتى الآن من الموارد لتنفيذ الحجم. الشرطة المنحى للمشاكل (البوب) هي استبدال محتمل، على الأقل جزئيا، بالنسبة للشرطة التقليدية التي تعتمد نهجا تفاعلا، تعتمد اعتمادا كبيرا على نظام العدالة الجنائية. على النقيض من ذلك، يسعى البوب ​​لمنع الجريمة من خلال التلاعب بالظروف الأساسية التي تسمح بالارتكاب الجرائم. يتطلب تحديد هذه الشروط الأساسية فهما مفصلا لأحداث الجريمة - معرفة ضمنية تعقد غالبا من قبل ضباط الشرطة ولكن يمكن أن تكون صعبة للغاية للاستمتاع ببيانات الشرطة المهيكلة. يوجد أحد المصدر المحتمل للنصية في بيانات نصية مجانية غير منظمة تجمعها الشرطة لأغراض التحقيق أو الإدارة. ومع ذلك، فإن وكالات الشرطة لا تحتوي عادة على المهارات أو الموارد لتحليل هذه البيانات على نطاق واسع. في هذه المقالة، نقول أن NLP يقدم القدرة على فتح هذه البيانات غير المنظمة وبالتالي السماح للشرطة بتنفيذ المزيد من مبادرات البوب. ومع ذلك، نحذر أن استخدام نماذج NLP دون معرفة كافية قد يسمح إما بإدخال التحيز داخل البيانات التي تؤدي إلى نتائج غير مواتية.
تشير الدراسات الحديثة إلى أن العديد من أنظمة NLP حساسة وعرضة للاضطرابات الصغيرة للمدخلات ولا تعميمها بشكل جيد عبر مجموعات البيانات المختلفة. هذا الافتقار إلى المتانة ينطبق على استخدام أنظمة NLP في تطبيقات العالم الحقيقي. يهدف هذا البرنامج التعليمي إل ى زيادة الوعي بالشواغل العملية حول متانة NLP. يستهدف الباحثون والممارسون الخماسيون الذين يهتمون ببناء أنظمة NLP موثوقة. على وجه الخصوص، سنراجع الدراسات الحديثة حول تحليل ضعف أنظمة NLP عند مواجهة المدخلات والبيانات المعديين مع تحول التوزيع. سوف نقدم للجمهور بهدف شامل من 1) كيفية استخدام أمثلة الخصومة لفحص ضعف نماذج NLP وتسهيل تصحيح الأخطاء؛ 2) كيفية تعزيز متانة نماذج NLP الحالية والدفاع ضد المدخلات الخصومة؛ 3) كيف يؤثر النظر في المتانة على تطبيقات NLP العالمية الحقيقية المستخدمة في حياتنا اليومية. سنختتم البرنامج التعليمي عن طريق تحديد اتجاهات البحث في المستقبل في هذا المجال.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا