تصنيف النصوص

Text classification problem

4546 6 295 0 ( 0 )

تحميل البحث استخدام كمرجع

نشر من قبل جامعة دمشق حلقة بحث

تاريخ النشر 2018

والبحث باللغة العربية

تأليف شيماء الشحمة( طالب ) - يسرى البياتي( طالب ) - محمد عمار الكيلاني( طالب )

تمت اﻹضافة من قبل Shaymaa Shahma

تصنيف النصوص التعلم الآلي

قم بزيارة صفحتنا على فيسبوك

‎Shamra Academia - شمرا أكاديميا‎

اسأل ChatGPT حول البحث

الملخص بالعربية الملخص بالإنكليزية

تصنيف النصوص هو واحد من المجالات الهامة في معالجة اللغة الطبيعية. تمت دراسة مشكلة التصنيف على نطاق واسع في استخراج البيانات ، التعلم الآلي ، وقاعدة البيانات ، و مجال استرجاع المعلومات مع التطبيقات في عدد من المجالات المتنوعة ، مثل التسويق المستهدف ، التشخيص الطبي ، تصفية مجموعة الأخبار ، وتنظيم الوثائق ، تحديد موضوع مقالة إخبارية ، تحليل المشاعر. ومن المعروف أنه من المستحيل تعريف أفضل مصنف نصي فمثلا في مجالات مثل الرؤية الحاسوبية Computer Vision ، هناك إجماع قوي حول طريقة عامة لتصميم النماذج والشبكات العصبونية وغيرها من المنهجيات المعتمدة . و بخلاف ذلك ، لا يزال تصنيف النص يفتقر إلى هذه الطريقة العامة في مجالات كثيرة . نهدف في هذا البحث إلى تقديم مسح شامل لمجموعة من المنهجيات والخوارزميات المستخدمة لتصنيف النصوص ، والتحسينات التي طرأت عليها . سنركز على المقاربات العامة الرئيسية لخوارزميات تصنيف النص وحالات الاستخدام الخاصة بها

مراجعة الذكاء الصنعي:

قُم بترقية الحساب لمشاهدة المحتوى

ملخص البحث

يتناول هذا البحث موضوع تصنيف النصوص، وهو أحد المجالات الهامة في معالجة اللغة الطبيعية. يهدف البحث إلى تقديم مسح شامل لمجموعة من المنهجيات والخوارزميات المستخدمة في تصنيف النصوص، مع التركيز على التحسينات التي طرأت عليها. تشمل هذه المنهجيات النهج اليدوي مثل حقيبة الكلمات المفتاحية، النهج الإحصائي باستخدام خوارزميات مثل Naïve Bayes وSupport Vector Machine، وأشجار القرار، بالإضافة إلى الشبكات العصبية مثل الشبكات العصبية المتكررة والشبكات العصبية التلافيفية. يوضح البحث أن تصنيف النصوص لا يزال يفتقر إلى طريقة عامة معتمدة، على عكس مجالات أخرى مثل الرؤية الحاسوبية. كما يسلط الضوء على التحديات التي تواجه هذا المجال مثل تعقيد البيانات والحاجة إلى تحسين الدقة. يهدف البحث إلى تقديم مرجعية شاملة يمكن الاستفادة منها لاحقاً في تطوير تقنيات تصنيف النصوص وتحسين المحتوى العلمي العربي في هذا المجال.

قراءة نقدية

دراسة نقدية: على الرغم من شمولية البحث وتغطيته لمجموعة واسعة من المنهجيات والخوارزميات، إلا أنه يفتقر إلى تقديم أمثلة تطبيقية واقعية توضح كيفية استخدام هذه الخوارزميات في مشاريع حقيقية. كما أن البحث يركز بشكل كبير على الجانب النظري دون تقديم تحليل عملي للنتائج أو مقارنة بين أداء الخوارزميات المختلفة في سياقات محددة. بالإضافة إلى ذلك، يمكن أن يكون هناك مزيد من التركيز على التحديات العملية التي تواجه تطبيق هذه الخوارزميات في البيئات الحقيقية وكيفية التغلب عليها. من الجيد أيضاً تضمين دراسات حالة أو أمثلة من الصناعة لتوضيح الفوائد العملية لتصنيف النصوص في مجالات مثل التسويق أو الطب.

أسئلة حول البحث

ما هي المنهجيات الرئيسية المستخدمة في تصنيف النصوص؟

تشمل المنهجيات الرئيسية النهج اليدوي مثل حقيبة الكلمات المفتاحية، النهج الإحصائي باستخدام خوارزميات مثل Naïve Bayes وSupport Vector Machine، وأشجار القرار، بالإضافة إلى الشبكات العصبية مثل الشبكات العصبية المتكررة والشبكات العصبية التلافيفية.
ما هي التحديات الرئيسية التي تواجه تصنيف النصوص؟

تشمل التحديات الرئيسية تعقيد البيانات، الحاجة إلى تحسين الدقة، وتوفير بيانات تدريب كافية وملائمة، بالإضافة إلى التحديات المتعلقة بفهم السياق والمعنى في النصوص.
كيف يمكن تحسين أداء خوارزميات تصنيف النصوص؟

يمكن تحسين أداء خوارزميات تصنيف النصوص من خلال تحسين استخراج السمات، تقليل الأبعاد، تحسين المعاملات، واستخدام تقنيات مثل تضمين الكلمات والشبكات العصبية المتقدمة مثل LSTM وCNN.
ما هي الفوائد العملية لتصنيف النصوص في المجالات المختلفة؟

تشمل الفوائد العملية لتصنيف النصوص تحسين جودة خدمة المعلومات، التسويق المستهدف، التشخيص الطبي، تصفية الأخبار، تنظيم الوثائق، تحديد موضوع المقالات الإخبارية، وتحليل المشاعر.

كلمات مفتاحية

تصنيف النصوص معالجة اللغة الطبيعية الشبكات العصبية خوارزميات التعلم الآلي تحليل النصوص استكشاف النص

المراجع المستخدمة

https://link.springer.com/chapter/10.1007%2F978-1-4614-3223-4_6

قيم البحث

3309 - جامعة البعث 2014 ورقة بحثية

نقدم في هذا البحث خوارزمية لتجميع نصوص اللغة العربية. حيث نفذنا الخوارزمية على 5 أنطولوجيات عبر برنامج بلغة الجافا، ثم عالجنا النصوص بحيث حصلنا على 338667 مفردة مع أوزانها المقابلة لكل أنطولوجيا. و قد أثبتت الخوارزمية فعاليتها في تحسين أداء المصنفا ت التي تم تجربتها في هذه الدراسة و هي (NB,SVM) مقارنة مع نتائج مصنفات اللغة العربية السابقة.

Ontology اللغة العربية Arabic Language semantic web الويب الدلالي Documents classification Text categorization Text mining SVM NB الأنطولوجيا تصنيف المستندات تصنيف النصوص تنقيب النصوص المزيد..

تصنيف الفترة في النصوص التاريخية الصينية

748 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

في هذه الدراسة، ندرس تغيير اللغة في Biji الصينية باستخدام مهمة التصنيف: تصنيف النصوص الصينية القديمة حسب الفترات الزمنية. على وجه التحديد، نحن نركز على نوع فريد من نوعه في الأدب الصيني الكلاسيكي: BIJI (حرفيا دفتر الملاحظات "أو الملاحظات الفرشاة")، أي مجموعة من الحكايات، الاقتباسات، إلخ، أي شيء مؤلفين ينظرون إلى جديرة بالملاحظة، تمتد Biji مئات السنين عبر العديد من السلالات والحفاظ على لغة غير رسمية في شكل مكتوب. لهذه الأسباب، يعتبرون موردا جيدا لتحقيق تغيير اللغة في الصينية (فانغ، 2010). في هذه الورقة، نقوم بإنشاء مجموعة بيانات جديدة من 108 Biji عبر أربع سلالات. بناء على DataSet، نقدم أولا مهمة تصنيف الفترة الزمنية للصينيين. ثم نحقق في طرق تمثيل ميزة مختلفة للتصنيف. تظهر النتائج أن النماذج باستخدام المدينات السياقية تؤدي الأفضل. يؤكد تحليل لأعلى الميزات المختارة من قبل نموذج Word N-Gram (بعد التبييض الأسماء المناسبة) أن هذه الميزات مفيدة وتتوافق مع الملاحظات والافتراضات المقدمة من اللغويين التاريخيين.

ancient chinese texts chinese historical texts classifying ancient chinese النصوص الصينية القديمة النصوص التاريخية الصينية تصنيف الصينيين القديم صناعة حمض الفوسفور المزيد..

محاذاة معنى كلمة أحادية الأحادية كمشكلة التصنيف

724 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

يتم تعريف الكلمات بناء على معانيها بطرق مختلفة في موارد مختلفة.يزيد محاذاة حواس الكلمات عبر الموارد المعجمية أحادية العمل، مما يزيد من تغطية المجال وتمكن تكامل البيانات وإدماجها.في هذه الورقة، نستكشف تطبيق أساليب التصنيف باستخدام الميزات المستخرجة يد ويا جنبا إلى جنب مع تقنيات تعليم التمثيل في مهمة محاذاة معنى النصوص والكشف عن العلاقة الدلالية.نوضح أن أداء أساليب التصنيف يختلف بشكل كبير بناء على نوع العلاقات الدلالية بسبب طبيعة المهمة ولكنه يتفوق على التجارب السابقة.

word sense alignment classification problem monolingual word sense محاذاة معنى كلمة مشكلة التصنيف كلمة أحادية الأحادية صناعة حمض الفوسفور المزيد..

التنظيم الذاتي المشرف على تصنيف النص

1045 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تصنيف النص التجريدي هو مشكلة مدروسة على نطاق واسع ولها تطبيقات واسعة. في العديد من مشاكل العالم الحقيقي، يعد عدد النصوص الخاصة بنماذج تصنيف التدريب محدودا، مما يجعل هذه النماذج عرضة للجيش. لمعالجة هذه المشكلة، نقترح SSL-REG، نهج التنظيم المعتمد على ا لبيانات بناء على التعلم الذاتي (SSL). SSL (Devlin et al.، 2019A) هو نهج تعليمي غير محدد يحدد المهام المساعدة على بيانات الإدخال دون استخدام أي ملصقات موجودة بين الإنسان وتعلم تمثيلات البيانات من خلال حل هذه المهام الإضافية. يتم تنفيذ مهمة SSL-REG، وهي مهمة تصنيف إشراف ومهمة SSL غير المدبرة في وقت واحد. المهمة SSL غير مدعومة، والتي يتم تعريفها بحتة على نصوص الإدخال دون استخدام أي ملصقات مقدمة بين الإنسان. يمكن للتدريب على نموذج باستخدام مهمة SSL منع النموذج من محفورا إلى عدد محدود من الملصقات الفئة في مهمة التصنيف. تجارب في 17 مجموعة بيانات تصنيف النص توضح فعالية طريقةنا المقترحة. رمز متاح في https://github.com/ucsd-ai4h/ssreg.

ssl text classification SSL. تصنيف النص صناعة حمض الفوسفور

تصنيف النص متعدد اللغات المحول العملي

963 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

الأساليب القائمة على المحولات جذابة لتصنيف النص متعدد اللغات، ولكن معايير البحوث الشائعة مثل XNLI (Conneau et al.، 2018) لا تعكس توافر البيانات ومجموعة واسعة من تطبيقات الصناعة.نقدم مقارنة تجريبية من نماذج تصنيف النص المستند إلى المحولات في مجموعة مت نوعة من إعدادات الاحتياطية وغير اللغوية المتعددة اللغات والضبط.نقيم هذه الأساليب على مهمتين متميزتين في خمس لغات مختلفة.المغادرة من العمل السابق، تظهر نتائجنا أن نماذج لغة متعددة اللغات يمكن أن تتفوق على تلك المهام المطردة في بعض المهام المصب واللغات المستهدفة.نوضح بالإضافة إلى ذلك أن التعديلات العملية مثل المهام وعمالة العمل التكيفية والتكييف يمكن أن تحسن أداء التصنيف دون الحاجة إلى بيانات إضافية إضافية.

multilingual text classification transformer-based text classification تصنيف النص متعدد اللغات تصنيف النص المستند إلى المحول صناعة حمض الفوسفور