ترغب بنشر مسار تعليمي؟ اضغط هنا

تجميع المستندات النصية: WordNet VS. TF-IDF مقابل Word Embeddings

Text Document Clustering: Wordnet vs. TF-IDF vs. Word Embeddings

270   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في الورقة، نتعامل مع مشكلة تجميع وثائق النص غير المدعومة باللغة البولندية.هدفنا هو مقارنة النهج الحديثة بناء على نمذجة اللغة (DOC2VEC و BERT) مع تلك الكلاسيكية، I.E.، TF-IDF و WordNet-تتم التجارب على ثلاث مجموعات بيانات تحتوي على أوصاف مؤهلات.أظهرت نتائج التجارب أن تدابير التشابه القائمة على WordNet يمكن أن تنافس وحتى التوفيق بين النهج القائمة على التضمين.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

استخراج الكلمات الرئيسية هي مهمة تحديد الكلمات (أو تعبيرات متعددة الكلمة) التي تصف أفضل وثيقة معينة وخدمة في بوابات الأخبار لربط مقالات من مواضيع مماثلة. في هذا العمل، نطور وتقييم أساليبنا على أربع مجموعات بيانات جديدة تغطي لغات أقل ممثلة تمثيلا، لغا ت غنية بالمظورة في صناعة وسائل الإعلام الإخبارية الأوروبية (الكرواتية، الإستونية، اللاتفية والروسية). أولا، نؤدي تقييم اثنين من أساليب المحولات العصبية الخاضعة للإشراف، والتكلمة العصبية القائمة على المحولات لتحديد الكلمات الرئيسية (TNT-KID) وتمثيل التشفير ثنائي الاتجاه من المحولات (بيرت) مع وجود ذاكرة عشوائية قصيرة الأجل طويلة الأجل الطويلة الأجل (BILSTM) رأس التصنيف CRF)، ومقارنتها بموجب تردد خط الأساس - تعتمد على تردد المستندات (TF-IDF) مقرها. بعد ذلك، نظهر أنه من خلال الجمع بين الكلمات الرئيسية التي تم استرجها من قبل كل من الأساليب القائم على المحولات العصبية وتوسيع المجموعة النهائية من الكلمات الرئيسية ذات التقنية القائمة على TF-IDF غير المدعومة، يمكننا تحسين استدعاء النظام بشكل كبير، مما يجعلها مناسبة للاستخدام ك نظام التوصية في بيئة مجلس الإعلام.
نماذج اللغة العصبية، بما في ذلك النماذج القائمة على المحولات، والتي تدرب مسبقا على كوربورا كبيرة جدا أصبحت وسيلة شائعة لتمثيل النص في مهام مختلفة، بما في ذلك الاعتراف بالعلاقات الدلالية النصية، على سبيل المثال نظرية هيكل الوثائق عبر المستندات. عادة م ا تكون النماذج المدربة مسبقا عادة ما يتم ضبطها على مهام المصب وتستخدم ناقلات تم الحصول عليها كمدخلات للصفين العصبي العميق. لا توجد معرفة لغوية تم الحصول عليها من الموارد والأدوات. في هذه الورقة، نقارن هذه النهج الشاملة بمجموعة من تمثيل الجملة الدوافع التي تعتمد على الرسم البياني الغني في الرسم البياني والشبكة العصبية النموذجية المطبقة على مهمة الاعتراف بعقود CST في البولندية. يصف التمثيل مستويات مختارة من هيكل الجملة بما في ذلك وصف المعاني المعجمية على أساس أجهزة WordNet (PLWOLNET) ومفاهيم Sumo المتصلة. تظهر النتائج التي تم الحصول عليها أنه في حالة العلاقات الصعبة والتدريب المتوسطة الحجم تمثيل النص المخصب من الناحية الدلوية يؤدي إلى نتائج أفضل بكثير.
تعرض هذه الورقة أنظمة مختلفة لمجموعة مختلفة من النماذج المورفولوجية، في سياق المهمة المشتركة Sigmorphon 2021 2. الهدف من هذه المهمة هو تصحيح الكلمات العنقودية بشكل صحيح بلغة معينة من قبل نموذج اندلاطها، دون أي معرفة سابقة باللغة وبدون إشراف من البيان ات المسمى لأي فرز. تعد الكلمات الموجودة في النموذج المورفولوجي الواحد بمتغيرات انتشار مختلفة من ليمما الأساسي، مما يعني أن الكلمات تشترك في معنى أساسي مشترك. كما أنها - عادة - تظهر درجة عالية من التشابه الجبادي. بعد حدس هذه الحدس، نحقق في تجميع كماينز باستخدام نوعين مختلفين من تمثيلات الكلمات: يركز المرء على التشابه الجبائي والتركيز الآخر على التشابه الدلالي. يتم تحديد الأدوار الوسطى المحددة مسبقا بناء على وجود خوارزمية فرعية مشتركة عادية أو طريقة رسم بيانية متصلة مبنية بأطول فرعية شائعة. بالنسبة لجميع لغات التطوير، فإن المدينات القائمة على الطابع تؤدي بالمثل إلى خط الأساس، وتشير المبدأ الدوالي أداء أقل بكثير من خط الأساس إلى أن أخطاء النظم تشير إلى أن التجميع القائم على تمثيلات إلكترونية مناسبة لمجموعة واسعة من الآليات المورفولوجية، لا سيما كجزء من نظام أكبر.
نقدم Query2Prod2VEC، وهو نموذج يسبب تمثيلات معجمية للبحث عن المنتج في تضمين المنتج: في نموذجنا، يعني المعنى رسم خرائط بين الكلمات والمساحة الكامنة من المنتجات في متجر رقمي.نستفيد من جلسات التسوق لتعلم المساحة الأساسية واستخدام التعليقات التوضيحية للت جارة لبناء التظليلات المعجمية للتقييم: تظهر تجاربنا أن طرازنا أكثر دقة من التقنيات المعروفة من أدب NLP و IR.أخيرا، نشدد على أهمية كفاءة البيانات للبحث عن المنتج خارج عمالقة البيع بالتجزئة، وتسليط الضوء على كيفية تناسب Query2Prod2VEC قيودا عملية التي يواجهها معظم الممارسين.
كلمة تضمين خرائط الكلمات إلى ناقلات الأرقام الحقيقية.وهي مشتقة من كوربوس كبيرة ومن المعروف أنها تلتقط المعرفة الدلالية من الجثة.يعد Word Embedding مكونا حاسما للعديد من أساليب التعلم العميق الحديثة.ومع ذلك، فإن إنشاء Word Good Legeddings هو تحدي خاص لغات الموارد المنخفضة مثل النيبالية بسبب عدم توفر كوربوس نص كبير.في هذه الورقة، نقدم NPVEC1 والتي تتألف من 25 كلمة نيبالية من النيبالية التي اشتوعناها من كوربوس كبيرة باستخدام القفازات و Word2VEC و FastText و Bert.ونحن نقدم كذلك التقييمات الجوهرية والخارجية لهذه الأشرطة باستخدام مقاييس وأساليب راسخة.يتم تدريب هذه النماذج باستخدام الرموز 279 مليون كلمة وهي أكبر embeddings مدربة على الإطلاق للغة النيبالية.علاوة على ذلك، لقد جعلنا هذه الأشرطة المتاحة للجمهور لتسريع تطوير طلبات معالجة اللغة الطبيعية (NLP) في النيبالية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا