ترغب بنشر مسار تعليمي؟ اضغط هنا

تمديد استخراج الكلمات الرئيسية العصبية مع TF-IDF Tagset مطابقة

Extending Neural Keyword Extraction with TF-IDF tagset matching

216   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

استخراج الكلمات الرئيسية هي مهمة تحديد الكلمات (أو تعبيرات متعددة الكلمة) التي تصف أفضل وثيقة معينة وخدمة في بوابات الأخبار لربط مقالات من مواضيع مماثلة. في هذا العمل، نطور وتقييم أساليبنا على أربع مجموعات بيانات جديدة تغطي لغات أقل ممثلة تمثيلا، لغات غنية بالمظورة في صناعة وسائل الإعلام الإخبارية الأوروبية (الكرواتية، الإستونية، اللاتفية والروسية). أولا، نؤدي تقييم اثنين من أساليب المحولات العصبية الخاضعة للإشراف، والتكلمة العصبية القائمة على المحولات لتحديد الكلمات الرئيسية (TNT-KID) وتمثيل التشفير ثنائي الاتجاه من المحولات (بيرت) مع وجود ذاكرة عشوائية قصيرة الأجل طويلة الأجل الطويلة الأجل (BILSTM) رأس التصنيف CRF)، ومقارنتها بموجب تردد خط الأساس - تعتمد على تردد المستندات (TF-IDF) مقرها. بعد ذلك، نظهر أنه من خلال الجمع بين الكلمات الرئيسية التي تم استرجها من قبل كل من الأساليب القائم على المحولات العصبية وتوسيع المجموعة النهائية من الكلمات الرئيسية ذات التقنية القائمة على TF-IDF غير المدعومة، يمكننا تحسين استدعاء النظام بشكل كبير، مما يجعلها مناسبة للاستخدام ك نظام التوصية في بيئة مجلس الإعلام.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في الورقة، نتعامل مع مشكلة تجميع وثائق النص غير المدعومة باللغة البولندية.هدفنا هو مقارنة النهج الحديثة بناء على نمذجة اللغة (DOC2VEC و BERT) مع تلك الكلاسيكية، I.E.، TF-IDF و WordNet-تتم التجارب على ثلاث مجموعات بيانات تحتوي على أوصاف مؤهلات.أظهرت ن تائج التجارب أن تدابير التشابه القائمة على WordNet يمكن أن تنافس وحتى التوفيق بين النهج القائمة على التضمين.
يعيد هذا العمل أن المعلومات المقدمة من الرسم البياني للكلمات واستخدامها النموذجي من خلال نهج التصنيف المستندة إلى الرسم البياني في سياق استخراج الكلمات الرئيسية.عادة ما تستخدم الأساليب الرسمية القائمة على الرسم البياني المعروف عادة المعرفة من تمثيلات ناقلات Word خلال عملية الترتيب عبر تدابير مركزية شهيرة (على سبيل المثال، تصنيف الصفحات) دون إعطاء الدور الأساسي لتوزيع الناقلات.نحن نعتبر مصفوفة مجاورة تتوافق مع الرسم البياني لكلم وثيقة نصية مستهدفة كتمثيل متجه لمفرداته.نقترح النمذجة القائمة على التوزيع في هذه المصفوفة المجاورة باستخدام خوارزميات (التعلم) غير المعروضة.يتم تأكيد فعالية نهج النمذجة القائمة على التوزيع مقارنة بالأساليب الرسمية القائمة على الرسم البياني في الرسم البياني من خلال دراسة تجريبية واسعة النطاق وفقا لدرجة F1.رمزنا متاح على جيثب.
أثار التدفق السريع للمعلومات وفرة البيانات النصية على شبكة الإنترنت عن الطلب العاجل على بناء موارد ومراقبة التقنيات المستخدمة لأغراض مختلفة. لاستخراج جوانب المعلومات المفيدة لمجالات معينة من هذه الشركات الكبيرة المتنامية ديناميكية تتطلب طرقا شفافة غي ر مزودة بحيث تحليل البيانات النصية. اقترحت هذه الورقة تحليل الترحيل الهجين كوسيلة محتملة لاسترداد وتلخيص مواضيع تايوان ذات الصلة المنشورة على Weibo و PTT. من خلال تجمع الكملات من 臺灣 تايوان "في مجموعات من المواضيع عبر إما تجميع كلمة AdgeDings أو مخصصات Dirichlet الكامنة، يمكن تحويل قوائم الكسبات إلى توزيعات الاحتمالات بحيث يمكن تعريف المسافات والوجهات المشابه وحسابها. مع هذه الطريقة، نقوم بإجراء تحليل DIACHRONIC للمشاكل بين Weibo و PTT، مما يوفر وسيلة لتحديد متى وكيف تشابه موضوع بينهما أو يسقط. يتم محاولة وجهة نظر محتمة على السلوك النحوي والآثار السياسية أيضا. وهكذا ألقي هذه الدراسة الضوء على طرق عملية بديلة لطريقة الاستماع للوسائط الاجتماعية المستقبلية بشأن فهم العلاقة عبر المضيق.
تستخدم مصطلح خطط الترجغ على نطاق واسع في معالجة اللغة الطبيعية واسترجاع المعلومات. على وجه الخصوص، فإن وزن المصطلح هو الأساس لاستخراج الكلمات الرئيسية. ومع ذلك، هناك عدد قليل نسبيا دراسات التقييم التي ألقت الضوء على نقاط القوة وأوجه القصور في كل مخطط للتوازن. في الواقع، في معظم الحالات، يلجأ الباحثون والممارسون في معظم الحالات إلى TF-IDF المعروفة بشكل افتراضي، على الرغم من وجود بدائل أخرى مناسبة، بما في ذلك النماذج القائمة على الرسم البياني. في هذه الورقة، نقوم بإجراء مقارنة تجريبية وشاملة واسعة النطاق من كل من أساليب الترجيح الإحصائية والرصاص القائمة على الرسم البياني في سياق استخراج الكلمات الرئيسية. يكشف تحليلنا عن بعض النتائج المثيرة للاهتمام مثل مزايا الخصوصية المعروفة الأقل شهرة فيما يتعلق ب TF-IDF، أو الاختلافات النوعية بين الأساليب الإحصائية والرصاص القائمة على الرسم البياني. وأخيرا، بناء على نتائجنا نناقشها واستنباد بعض الاقتراحات للممارسين. تعد شفرة المصدر لإعادة إنتاج نتائجنا التجريبية، بما في ذلك مكتبة استخراج الكلمات الرئيسية، متوفرة في المستودع التالي: https://github.com/asahi417/kex
بايت زوج ترميز (BPE) هي خوارزمية في كل مكان في عملية تكييف الكلمات الفرعية لنماذج اللغة لأنها توفر فوائد متعددة. ومع ذلك، فإن هذه العملية تستند فقط إلى إحصاءات بيانات ما قبل التدريب، مما يجعل من الصعب على الممتلزمية أن تتعامل مع هجاء نادرة. من ناحية أخرى، على الرغم من أن طراز أخطاء إملائي، إلا أن نماذج على مستوى الطابع النقي غالبا ما تؤدي إلى تسلسل طويل غير معقول وجعل الأمر أكثر صعوبة في تعلم النموذج كلمات ذات معنى. لتخفيف هذه التحديات، نقترح وحدة الكلمات الفرعية القائمة على الطابع (Char2Subword) التي تتعلم جدول تضمين الكلمات الفرعية في النماذج المدربة مسبقا مثل Bert. تقوم وحدة char2subword الخاصة بنا بإنشاء تمثيلات من الشخصيات من المفردات الفرعية، ويمكن استخدامها كإستبدال قطرة من جدول تضمين الكلمات الفرعية. الوحدة النمطية قوية لتعديلات مستوى الأحرف مثل أخطاء إملائي، انعطاف Word، غلاف، علامات الترقيم. نحن ندمجها أكثر مع بيرت من خلال التدريب المسبق مع الحفاظ على معلمات محول بيرت الثابتة - وبالتالي توفير طريقة عملية. أخيرا، نوضح أن دمج الوحدة النمطية الخاصة بنا إلى mbert يحسن بشكل كبير الأداء في معيار التقرير اللغوي لوسائل الإعلام الاجتماعية (LINCE).

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا