ترغب بنشر مسار تعليمي؟ اضغط هنا

الأشعة تحت الحمراء مثل SIR: استرجاع المعلومات المحسنة لغات متعددة

IR like a SIR: Sense-enhanced Information Retrieval for Multiple Languages

378   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

مع ظهور Advent of Store argeddings، زادت الاهتمام تجاه نهج التصنيف العصبي لاسترجاع المعلومات بشكل كبير. ومع ذلك، ظلت جائبتان مهمان إلى حد كبير: I) عادة ما تتكون الاستعلامات من عدد قليل من الكلمات الرئيسية فقط، مما يزيد من الغموض ويجعل سياقه أكثر صعوبة، والثاني) أداء التصنيف العصبي على المستندات غير الإنجليزية لا يزال مرهقا بسبب نقص مجموعات البيانات المسمى. في هذه الورقة، نقدم سيدي (استرجاع المعلومات المحسنة) للتخفيف من المشكلتين من خلال الاستفادة من معلومات معنى النص. يكمن في جوهر نهجنا آلية توسيع عملية استعلام متعددة اللغات الرواية بناء على غزانة إحساس النصوص التي توفر تعريفات المعنى بأنها معلومات دلالية إضافية للاستعلام. الأهم من ذلك، نحن نستخدم الحواس كجسر عبر اللغات، وبالتالي السماح لطرازنا بأداء أفضل بكثير من بدائلها الخاضعة للإشراف وغير المعروضة عبر اللغات الفرنسية والألمانية والإيطالية والإسبانية على العديد من المعايير المفصيلة المفكف، بينما يتم تدريبها على بيانات Robust04 الإنجليزية فقط. نطلق سراح سيدي في https://github.com/sapienzanlp/sir.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نعرض في هذا البحث مودل لتوسيع الاستعلامات التلقائية في نظم استرجاع المعلومات متعددة اللغات في المجال الطبي. يوظف المودل المستخدم ترجمة آلية للاستعلام في اللغة المصدر الى لغة المستندات وتابع انحدار خطي لتوقّع دقة الاسترجاع لكل استعلام مترجم عند توسيع هذا الاستعلام مع كلمة مرشحة. الكلمات المرشحة (في لغة المستندات) اختيرت من مصادر متعددة: الترجمات المقترحة للاستعلام التي تم الحصول عليها من نظام ترجمة آلي, مقالات ويكيبيديا, وملخصات PubMed. توسيع الاستعلام يُطبق فقط عندما يتوقّع المودل قيمة للكلمة المرشحة تتجاوز عتبة تم تدريبها مسبقا ليسمح ذلك لتوسيع الاستعلامات فقط بالكلمات المرتبطة بقوّة به. اختباراتنا تم تنفيذها على بيانات الاختبار الخاصة ب CLEF eHealth 2013-2015 وأظهرت تفوق ملحوظ في نظم استرجاع المعلومات متعددة اللغات واحادية اللغة.
إن إدخال طلاب المعلوماتيين الطبية الحيوية (BMI) للمعالجة اللغوية الطبيعية (NLP) يتطلب موازنة العمق الفني مع المعرفة العملية لمعالجة الاحتياجات التي تركز على التطبيق.قمنا بتطوير مجموعة من ثلاثة أنشطة إدخال طلاب BMI تمهيدي لاسترجاع المعلومات مع NLP، وا لغطاء استراتيجيات تمثيل المستندات ونماذج اللغة من TF-IDF إلى Bert.تزود هذه الأنشطة الطلاب بتجربة عملية مستهدفة نحو حالات الاستخدام المشترك، وإدخال مكونات أساسية من سير العمل NLP لمجموعة واسعة من التطبيقات.
يهدف هذا البحث إلى اقتراح طريقة لتحسين نتائج استرجاع المعلومات العربية دلالياً و ذلك بتلخيص النصوص تجريدياً (Abstractive Summary) باستخدام خوارزميات معالجة اللغات الطبيعية (NLP), حل غموض معاني الكلمات (WSD) و قياس التشابهية الدلالية (Semantic Si milarity) فيما بينها باستخدام الأنتولوجيا العربية Arabic WordNet.
تصنيف النص هو أداة مركزية في NLP. ومع ذلك، عندما ترتبط الفصول المستهدفة بشدة مع السمات النصية الأخرى، يمكن أن تلتقط نماذج تصنيف النصوص "ميزات" خاطئة، مما يؤدي إلى التعميم والتحيزات السيئة. في تحليل وسائل التواصل الاجتماعي، هذه المشكلة أسطح فئات المست خدمين الديموغرافية مثل اللغة أو الموضوع أو الجنس، والتي تؤثر على إنشاء نص إلى حد كبير. وقد ادعى تدريب الخصم لتخفيف هذه المشكلة، لكن التقييم الشامل مفقود. في هذه الورقة، نقوم بتجربة تصنيف النص للسمات المرتبطة بموضوع وثائق ومؤلف الجنس، باستخدام جثة متوازية متعددة اللغات متعددة اللغات من نصوص TED TALK. النتائج التي توصلنا إليها هي: (أ) يكون المصنفين الفرديين للموضوع والجنس المؤلف متحيز بالفعل؛ (ب) ديوان مع أعمال التدريب المشددي للموضوع، ولكنها تنهار المؤلف الجنس؛ (ج) تختلف نتائج ديوان الجنسين عبر اللغات. نفسر النتيجة من حيث تداخل مساحة الميزة، وتسليط الضوء على دور تحقيق السطح اللغوي للفصول المستهدفة.
نربط النماذج العصبية للتحليل المورفولوجي والجيل والليمون للغات الغنية بالمورفولوجيا.نقدم طريقة لاستخراج كمية كبيرة من البيانات التدريبية تلقائيا من FSTS لمدة 22 لغة، منها 17 مليار بالانقراض.تتبع النماذج العصبية نفس التشريع مثل FSTS من أجل تحقيقها لأن ظمة الاحتياطية مع FSTS.تم إصدار التعليمات البرمجية المصدر والنماذج والشطونات على Zenodo.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا