ترغب بنشر مسار تعليمي؟ اضغط هنا

اختيار الكلمات لتوسيع الاستعلامات في نظم استرجاع المعلومات الطبية متعددة اللغات

Term Selection for Query Expansion in Medical Cross-lingual Information Retrieval

2208   1   46   5.0 ( 1 )
 نشر من قبل Springer ورقة بحثية
 تاريخ النشر 2019
  مجال البحث الهندسة المعلوماتية
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shadi Saleh




اسأل ChatGPT حول البحث

نعرض في هذا البحث مودل لتوسيع الاستعلامات التلقائية في نظم استرجاع المعلومات متعددة اللغات في المجال الطبي. يوظف المودل المستخدم ترجمة آلية للاستعلام في اللغة المصدر الى لغة المستندات وتابع انحدار خطي لتوقّع دقة الاسترجاع لكل استعلام مترجم عند توسيع هذا الاستعلام مع كلمة مرشحة. الكلمات المرشحة (في لغة المستندات) اختيرت من مصادر متعددة: الترجمات المقترحة للاستعلام التي تم الحصول عليها من نظام ترجمة آلي, مقالات ويكيبيديا, وملخصات PubMed. توسيع الاستعلام يُطبق فقط عندما يتوقّع المودل قيمة للكلمة المرشحة تتجاوز عتبة تم تدريبها مسبقا ليسمح ذلك لتوسيع الاستعلامات فقط بالكلمات المرتبطة بقوّة به. اختباراتنا تم تنفيذها على بيانات الاختبار الخاصة ب CLEF eHealth 2013-2015 وأظهرت تفوق ملحوظ في نظم استرجاع المعلومات متعددة اللغات واحادية اللغة.


ملخص البحث
تقدم هذه الورقة البحثية طريقة لتوسيع الاستعلامات تلقائيًا لاسترجاع المعلومات عبر اللغات في المجال الطبي. تعتمد الطريقة على ترجمة الاستعلامات من لغة المصدر إلى لغة الوثائق باستخدام الترجمة الآلية وتوظيف نموذج الانحدار الخطي للتنبؤ بأداء الاسترجاع لكل استعلام مترجم عند توسيعه بمصطلح مرشح. يتم الحصول على المصطلحات المرشحة من مصادر متعددة مثل فرضيات ترجمة الاستعلامات من نظام الترجمة الآلية، مقالات ويكيبيديا، وملخصات PubMed. يتم تطبيق توسيع الاستعلام فقط عندما يتجاوز النموذج درجة معينة مضبوطة مسبقًا، مما يسمح بتوسيع الاستعلامات بالمصطلحات ذات الصلة القوية فقط. أظهرت التجارب التي أجريت باستخدام مجموعة بيانات CLEF eHealth 2013-2015 تحسينات كبيرة في كل من إعدادات الاسترجاع عبر اللغات وأحادية اللغة.
قراءة نقدية
دراسة نقدية: تقدم الورقة البحثية طريقة مبتكرة لتوسيع الاستعلامات في استرجاع المعلومات عبر اللغات في المجال الطبي، ولكن هناك بعض النقاط التي يمكن تحسينها. أولاً، تعتمد الطريقة بشكل كبير على جودة الترجمة الآلية، والتي قد تكون غير دقيقة في بعض الأحيان، مما يؤثر على دقة الاسترجاع. ثانيًا، يمكن أن تكون عملية ضبط العتبة لتحسين الأداء معقدة وتحتاج إلى مزيد من التجارب لضمان الدقة. أخيرًا، على الرغم من أن الطريقة أظهرت تحسينات كبيرة، إلا أنها قد تكون محدودة في تطبيقها على مجالات أخرى غير المجال الطبي.
أسئلة حول البحث
  1. ما هي المصادر التي تم استخدامها للحصول على المصطلحات المرشحة لتوسيع الاستعلامات؟

    تم الحصول على المصطلحات المرشحة من فرضيات ترجمة الاستعلامات من نظام الترجمة الآلية، مقالات ويكيبيديا، وملخصات PubMed.

  2. ما هو الهدف من استخدام نموذج الانحدار الخطي في هذه الدراسة؟

    يهدف نموذج الانحدار الخطي إلى التنبؤ بأداء الاسترجاع لكل استعلام مترجم عند توسيعه بمصطلح مرشح، مما يسمح بتوسيع الاستعلامات بالمصطلحات ذات الصلة القوية فقط.

  3. ما هي مجموعة البيانات التي استخدمت في التجارب؟

    استخدمت مجموعة بيانات CLEF eHealth 2013-2015 في التجارب.

  4. ما هي الفائدة الرئيسية من توسيع الاستعلامات في استرجاع المعلومات عبر اللغات؟

    الفائدة الرئيسية هي تحسين دقة استرجاع المعلومات عن طريق إضافة مصطلحات ذات صلة قوية للاستعلامات المترجمة، مما يساعد في التغلب على مشكلة عدم تطابق المفردات بين الاستعلامات والوثائق.


المراجع المستخدمة
Amati, G., Carpineto, C., Romano, G.: Query diculty, robustness, and selective application of query expansion. In: European conference on information retrieval. pp. 127{137. Springer, Berlin, Germany (2004)
Aronson, A.R.: E ective mapping of biomedical text to the umls metathesaurus: the metamap program. Proc AMIA Symp pp. 17{21 (2001)
Cao, G., Nie, J.Y., Gao, J., Robertson, S.: Selecting good expansion terms for pseudo-relevance feedback. In: Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. pp. 243{250. SIGIR '08, ACM, New York, NY, USA (2008)
Chandra, G., Dwivedi, S.K.: Query expansion based on term selection for Hindi- English cross lingual IR. Journal of King Saud University - Computer and Information Sciences (2017)
Chiang, W.T.M., Hagenbuchner, M., Tsoi, A.C.: The wt10g dataset and the evolution of the web. In: Special Interest Tracks and Posters of the 14th International Conference on World Wide Web. pp. 938{939. WWW '05, ACM, New York, NY, USA (2005)
Choi, S., Choi, J.: Exploring e ective information retrieval technique for the medical web documents: Snumedinfo at clefehealth2014 task 3. In: Working Notes of CLEF 2015 - Conference and Labs of the Evaluation forum. vol. 1180, pp. 167{175. CEUR-WS.org, Sheeld, UK (2014)
Dusek, O., Hajic, J., Hlavacova, J., Novak, M., Pecina, P., Rosa, R., et al.: Machine translation of medical texts in the Khresmoi project. In: Proceedings of the Ninth Workshop on Statistical Machine Translation. pp. 221{228. Baltimore, USA (2014)
Ermakova, L., Mothe, J.: Query expansion by local context analysis. In: Conference francophone en Recherche d'Information et Applications (CORIA 2016). pp. 235{ 250. CORIA-CIFED, Toulouse, France (2016)
Gabrilovich, E., Broder, A., Fontoura, M., Joshi, A., Josifovski, V., Riedel, L., Zhang, T.: Classifying search queries using the web as a source of knowledge. ACM Transactions on the Web 3(2), 5 (2009)
Goeuriot, L., Kelly, L., Li, W., Palotti, J., Pecina, P., Zuccon, G., Hanbury, A., Jones, G., Mueller, H.: ShARe/CLEF eHealth evaluation lab 2014, Task 3: Usercentred health information retrieval. In: Proceedings of CLEF 2014. pp. 43{61. CEUR-WS.org, Sheeld,UK (2014)
Goeuriot, L., Kelly, L., Suominen, H., Hanlen, L., Nevaol, A., Grouin, C., Palotti, J., Zuccon, G.: Overview of the CLEF eHealth evaluation lab 2015. In: The 6th Conference and Labs of the Evaluation Forum. pp. 429{443. Springer, Berlin, Germany (2015)
Harman, D.: Towards interactive query expansion. In: Proceedings of the 11th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. pp. 321{331. SIGIR '88, ACM, New York, NY, USA (1988)
Harman, D.: Information retrieval. chap. Relevance Feedback and Other Query Modi cation Techniques, pp. 241{263. Prentice-Hall, Inc., Upper Saddle River, NJ, USA (1992)
Hull, D.: Using statistical testing in the evaluation of retrieval experiments. In: Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. pp. 329{338. ACM, Pittsburgh, USA (1993)
Humphreys, B.L., Lindberg, D.A.B., Schoolman, H.M., Barnett, G.O.: The uni ed medical language system. Journal of the American Medical Informatics Association 5(1), 1{11 (1998)
Kalpathy-Cramer, J., Muller, H., Bedrick, S., Eggel, I., De Herrera, A., Tsikrika, T.: Overview of the clef 2011 medical image classi cation and retrieval tasks. In: CLEF 2011 - Working Notes for CLEF 2011 Conference. vol. 1177. CEUR-WS (2011)
Koehn, P., Hoang, H., Birch, A., Callison-Burch, C., Federico, M., Bertoldi, N., et al.: Moses: Open source toolkit for statistical machine translation. In: Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics, Demo and Poster Sessions. pp. 177{180. Stroudsburg, PA, USA (2007)
Liu, X., Nie, J.: Bridging layperson's queries with medical concepts { GRIUM @CLEF2015 eHealth Task 2. In: Working Notes of CLEF 2015 Conference and Labs of the Evaluation forum. vol. 1391. CEUR-WS.org, Toulouse, France (2015)
McCarley, J.S.: Should we translate the documents or the queries in cross-language information retrieval? In: Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics. pp. 208{214. College Park, Maryland (1999)
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., Dean, J.: Distributed representations of words and phrases and their compositionality. In: Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume 2. pp. 3111{3119. NIPS'13, Curran Associates Inc., USA (2013)
Nikoulina, V., Kovachev, B., Lagos, N., Monz, C.: Adaptation of statistical machine translation model for cross-lingual information retrieval in a service context. In: Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. pp. 109{119. Stroudsburg, PA, USA (2012)
Nogueira, R., Cho, K.: Task-oriented query reformulation with reinforcement learning. In: Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. pp. 574{583 (2017)
Nunzio, G.M.D., Moldovan, A.: A study on query expansion with mesh terms and elasticsearch. IMS unipd at CLEF ehealth task 3. In: Working Notes of CLEF 2018 - Conference and Labs of the Evaluation Forum, Avignon, France, September 10-14, 2018. CEUR-WS, Avignon, France (2018)
Oard, D.: A comparative study of query and document translation for crosslanguage information retrieval. In: Machine Translation and the Information Soup, vol. 1529, pp. 472{483. Springer, Berlin, Germany (1998)
Ounis, I., Amati, G., Plachouras, V., He, B., Macdonald, C., Johnson, D.: Terrier information retrieval platform. In: Proceedings of the 27th European Conference on Advances in Information Retrieval Research. pp. 517{519. ECIR'05, Springer- Verlag, Berlin, Heidelberg (2005)
Pakhomov, S.V., Finley, G., McEwan, R., Wang, Y., Melton, G.B.: Corpus domain e ects on distributional semantic modeling of medical terms. Bioinformatics 32(23), 3635{3644 (2016)
Pal, D., Mitra, M., Datta, K.: Query expansion using term distribution and term association. CoRR abs/1303.0667 (2013)
Pal, D., Mitra, M., Datta, K.: Improving query expansion using wordnet. J. Assoc. Inf. Sci. Technol. 65(12), 2469{2478 (2014)
Palotti, J.R., Zuccon, G., Goeuriot, L., Kelly, L., Hanbury, A., Jones, G.J., Lu pu, M., Pecina, P.: CLEF eHealth Evaluation Lab 2015, Task 2: Retrieving information about medical symptoms. In: CLEF (Working Notes). pp. 1{22. Spriner, Berlin, Germany (2015)
قيم البحث

اقرأ أيضاً

حققت المحولات التي تم تدريبها مسبقا على شركة متعددة اللغات، مثل MBERT و XLM-ROBERTA، قدرات نقل متبقية مثيرة للإعجاب. في إعداد نقل الطلقة الصفرية، يتم استخدام بيانات التدريب الإنجليزية فقط، ويتم تقييم النموذج الدقيق على لغة مستهدفة أخرى. على الرغم من أن هذا يعمل بشكل جيد بشكل مدهش، فقد تمت ملاحظة تباين كبير في الأداء اللغوي المستهدف بين مختلف عمليات التشغيل الدقيقة، وفي إعداد الطلقة الصفرية، لا توجد بيانات تطوير اللغة المستهدفة متاحة للتحديد بين نماذج متعددة ذات الضبط. اعتمد العمل المسبق على بيانات Dev الإنجليزية لتحديد بين النماذج التي تم ضبطها بشكل جيد مع معدلات التعلم المختلفة وعدد الخطوات وغيرها من أنواع التشعبات، والتي غالبا ما تؤدي إلى اختيارات فرعية نفسها. في هذه الورقة، نوضح أنه من الممكن تحديد نماذج أفضل باستمرار عند توفر كميات صغيرة من البيانات المشروحة بلغات محورية إضافية. نقترح نهجا للتعلم الآلي للاختيار النموذجي الذي يستخدم التمثيلات الداخلية للأنظمة ذات الطراز الدقيق للتنبؤ بقدراتها المتبادلة. في تجارب شاملة، نجد أن هذه الطريقة تختار باستمرار نماذج أفضل من بيانات التحقق من صحة اللغة الإنجليزية عبر عشرين لغة (بما في ذلك 8 لغات منخفضة الموارد)، وغالبا ما تحقق النتائج التي تتميز باختيار نموذج باستخدام بيانات تطوير اللغة المستهدفة.
إن إدخال طلاب المعلوماتيين الطبية الحيوية (BMI) للمعالجة اللغوية الطبيعية (NLP) يتطلب موازنة العمق الفني مع المعرفة العملية لمعالجة الاحتياجات التي تركز على التطبيق.قمنا بتطوير مجموعة من ثلاثة أنشطة إدخال طلاب BMI تمهيدي لاسترجاع المعلومات مع NLP، وا لغطاء استراتيجيات تمثيل المستندات ونماذج اللغة من TF-IDF إلى Bert.تزود هذه الأنشطة الطلاب بتجربة عملية مستهدفة نحو حالات الاستخدام المشترك، وإدخال مكونات أساسية من سير العمل NLP لمجموعة واسعة من التطبيقات.
حققت نماذج التضمين السياقية المدربة مسبقا متعددة اللغات (Devlin et al.، 2019) أداء مثير للإعجاب على مهام نقل اللغات الصفرية.من خلال إيجاد استراتيجية ضبط الدقيقة الأكثر فعالية لضبط هذه النماذج على لغات الموارد عالية الموارد بحيث تقوم بتحويلاتها جيدا ل غات اللغات الصفرية هي مهمة غير تافهة.في هذه الورقة، نقترح رواية ميتا المحسن إلى طبقات ناعمة في طبقات النموذج المدرب مسبقا لتجميدها أثناء الضبط.نحن ندرب ميتا المحسن عن طريق محاكاة سيناريو نقل الصفر بالرصاص.تشير النتائج على الاستدلال اللغوي المتبادل اللغوي إلى أن نهجنا يحسن على خط الأساس البسيط للضبط و X-Maml (Nooralahzadeh et al.، 2020).
مع ظهور Advent of Store argeddings، زادت الاهتمام تجاه نهج التصنيف العصبي لاسترجاع المعلومات بشكل كبير. ومع ذلك، ظلت جائبتان مهمان إلى حد كبير: I) عادة ما تتكون الاستعلامات من عدد قليل من الكلمات الرئيسية فقط، مما يزيد من الغموض ويجعل سياقه أكثر صعوب ة، والثاني) أداء التصنيف العصبي على المستندات غير الإنجليزية لا يزال مرهقا بسبب نقص مجموعات البيانات المسمى. في هذه الورقة، نقدم سيدي (استرجاع المعلومات المحسنة) للتخفيف من المشكلتين من خلال الاستفادة من معلومات معنى النص. يكمن في جوهر نهجنا آلية توسيع عملية استعلام متعددة اللغات الرواية بناء على غزانة إحساس النصوص التي توفر تعريفات المعنى بأنها معلومات دلالية إضافية للاستعلام. الأهم من ذلك، نحن نستخدم الحواس كجسر عبر اللغات، وبالتالي السماح لطرازنا بأداء أفضل بكثير من بدائلها الخاضعة للإشراف وغير المعروضة عبر اللغات الفرنسية والألمانية والإيطالية والإسبانية على العديد من المعايير المفصيلة المفكف، بينما يتم تدريبها على بيانات Robust04 الإنجليزية فقط. نطلق سراح سيدي في https://github.com/sapienzanlp/sir.
يصف استخراج المعلومات عبر اللغات الصفرية (IE) بناء نموذج IE لبعض اللغة المستهدفة، بالنظر إلى التعليقات التوضيحية القائمة حصريا في لغة أخرى، عادة باللغة الإنجليزية. في حين أن تقدم اللوائح المتعددة اللغات المحددة مسبقا يشير إلى تفاؤل سهلة للقطار على ال لغة الإنجليزية، وتشغيل أي لغة ""، نجد من خلال استكشاف شامل وتمديد التقنيات التي تقودها مجموعة من الأساليب، الجديدة القديمة، إلى أداء أفضل من أي استراتيجية واحدة عبر اللغات على وجه الخصوص. نستكشف التقنيات بما في ذلك إسقاط البيانات والتدريب الذاتي، وكيف تأثير المشفرات المختلفة مسبقا تأثيرها. نستخدم English-to-businal IE مثلي الأولي، مما يدل على أداء قوي في هذا الإعداد لاستخراج الأحداث، والتعرف على الكيان المسمى، ووضع علامات جزء من الكلام، وتحليل التبعية. ثم قم بتطبيق إسقاط البيانات والتدريب الذاتي على ثلاثة مهام عبر ثمانية لغات مستهدفة. نظرا لعدم وجود مجموعة واحدة من التقنيات الأفضل عبر جميع المهام، فإننا نشجع الممارسين على استكشاف تكوينات مختلفة للتقنيات الموضحة في هذا العمل عند السعي لتحسين التدريب على الصفر.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا