Term Selection for Query Expansion in Medical Cross-lingual Information Retrieval

اختيار الكلمات لتوسيع الاستعلامات في نظم استرجاع المعلومات الطبية متعددة اللغات

 Publication date 2019
and research's language is العربية
 Created by Shadi Saleh

We present a method for automatic query expansion for cross-lingual information retrieval in the medical domain. The method employs machine translation of source-language queries into a document language and linear regression to predict the retrieval performance for each translated query when expanded with a candidate term. Candidate terms (in the document language) come from multiple sources: query translation hypotheses obtained from the machine translation system, Wikipedia articles and PubMed abstracts. Query expansion is applied only when the model predicts a score for a candidate term that exceeds a tuned threshold which allows to expand queries with strongly related terms only. Our experiments are conducted using the CLEF eHealth 2013--2015 test collection and show %seven source languages and also in the monolingual case. The results show significant improvements in both cross-lingual and monolingual settings.

Artificial intelligence review:
Research summary
تقدم هذه الورقة البحثية طريقة لتوسيع الاستعلامات تلقائيًا لاسترجاع المعلومات عبر اللغات في المجال الطبي. تعتمد الطريقة على ترجمة الاستعلامات من لغة المصدر إلى لغة الوثائق باستخدام الترجمة الآلية وتوظيف نموذج الانحدار الخطي للتنبؤ بأداء الاسترجاع لكل استعلام مترجم عند توسيعه بمصطلح مرشح. يتم الحصول على المصطلحات المرشحة من مصادر متعددة مثل فرضيات ترجمة الاستعلامات من نظام الترجمة الآلية، مقالات ويكيبيديا، وملخصات PubMed. يتم تطبيق توسيع الاستعلام فقط عندما يتجاوز النموذج درجة معينة مضبوطة مسبقًا، مما يسمح بتوسيع الاستعلامات بالمصطلحات ذات الصلة القوية فقط. أظهرت التجارب التي أجريت باستخدام مجموعة بيانات CLEF eHealth 2013-2015 تحسينات كبيرة في كل من إعدادات الاسترجاع عبر اللغات وأحادية اللغة.
Critical review
دراسة نقدية: تقدم الورقة البحثية طريقة مبتكرة لتوسيع الاستعلامات في استرجاع المعلومات عبر اللغات في المجال الطبي، ولكن هناك بعض النقاط التي يمكن تحسينها. أولاً، تعتمد الطريقة بشكل كبير على جودة الترجمة الآلية، والتي قد تكون غير دقيقة في بعض الأحيان، مما يؤثر على دقة الاسترجاع. ثانيًا، يمكن أن تكون عملية ضبط العتبة لتحسين الأداء معقدة وتحتاج إلى مزيد من التجارب لضمان الدقة. أخيرًا، على الرغم من أن الطريقة أظهرت تحسينات كبيرة، إلا أنها قد تكون محدودة في تطبيقها على مجالات أخرى غير المجال الطبي.
Questions related to the research
  1. ما هي المصادر التي تم استخدامها للحصول على المصطلحات المرشحة لتوسيع الاستعلامات؟

    تم الحصول على المصطلحات المرشحة من فرضيات ترجمة الاستعلامات من نظام الترجمة الآلية، مقالات ويكيبيديا، وملخصات PubMed.

  2. ما هو الهدف من استخدام نموذج الانحدار الخطي في هذه الدراسة؟

    يهدف نموذج الانحدار الخطي إلى التنبؤ بأداء الاسترجاع لكل استعلام مترجم عند توسيعه بمصطلح مرشح، مما يسمح بتوسيع الاستعلامات بالمصطلحات ذات الصلة القوية فقط.

  3. ما هي مجموعة البيانات التي استخدمت في التجارب؟

    استخدمت مجموعة بيانات CLEF eHealth 2013-2015 في التجارب.

  4. ما هي الفائدة الرئيسية من توسيع الاستعلامات في استرجاع المعلومات عبر اللغات؟

    الفائدة الرئيسية هي تحسين دقة استرجاع المعلومات عن طريق إضافة مصطلحات ذات صلة قوية للاستعلامات المترجمة، مما يساعد في التغلب على مشكلة عدم تطابق المفردات بين الاستعلامات والوثائق.

References used
