في هذه الورقة، نركز على مشكلة الكلمات الرئيسية ومطابقة المستندات من خلال النظر في مستويات ذات صلة مختلفة. في نظام توصيتنا، يتبع أشخاص مختلفون الكلمات الرئيسية الساخنة المختلفة باهتمام. نحتاج إلى إرفاق المستندات إلى كل كلمة رئيسية ثم توزيع المستندات على الأشخاص الذين يتبعون هذه الكلمات الرئيسية. يجب أن تحتوي المستندات المثالية على نفس الموضوع مع الكلمة الأساسية، والتي نسميها ذات أهمية تدرك الموضوع. بمعنى آخر، وثائق الأهمية ذات الصلة بالموضوع أفضل من تلك الأهمية جزئيا في هذا التطبيق. ومع ذلك، فإن المهام السابقة لا تحدد أبدا أهمية علم الموضوع بوضوح. لمعالجة هذه المشكلة، نحدد صلة ثلاثية المستوى بمهمة مطابقة الوثيقة للكلمة الرئيسية: الأهمية ذات الصلة بالموضوع، والأهمية جزئيا والأهمية. لالتقاط الأهمية بين الكلمة الرئيسية القصيرة والوثيقة في المستويات الثلاثة المذكورة أعلاه، لا ينبغي لنا الجمع بين الموضوع الكامن فقط من الوثيقة بتمثيلها العصبي العميق، ولكن أيضا التفاعلات المعقدة النموذجية بين الكلمة الرئيسية والوثيقة. تحقيقا لهذه الغاية، نقترح نموذجا متطابقا على تفاعل ثنائي مرحلتين ومطابقة النص (TITA). من حيث الموضوع - أدرك "، نقدم نموذج موضوع عصبي لتحليل موضوع المستند ثم استخدامه لمزيد من تشفير المستند. من حيث التفاعل من مرحلتين "، نقترح مراحل متتالية لنموذج التفاعلات المعقدة بين الكلمة الرئيسية والوثيقة. تكشف التجارب الواسعة أن تيتا تفوقت على خطوط الأساس الأخرى المصممة بشكل جيد وتظهر أداء ممتاز في نظام توصيتنا.
In this paper, we focus on the problem of keyword and document matching by considering different relevance levels. In our recommendation system, different people follow different hot keywords with interest. We need to attach documents to each keyword and then distribute the documents to people who follow these keywords. The ideal documents should have the same topic with the keyword, which we call topic-aware relevance. In other words, topic-aware relevance documents are better than partially-relevance ones in this application. However, previous tasks never define topic-aware relevance clearly. To tackle this problem, we define a three-level relevance in keyword-document matching task: topic-aware relevance, partially-relevance and irrelevance. To capture the relevance between the short keyword and the document at above-mentioned three levels, we should not only combine the latent topic of the document with its deep neural representation, but also model complex interactions between the keyword and the document. To this end, we propose a Two-stage Interaction and Topic-Aware text matching model (TITA). In terms of topic-aware'', we introduce neural topic model to analyze the topic of the document and then use it to further encode the document. In terms of two-stage interaction'', we propose two successive stages to model complex interactions between the keyword and the document. Extensive experiments reveal that TITA outperforms other well-designed baselines and shows excellent performance in our recommendation system.
المراجع المستخدمة
https://aclanthology.org/
نماذج الموضوعات العصبية (NTMS) تطبيق الشبكات العصبية العميقة إلى نمذجة الموضوعات. على الرغم من نجاحها، تجاهل NTMS عموما جائبا مهمين: (1) فقط يتم استخدام معلومات عدد الكلمات على مستوى المستند للتدريب، في حين يتم تجاهل المزيد من المعلومات ذات المستوى ا
تم تحقيق معالم رائعة في نص مطابقة من خلال اعتماد آلية انتباه متقاطعة لالتقاط الروابط الدلالية ذات الصلة بين تمثيلين عقديين.ومع ذلك، يركز الاهتمام العادي عبر مستوى الروابط على مستوى الكلمات بين تسلسل المدخلات، وإهمال أهمية المعلومات السياقية.نقترح شبك
باللغة العربية، يتم استخدام علامات التشكيل لتحديد المعاني وكذلك النطق.ومع ذلك، غالبا ما يتم حذف الدروع من النصوص المكتوبة، مما يزيد من عدد المعاني والنطوقتين المحتملة.هذا يؤدي إلى نص غامض ويجعل العملية الحسابية على النص غير المسموح به أكثر صعوبة.في ه
تعد اعتدال تعليقات القارئ مشكلة كبيرة لمنصات الأخبار عبر الإنترنت.هنا، نقوم بتجربة النماذج للاعتدال التلقائي، باستخدام مجموعة بيانات من التعليقات من جريدة كرواتية شعبية.يوضح تحليلنا أنه في حين أن التعليقات التي تنتهك القواعد الاعتدالية تشترك في الغال
يحتوي نموذج HIAGM النموذجي الحالي على تصنيف النص التسلسل الهرمي وجود قيودان. أولا، يربط كل نموذج نصي مع جميع الملصقات في DataSet التي تحتوي على معلومات غير ذات صلة. ثانيا، لا ينظر في أي عائق إحصائي على تمثيلات التسمية المستفادة من تشفير الهيكل، في حي