ترغب بنشر مسار تعليمي؟ اضغط هنا

في هذه الورقة، نركز على مشكلة الكلمات الرئيسية ومطابقة المستندات من خلال النظر في مستويات ذات صلة مختلفة. في نظام توصيتنا، يتبع أشخاص مختلفون الكلمات الرئيسية الساخنة المختلفة باهتمام. نحتاج إلى إرفاق المستندات إلى كل كلمة رئيسية ثم توزيع المستندات ع لى الأشخاص الذين يتبعون هذه الكلمات الرئيسية. يجب أن تحتوي المستندات المثالية على نفس الموضوع مع الكلمة الأساسية، والتي نسميها ذات أهمية تدرك الموضوع. بمعنى آخر، وثائق الأهمية ذات الصلة بالموضوع أفضل من تلك الأهمية جزئيا في هذا التطبيق. ومع ذلك، فإن المهام السابقة لا تحدد أبدا أهمية علم الموضوع بوضوح. لمعالجة هذه المشكلة، نحدد صلة ثلاثية المستوى بمهمة مطابقة الوثيقة للكلمة الرئيسية: الأهمية ذات الصلة بالموضوع، والأهمية جزئيا والأهمية. لالتقاط الأهمية بين الكلمة الرئيسية القصيرة والوثيقة في المستويات الثلاثة المذكورة أعلاه، لا ينبغي لنا الجمع بين الموضوع الكامن فقط من الوثيقة بتمثيلها العصبي العميق، ولكن أيضا التفاعلات المعقدة النموذجية بين الكلمة الرئيسية والوثيقة. تحقيقا لهذه الغاية، نقترح نموذجا متطابقا على تفاعل ثنائي مرحلتين ومطابقة النص (TITA). من حيث الموضوع - أدرك "، نقدم نموذج موضوع عصبي لتحليل موضوع المستند ثم استخدامه لمزيد من تشفير المستند. من حيث التفاعل من مرحلتين "، نقترح مراحل متتالية لنموذج التفاعلات المعقدة بين الكلمة الرئيسية والوثيقة. تكشف التجارب الواسعة أن تيتا تفوقت على خطوط الأساس الأخرى المصممة بشكل جيد وتظهر أداء ممتاز في نظام توصيتنا.
يهدف تصحيح الخطأ النحوي (GEC) إلى تصحيح أخطاء الكتابة ومساعدة المتعلمين في اللغة على تحسين مهاراتهم في الكتابة. ومع ذلك، تميل نماذج GEC الحالية إلى إنتاج تصحيحات زائفة أو تفشل في اكتشاف الكثير من الأخطاء. يعد نموذج تقدير الجودة ضروريا لضمان أن يحصل ا لمتعلمون على نتائج GEC دقيقة وتجنب مضللة من الجمل المصححة بشكل سيء. يمكن أن تولد نماذج GEC المدربة جيدا العديد من الفرضيات عالية الجودة من خلال فك التشفير، مثل البحث الشعاع، والتي توفر أدلة GEC القيمة ويمكن استخدامها لتقييم جودة GEC. ومع ذلك، تهمش النماذج الحالية أدلة GEC المحتملة من فرضيات مختلفة. تقدم هذه الورقة شبكة التحقق العصبية (Vernet) لتقدير جودة GEC مع فرضيات متعددة. تحدد Vernet تفاعلات بين الفرضيات مع رسم بياني للمنطق وإجراء نوعين من آليات الاهتمام لنشر أدلة GEC للتحقق من جودة الفرضيات التي تم إنشاؤها. تظهر تجاربنا على أربع مجموعات بيانات GEC أن Vernet يحصل على أداء اكتشاف الأخطاء النحوية الحديثة، وتحقق أفضل نتائج تقدير الجودة، وتحسين أداء GEC بشكل كبير من خلال فرضيات إعادة النشر. تتوفر جميع رموز البيانات والمصادر في https://github.com/thunlp/vernet.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا