يوفر الإعلان السياقي للمعلنين الفرصة لاستهداف السياق الأكثر صلة بإعلاناتهم. يجعل مجموعة متنوعة كبيرة من الموضوعات المحتملة تحديا للغاية لجمع وثائق التدريب لبناء نموذج تصنيف إشراف أو يؤلف قواعد مكتوبة للخبراء في نظام تصنيف قائم على القواعد. علاوة على ذلك، في التصنيف الفائق الحبيبات، غالبا ما تتداخل فئات مختلفة أو تعايشها، مما يجعل من الصعب تصنيفها بدقة. في هذا العمل، نقترح Wiki2CAT، وهي طريقة لمعالجة تصنيف نصي كبير الحجم من خلال النقر على الرسم البياني للفئة Wikipedia. يتم تعيين الفئات في تصنيف IAB أولا إلى فئة العقد في الرسم البياني. ثم يتم نشر الملصق عبر الرسم البياني للحصول على قائمة بمستندات Wikipedia المسمى للحث على نصوص النصوص. تعد الطريقة مثالية لمشاكل التصنيف واسعة النطاق لأنها لا تتطلب أي مستند يدويا أو قواعد يدويا أو كلمات أساسية. يتم قياس الطريقة المقترحة مع مختلف خطوط الأساس القائمة على التعلم والكلمات الرئيسية وتجسد أداء تنافسي على مجموعات البيانات المتوفرة للجمهور ومجموعة بيانات جديدة تحتوي على أكثر من 300 فئة واحدة من الفئات الجميلة.
Contextual advertising provides advertisers with the opportunity to target the context which is most relevant to their ads. The large variety of potential topics makes it very challenging to collect training documents to build a supervised classification model or compose expert-written rules in a rule-based classification system. Besides, in fine-grained classification, different categories often overlap or co-occur, making it harder to classify accurately. In this work, we propose wiki2cat, a method to tackle large-scaled fine-grained text classification by tapping on the Wikipedia category graph. The categories in the IAB taxonomy are first mapped to category nodes in the graph. Then the label is propagated across the graph to obtain a list of labeled Wikipedia documents to induce text classifiers. The method is ideal for large-scale classification problems since it does not require any manually-labeled document or hand-curated rules or keywords. The proposed method is benchmarked with various learning-based and keyword-based baselines and yields competitive performance on publicly available datasets and a new dataset containing more than 300 fine-grained categories.
المراجع المستخدمة
https://aclanthology.org/
نقدم مبادرة Norlm المستمرة لدعم إنشاء واستخدام نماذج اللغة السياقية الكبيرة للغاية للنرويجية (ومن حيث المبدأ لغات الشمال الأخرى)، بما في ذلك بيئة برنامج جاهزة للاستخدام، بالإضافة إلى تقرير خبرة لإعداد البيانات والتدريبوبعدتقدم هذه الورقة أول نماذج لغ
ندرس تأثير استخدام الأوصاف النصية الغنية والمتنوعة من الفصول الدراسية للتعلم الصفرية (ZSL) على ImageNet.نقوم بإنشاء مجموعة بيانات جديدة Imagenet-Wiki التي تتطابق مع كل فئة Imagenet إلى مقالها في ويكيبيديا المقابل.نظهر أن استخدام هذه المقالات في ويكيب
توضح هذه الورقة نهجنا للمهمة المشتركة على الترجمة ذات الجهاز متعدد اللغات على نطاق واسع في المؤتمر السادس حول الترجمة الآلية (WMT-21).في هذا العمل، نهدف إلى بناء نظام ترجمة متعددة اللغات واحدا مع فرضية أن تمثيل عالمي عبر اللغة يؤدي إلى أداء ترجمة متع
نحن نستخدم التعرف على قانون الحوار (دار) للتحقيق في مدى امتثال بيرت الانتحال في الحوار، وكيف تساهم بضبط الدقيقة والتدريب المسبق على نطاق واسع في أدائها.نجد أنه في حين أن كل من التدريبات القياسية السابقة للتدريب والإحاطاء على البيانات التي تشبه الحوار
توضح هذه الورقة نظام الترجمة متعددة الاستخدامات على نطاق واسع ل WMT 2021. نشارك في المسار الصغير 2 في خمسة لغات جنوب شرق آسيا، والثلاثين الاتجاهات: الجاوية، الإندونيسية، الملايو، التاغالوغية، التاميل، الإنجليزية.نحن نستخدم أساسا إلى الأمام / الترجمة