ترغب بنشر مسار تعليمي؟ اضغط هنا

Bootstraping مصنف الإعلانات السياقية المحبوس على نطاق واسع من ويكيبيديا

Bootstrapping Large-Scale Fine-Grained Contextual Advertising Classifier from Wikipedia

261   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يوفر الإعلان السياقي للمعلنين الفرصة لاستهداف السياق الأكثر صلة بإعلاناتهم. يجعل مجموعة متنوعة كبيرة من الموضوعات المحتملة تحديا للغاية لجمع وثائق التدريب لبناء نموذج تصنيف إشراف أو يؤلف قواعد مكتوبة للخبراء في نظام تصنيف قائم على القواعد. علاوة على ذلك، في التصنيف الفائق الحبيبات، غالبا ما تتداخل فئات مختلفة أو تعايشها، مما يجعل من الصعب تصنيفها بدقة. في هذا العمل، نقترح Wiki2CAT، وهي طريقة لمعالجة تصنيف نصي كبير الحجم من خلال النقر على الرسم البياني للفئة Wikipedia. يتم تعيين الفئات في تصنيف IAB أولا إلى فئة العقد في الرسم البياني. ثم يتم نشر الملصق عبر الرسم البياني للحصول على قائمة بمستندات Wikipedia المسمى للحث على نصوص النصوص. تعد الطريقة مثالية لمشاكل التصنيف واسعة النطاق لأنها لا تتطلب أي مستند يدويا أو قواعد يدويا أو كلمات أساسية. يتم قياس الطريقة المقترحة مع مختلف خطوط الأساس القائمة على التعلم والكلمات الرئيسية وتجسد أداء تنافسي على مجموعات البيانات المتوفرة للجمهور ومجموعة بيانات جديدة تحتوي على أكثر من 300 فئة واحدة من الفئات الجميلة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم مبادرة Norlm المستمرة لدعم إنشاء واستخدام نماذج اللغة السياقية الكبيرة للغاية للنرويجية (ومن حيث المبدأ لغات الشمال الأخرى)، بما في ذلك بيئة برنامج جاهزة للاستخدام، بالإضافة إلى تقرير خبرة لإعداد البيانات والتدريبوبعدتقدم هذه الورقة أول نماذج لغ وية واسعة النطاق للنرويجية، استنادا إلى كل من أطر ELMO و BERT.بالإضافة إلى تفصيل عملية التدريب، نقدم نتائج مرجعية للتناقض على مجموعة من مهام NLP للنرويجية.للحصول على خلفية إضافية والوصول إلى البيانات والنماذج والبرامج، يرجى الاطلاع على: http://norlm.nlpl.eu
ندرس تأثير استخدام الأوصاف النصية الغنية والمتنوعة من الفصول الدراسية للتعلم الصفرية (ZSL) على ImageNet.نقوم بإنشاء مجموعة بيانات جديدة Imagenet-Wiki التي تتطابق مع كل فئة Imagenet إلى مقالها في ويكيبيديا المقابل.نظهر أن استخدام هذه المقالات في ويكيب يديا فقط كصامإصاف فئة يؤدي إلى ارتفاع أداء ZSL أعلى بكثير من الأعمال السابقة.حتى نموذج بسيط باستخدام هذا النوع من البيانات المساعدة تفوق النماذج الحديثة التي تعتمد على ميزات قياسية من Word تضمين ترميزات أسماء الفئة.تسليط الضوء على هذه النتائج فائدة وأهمية الأوصاف النصية ل ZSL، بالإضافة إلى الأهمية النسبية لنوع البيانات الإضافية مقارنة بالتقدم المحرز في الخوارزمية.تظهر نتائجنا التجريبية أيضا أن نهج التعلم المعيارية بالرصاص المعيارية تعميم بشكل سيء عبر فئات الطبقات.
توضح هذه الورقة نهجنا للمهمة المشتركة على الترجمة ذات الجهاز متعدد اللغات على نطاق واسع في المؤتمر السادس حول الترجمة الآلية (WMT-21).في هذا العمل، نهدف إلى بناء نظام ترجمة متعددة اللغات واحدا مع فرضية أن تمثيل عالمي عبر اللغة يؤدي إلى أداء ترجمة متع ددة اللغات بشكل أفضل.نحن نقدم استكشاف أساليب الترجمة الخلفي المختلفة من الترجمة الثنائية إلى الترجمة متعددة اللغات.يتم الحصول على أداء أفضل من خلال طريقة أخذ العينات المقيدة، والتي تختلف عن اكتشاف الترجمة الثنائية الثدية.علاوة على ذلك، نستكشف أيضا تأثير المفردات ومقدار البيانات الاصطناعية.والمثير للدهشة أن الحجم الأصغر من المفردات أداء أفضل، وتقدم بيانات اللغة الإنجليزية النائية واسعة النطاق تحسنا متواضعا.لقد أرسلنا إلى كل من المهام الصغيرة وتحقيق المركز الثاني.
نحن نستخدم التعرف على قانون الحوار (دار) للتحقيق في مدى امتثال بيرت الانتحال في الحوار، وكيف تساهم بضبط الدقيقة والتدريب المسبق على نطاق واسع في أدائها.نجد أنه في حين أن كل من التدريبات القياسية السابقة للتدريب والإحاطاء على البيانات التي تشبه الحوار هي مفيدة، فإن الضبط الدقيق الخاص بمهارات المهام أمر ضروري للأداء الجيد.
توضح هذه الورقة نظام الترجمة متعددة الاستخدامات على نطاق واسع ل WMT 2021. نشارك في المسار الصغير 2 في خمسة لغات جنوب شرق آسيا، والثلاثين الاتجاهات: الجاوية، الإندونيسية، الملايو، التاغالوغية، التاميل، الإنجليزية.نحن نستخدم أساسا إلى الأمام / الترجمة إلى الوراء، واختيار بيانات داخل المجال، وقطاع المعرفة، والضبط الجماعي التدريجي من الطراز المدرب مسبقا فلوريس 101.نجد أن الترجمة إلى الأمام / الخلفي يحسن بشكل كبير من نتائج الترجمة، واختيار البيانات والضبط الجمنيات التدريجية فعالة بشكل خاص أثناء مجال التكيف، في حين أن تقطير المعرفة يجلب تحسين أداء طفيف.أيضا، يستخدم متوسط المتوسط لتحسين أداء الترجمة بناء على هذه الأنظمة.يحقق نظامنا النهائي درجة بلو متوسط قدره 28.89 عبر ثلاثين اتجاهين في مجموعة الاختبار.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا