ترغب بنشر مسار تعليمي؟ اضغط هنا

Beam Search هي استراتيجية فك التشفير الافتراضية للعديد من مهام توليد التسلسل في NLP. مجموعة من العناصر K-Best التقريبية التي تم إرجاعها بواسطة الخوارزمية هي ملخص مفيد للتوزيع للعديد من التطبيقات؛ ومع ذلك، عادة ما تظهر المرشحين تداخلا كبيرا وقد يعطي ت قديرا متحيزين للغاية للتوقعات تحت نموذجنا. يمكن معالجة هذه المشكلات من خلال استخدام استراتيجيات فك تشفير الاستوكاستك. في هذا العمل، نقترح طريقة جديدة لتحويل البحث الشعاع في عملية عموقة: البحث الشرطي Poisson Stochastic Search. بدلا من اتخاذ تعظيم المجموعة في كل تكرار، ونحن نعمل عينة من المرشحين k دون استبدال وفقا لتصميم أخذ العينات poisson الشرطية. نعتبر ذلك بديلا أكثر طبيعية ل Kool et al. (2019) بحث شعاع ستوكاستيك (SBS). علاوة على ذلك، نوضح كيف يمكن استخدام العينات التي تم إنشاؤها تحت تصميم CPSBS لبناء مقدرات متسقة وعينة مجموعات متنوعة من نماذج التسلسل. في تجاربنا، نلاحظ CPSBS تنتج التباين المنخفض ومقدرات أكثر كفاءة من SBS، حتى إظهار التحسينات في إعدادات Enterpy عالية.
في الآونة الأخيرة، أصبح البحث برعاية واحدة من أكثر القنوات المربحة للتسويق. كأساس أساسي للبحث المدعى عليه، اجتذبت النمذجة ذات الصلة الاهتمام المتزايد بسبب القيمة العملية الهائلة. معظم الطرق الحالية تعتمد فقط على أزواج الكلمات الرئيسية للاستعلام. ومع ذلك، عادة ما تكون الكلمات الرئيسية عادة نصوص قصيرة مع معلومات دلالية ندرة، والتي قد لا تعكس بدقة النوايا الإعلانية الأساسية. في هذه الورقة، نقوم بالتحقيق في مشكلة الرواية في النمذجة ذات الصلة بالمعلن، والتي ترفف معلومات المعلنين لسد الفجوة بين نوبة البحث وأغراض الإعلان. يكمن دوافعنا في دمج سلوكيات العطاءات غير المزودة بحيث تكون الرسوم البيانية التكميلية لتعلم تمثيلات معلنة مرغوبة. قد نقترح مزيدا من الرسوم البيانية المزايدة في الرسم البياني المعزز بنموذج BGTR مع ثلاثة أبراج لصمامات الرسوم البيانية العطاءات والبيانات النصية الدلالية. تجريبيا، نقوم بتقييم نموذج BGTR عبر مجموعة بيانات كبيرة، والنتائج التجريبية تظهر باستمرار تفوقها.
يؤثر البحث على الإنترنت على إدراك الناس في العالم، وبالتالي فإن التخفيف من التحيزات في نتائج البحث ونماذج التعلم العادلة أمر حتمي للجيدة الاجتماعية.نحن ندرس تحيز جنساني فريد من نوعه في البحث في الصورة في هذا العمل: غالبا ما تكون صور البحث في كثير من الأحيان عن النوع الاجتماعي لاستفسارات اللغة الطبيعية المحايدة بين الجنسين.نحن تشخيص طرازات بحث عن الصور النموذجية، النموذج المتخصص المدرب على مجموعات البيانات داخل المجال ونموذج التمثيل المعمم مسبقا على صورة واسعة بيانات النصية عبر الإنترنت.كلا النموذجين يعانون من التحيز بين الجنسين الحاد.لذلك، نقدم اثنين مناهج ديوان رواية: طريقة أخذ العينات المعدة المعالجة لمعالجة قضية عدم التوازن بين الجنسين للنماذج التدريبية، وميزة ما بعد المعالجة هي قاعدة أسلوب لقطة على المعلومات المتبادلة إلى تمثيلات Debias متعددة الوسائط للنماذج المدربة مسبقا.تجارب واسعة على معايير MS-COCO و FLICKR30K تظهر أن أساليبنا تقلل بشكل كبير من التحيز بين الجنسين في نماذج البحث عن الصور.
تصف هذه الورقة نموذجا مدمجا وفعالا لاسترجاع مرور الكمون المنخفض في البحث عن المحادثة بناء على تمثيلات كثيفة علمية. قبل عملنا، يستخدم النهج الواحد من بين الفنون خط أنابيب متعدد المراحل يشتمل على وحدات إعادة صياغة استعلام محادثة واسترجاع المعلومات. على الرغم من فعاليته، غالبا ما يتضمن هذا الخط الأنابيب نماذج عصبية متعددة تتطلب أوقات الاستدلال الطويلة. بالإضافة إلى ذلك، تحسين كل وحدة بشكل مستقل يتجاهل التبعيات بينهم. لمعالجة هذه العيوب، نقترح دمج إعادة صياغة استعلام المحادثة مباشرة في نموذج استرجاع كثيف. للمساعدة في هذا الهدف، نقوم بإنشاء مجموعة بيانات مع ملصقات ذات صلة زائفة للبحث عن المحادثة للتغلب على عدم وجود بيانات تدريب واستكشاف استراتيجيات تدريب مختلفة. نوضح أن نموذجنا يعيد كتابة استعلامات المحادثة بشكل فعال كتمثيلات كثيفة في البحث عن المحادثة والفتح عن نطاق البيانات. أخيرا، بعد مراعاة أن طرازنا يتعلم ضبط نموذج L2 من Arquer Token Ageddings، فإننا نستفيد من هذه الخاصية لاسترجاع الهجين ودعم تحليل الأخطاء.
يقترح إعادة كتابة الاستعلام (QR) حل مشكلة عدم تطابق الكلمة بين الاستفسارات والمستندات في البحث على الويب. الأساليب الحالية عادة ما نموذج QR مع نموذج تسلسل نهاية إلى نهاية (SEQ2SEQ). يمكن أن تتعلم النماذج القائمة على المحولات الحديثة بفعالية دلالات نص ية من سجلات جلسة المستخدم، لكنها غالبا ما تتجاهل معلومات الموقع الجغرافي للمستخدمين الحيوية لتحقيق البحث عن نقطة الفائدة (POI) على خدمات الخريطة. في هذه الورقة، اقترحنا نموذجا ما قبل التدريب، يسمى GEO-BERT، لدمج الدلالات والمعلومات الجغرافية في التمثيلات المدربة مسبقا للويس. أولا، نحاكي توزيع POI في العالم الحقيقي كشركة رسم بياني، حيث تمثل العقد Pois ومتعدد الحبيبات الجغرافية. ثم نستخدم أساليب تعلم التمثيل الرسم البياني للحصول على تمثيلات جغرافية. أخيرا، نحن ندرب نموذجا ما قبل التدريب يشبه بيرت مع تضيير الرسوم البيانية النصية والنصية للحصول على تمثيل متكامل لكل من المعلومات الجغرافية والدلية، وتطبيقه في البحث عن QR of POI. يحقق النموذج المقترح دقة ممتازة على مجموعة واسعة من مجموعات بيانات خريطة العالم الواقعية.
تتناول هذه الورقة تحدي الكفاءة في بحث العمارة العصبية (NAS) من خلال صياغة المهمة كملمة في التصنيف.تتطلب الطرق السابقة العديد من أمثلة تدريبية لتقدير الأداء الدقيق للبايكيين، على الرغم من أن الهدف الفعلي هو العثور على التمييز بين المرشحين "والسيئين".ن حن هنا لا نلجأ إلى تنبؤ الأداء.بدلا من ذلك، نقترح طريقة تصنيف الأداء (Ranknas) عبر الترتيب الزوجي.إنه يتيح البحث بالهندسة المعمارية الفعالة باستخدام أمثلة تدريبية أقل بكثير.علاوة على ذلك، نقوم بتطوير طريقة اختيار العمارة لتقليم مساحة البحث والتركيز على المرشحين الأكثر واعدة.تظهر تجارب واسعة على مهام ترجمة الآلات ونمذجة اللغة أن الركوبين الراهن يمكنهم تصميم بهيئات عالية الأداء أثناء كونه أوامر من حجم أسرع من أنظمة NAS-Art-Art.
Requery Rewrite (QR) هو مكون ناشئ في أنظمة المحادثة AI، مما يقلل من عيب المستخدم.سبب عيب المستخدم لأسباب مختلفة، مثل الأخطاء في نظام الحوار المنطوق أو عروض المستخدمين للسان أو لغتهم المختصرة.ينبع العديد من عيوب المستخدمين من العوامل الشخصية، مثل نمط خطاب المستخدم أو اللهجة أو التفضيلات.في هذا العمل، نقترح إطار عمل QR القائم على البحث شخصي، والذي يركز على التخفيض التلقائي لعيب المستخدم.نقوم ببناء مؤشر شخصي لكل مستخدم، يشمل طبقات تقارب متنوعة لتعكس التفضيلات الشخصية لكل مستخدم في منظمة العفو الدولية المحادثة.يحتوي نظام QR الشخصي الخاص بنا على طبقات استرجاع وترتيب.بدعم من التعلم القائم على ملاحظات المستخدم، تدريب نماذجنا لا يتطلب بيانات مشروح يدوية.أظهرت التجارب على مجموعة الاختبارات الشخصية أن نظام QR الشخصي الخاص بنا قادر على تصحيح أخطاء النظامية والمستخدم باستخدام المدخلات الصوتية والدلية.
الاعتراف بالكيانات المسماة في استفسارات محرك البحث القصيرة هي مهمة صعبة بسبب معلومات السياق الأضعف مقارنة بالجمل الطويلة.فشلت أنظمة التعرف على الكيان المسماة القياسية (NER) التي يتم تدريبها على الجمل الصحيحة والطويلة بشكل جيد على أداء هذه الاستفسارات بشكل جيد.في هذه الدراسة، نشارك جهودنا نحو إنشاء مجموعة بيانات تنظيفها ومصممة من استفسارات محرك البحث التركية الحقيقية (TR-SEQ) وإدخال ملصق ممت طويل لإرضاء احتياجات محرك البحث.يتم تدريب نظام NER من خلال تطبيق أحدث طريقة التعلم العميقة من أحدث برت إلى البيانات التي تم جمعها وإبلاغ أدائها العالي على استعلامات محرك البحث.علاوة على ذلك، قمنا بمقارنة نتائجنا مع أنظمة NER التركية التي من بين الفن.
تعتمد تقنيات AdgeDDing Word بشدة على ترددات الكلمات في Corpus، وتتأثر سلبا بفشل في تقديم تمثيلات موثوقة للكلمات ذات التردد المنخفض أو الكلمات غير المرئية أثناء التدريب. لمعالجة هذه المشكلة، نقترح خوارزمية لتعلم Admeddings عن الكلمات النادرة على أساس محرك بحث الإنترنت وعلاقات الموقع المكاني. خوارزميتنا عائدات في خطوتين. نقوم أولا باسترجاع صفحات الويب المقابلة للكلمة النادرة من خلال محرك البحث وتحليل النتائج المرسلة لاستخراج مجموعة من أكثر الكلمات ذات الصلة. نحن متوسط ​​ناقلات الكلمات ذات الصلة باعتبارها المتجه الأولي للكلمة النادرة. بعد ذلك، فإن موقع الكلمة النادرة في مساحة المتجه يتم ضبطه بشكل متكرر وفقا لترتيب ما له في الكلمات ذات الصلة. بالمقارنة مع النهج الأخرى، يمكن للخوارزمية لدينا معرفة تمثيلات أكثر دقة لمجموعة واسعة من المفردات. نقوم بتقييم شركاتنا النادرة المستفادة من الكلمات النادرة على مهمة كلمة متعلقة، وتظهر النتائج التجريبية أن خوارزميتنا تحقق الأداء الحديث من بين الفن.
تتمثل مهمة البحث في التعليمات البرمجية الدلالية في استرداد مقتطفات التعليمات البرمجية من Corpus التعليمات البرمجية المصدر بناء على حاجة المعلومات المعبر عنها باللغة الطبيعية.إن الفجوة الدلالية بين اللغات الطبيعية ولغات البرمجة قد تعتبر منذ فترة طويلة واحدة من أهم العقبات التي تحول دون فعالية أساليب استرجاع المعلومات المستندة إلى الكلمة (IR).إنه افتراض شائع أن أساليب "كيس الأشعة تحت الحاجيات" التقليدية غير المناسبة ل Code Code البحث: إن عملنا يبحث بشكل تجريبي هذا الافتراض.على وجه التحديد، ندرس فعالية أساليب الأشعة تحت الحمراء التقليدية، وهي BM25 و RM3، على Codesearchnet Corpus، والتي تتكون من استفسارات اللغة الطبيعية مقترنة مقتطفات التعليمات البرمجية ذات الصلة.نجد أن الطرق القائمة على الكلمة الرئيسية تتفوق على العديد من النماذج العصبية المسبقة.قارننا أيضا العديد من استراتيجيات المعالجة المسبقة للبيانات التعليمات البرمجية والعثور على التوت التخصصي الذي يحسن الفعالية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا