ترغب بنشر مسار تعليمي؟ اضغط هنا

قياس التضمين التضمين المطابقة لاسترجاع المخصص

Matching-oriented Embedding Quantization For Ad-hoc Retrieval

345   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

كمية المنتج (PQ) هي تقنية واستخدامها على نطاق واسع لاسترجاع الإعلانات المخصصة. تقترح الدراسات الحديثة PQ خاضعة للإشراف، حيث يمكن تدريب نماذج التضمين والتجميل بشكل مشترك مع التعلم الخاضع للإشراف. ومع ذلك، هناك نقص في الصياغة المناسبة لهدف التدريب المشترك؛ وبالتالي، فإن التحسينات حول الأساس غير المشرف السابق محدودة في الواقع. في هذا العمل، نقترح قياس كمية المنتج الموجهة نحو المطابقة (MOPQ)، حيث يتم صياغة فقدان MultioLli Outlastive MultioLli مهدفا. مع تقليل MCL، نحن قادرون على زيادة احتمال مطابقة الاستعلام ومفتاح الحقيقة الأرضية، مما يساهم في دقة الاسترجاع المثلى. بالنظر إلى أن الحساب الدقيق ل MCL مستعصرا بسبب طلب عينات متباينة واسعة، فإننا نقترح مزيد من أخذ العينات عبر الأجهزة المختلفة (DCS)، والذي يزيد بشكل كبير من العينات المقنعة لتقريب دقيق من MCL. نقوم بإجراء دراسات تجريبية واسعة النطاق على أربعة مجموعات بيانات حقيقية، والتي تحقق نتائجها من فعالية MOPQ. الرمز متاح في https://github.com/microsoft /mopq.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في السنوات الأخيرة، يمكن لنظام توليف الكلام إنشاء خطاب بجودة الكلام العالية. ومع ذلك، لا يزال نظام النص إلى كلام متعدد الكلام (TTS) يتطلب كمية كبيرة من بيانات الكلام لكل مكبر صوت مستهدف. في هذه الدراسة، نود إنشاء نظام TTS متعدد المتكلم من خلال دمج وح دات فرعية في نظام توليف الكلام المصنوع من الشبكة العصبية المصطنعة لتخفيف هذه المشكلة. تتمثل الوحدة الأولى في إضافة مكبر صوت إلى وحدة الترميز لتوليد الكلام في حين أن كمية كبيرة من بيانات الكلام من السماعة المستهدفة ليست ضرورية. بالنسبة لطريقة تضمين المتكلم، في دراستنا، يتم مقارنة طريقتان رئيسيتان لضمان المتكلم، وهي تضمين مكبر الصوت التضمين وإدماج تحويل الصوت، بتحديد ما هو مناسب لنظام TTS الشخصي الخاص بنا. ثانيا، استبدلنا الوحدة النمطية الإضافية التقليدية، التي تم تبنيها لتعزيز تسلسل طيف الإخراج، لزيادة تحسين جودة خطاب الكلام الذي تم إنشاؤه. هنا، يتم استخدام شبكة ما بعد المرشح. أخيرا، أظهرت نتائج التجربة أن تضمين المتكلم مفيد من خلال إضافةه إلى وحدة ترميز ونطق الكلام الناتج ينظر بالفعل إلى السماعة المستهدفة. أيضا، شبكة ما بعد التصفية ليست فقط تحسين جودة الكلام وتعزز أيضا تشابه المتكلم من كلام الكلام الناتج. يمكن لنظام TTS المصمم أن يولد كلام الكلام للمتكلم المستهدف في أقل من 2 ثانية. في المستقبل، نود مزيد من التحقيق في مكافحة قابلية التحكم في معدل التحدث أو حالة المشاعر المتصورة للكلمة التي تم إنشاؤها.
أصبح التحليل السردي أمرا مهما بشكل متزايد لعدد من المهام اللغوية بما في ذلك تلخيص واستخراج المعرفة والتسجيل.نقدم نهج رواية لتمثيل الحدث السردي باستخدام الانتباه إلى إعادة السياق الأحداث عبر القصة بأكملها.مقارنة بالتحليل السابق، نجد مرفقا غير متوقع من دلالات الأحداث إلى الرموز المسندية في نموذج محول شعبية.نحن نختبر فائدة نهجنا بشأن التنبؤ بإكمال السرد، وتحقيق حالة الأداء الفني على زر قردي متعدد الخيارات والتسجيل بشكل تنافسي في مهمة Cloze Cloze.
تم دراسة تمثيلات الكلمات المخولة بمعلومات لغوية إضافية وأثبت أنها تتفوق على المدينات التقليدية. تركز الأساليب الحالية بشكل رئيسي على تضمينات التعلم للكلمات أثناء تضمينها من المعلومات اللغوية (المشار إليها باسم تضمين الحبوب) بعد التعلم. يقترح هذا العم ل تضمين ميداني إطار لإمكانية التعلم بشكل مشترك لكل من وظائف الكلمة والحبوب من خلال دمج المجالات اللغوية المورفولوجية والصوتية والخلوية. يزعم الإطار أن خط أنابيب مبتكرة غرامة يدمج الحقول اللغوية المتعددة وتنتج تسلسلات الحبوب عالية الجودة لتعلم تمثيلات الكلمات العليا. تم تصميم خوارزمية رواية أيضا لتعلم المدينات للكلمات والحبوب عن طريق التقاط المعلومات الواردة داخل كل مجال ويتم تقاسمها عبرها. النتائج التجريبية للمهام المعجمية ومهام معالجة اللغة الطبيعية المصب توضح أن إطار عملنا يمكن أن يتعلم أفضل تضمين الوزراء وشرح الحبوب. التقييمات النوعية تظهر تضييق الحبوب التقاط المعلومات الدلالية بشكل فعال.
تبين أن تقدير الجودة (QE) للترجمة الآلية تصل إلى دقة عالية نسبيا في التنبؤ بعشرات على مستوى الجملة، والاعتماد على المدينات السياقية المحددة مسبقا وعشرات الجودة المنتجة للإنسان. ومع ذلك، فإن الافتقار إلى التفسيرات إلى جانب القرارات التي اتخذتها النماذ ج العصبية نهاية إلى نهاية تجعل النتائج يصعب تفسيرها. علاوة على ذلك، فإن مجموعات البيانات المشروحة على مستوى الكلمات نادرة بسبب الجهد الباهظ المطلوب لإجراء هذه المهمة، في حين أنهم قد يوفرون إشارات قابلة للتفسير بالإضافة إلى مخرجات QE على مستوى الجملة. في هذه الورقة، نقترح هندسة QE الجديدة التي تعالج كل من ندرة البيانات على مستوى الكلمة والقيود التفسيرية للنهج الأخيرة. يتم احترام مكونات مستوى الجملة ومستوى الكلمات بشكل مشترك من خلال آلية اهتمام بناء على البيانات الاصطناعية ومجموعة من مقاييس MT المضمنة في مساحة مشتركة. يتم تقييم نهجنا على المهمة المشتركة ESPR4NLP 2021 وتوصل عمليات التقديمات لدينا إلى المركز الأول في جميع أزواج اللغات. تظهر استخراج أوزان الاهتمام المتراكي إلى المدخلات أن مقاييس مختلفة تركز على أجزاء مختلفة من المصدر والنص المستهدف، مما يوفر منورات تدريبية قوية في عملية صنع القرار لنموذج QE.
مشكلة استرجاع المستندات المستندة إلى المستندات المستندة إلى تضمينها هي موضوع ساخن في مجال استرجاع المعلومات (IR).بالنظر إلى أن نماذج اللغة المدربة مسبقا مثل بيرت حققت نجاحا كبيرا في مجموعة واسعة من مهام NLP، فإننا نقدم نموذجا رباعية لاسترجاع فعال وفع ال في هذه الورقة.على عكس معظم طرازات استرجاع أسلوب بيرت الموجود، والتي تركز فقط على مرحلة الترتيب في أنظمة الاسترجاع، فإن نموذجنا يجعل تحسينات كبيرة في مرحلة الاسترجاع وتزود المسافات بين الحالات السلبية السلبية والسلبية البسيطة للحصول على تضمين أفضل.توضح النتائج التجريبية أن لدينا QuadrouPletbert تحقق نتائج أحدث النتائج في مهام الاسترجاع على نطاق واسع القائم.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا