ترغب بنشر مسار تعليمي؟ اضغط هنا

يمكن أن تسترجع إمكانات المطابقة الدلالية لاسترجاع المعلومات العصبية مشاكل المرادفات والبوليزيميمي من الأساليب الرمزية.ومع ذلك، فإن التمثيلات الكثيفة النماذج العصبية أكثر ملاءمة لإعادة الترتيب، بسبب عدم كفاءةها.تمثيلات متفرق، إما في شكل رمزي أو كامن، أكثر كفاءة مع مؤشر مقلوب.أخذ مزايا التمثيلات المتناثرة والكثيفة، نقترح مخطط تمثيل ثنائي الأبعاد للغاية (UHD) مجهز بمرضية يمكن السيطرة عليها مباشرة.سعة UHD الكبيرة والحد الأدنى من الضوضاء والتدخل بين الأبعاد تسمح بالتمثيل الثنائي، والتي تعتبر فعالة للغاية للتخزين والبحث.المقترح أيضا طريقة دلامية، حيث يتم اختيار / دمج الأشرطة من طبقات متعددة من بيرت / دمجها لتمثيل الجوانب اللغوية المتنوعة.نقوم باختبار نماذجنا باستخدام سيارة MS MARCO و TREC، والتي تبين أن نماذجنا تفوقت على نماذج غير متفرقة أخرى.
على الرغم من إظهار قدرات محادثة مثيرة تشبه الإنسان بشكل متزايد، غالبا ما تعاني نماذج الحوار الحديثة من التصحيح الواقعي وحلوي المعرفة (الأسطوانة وآخرون، 2020). في هذا العمل، نستكشف استخدام هياكل الاسترجاع العصبي - التي تظهر مؤخرا لتكون فعالة في الجودة المفتوحة QA (لويس وآخرون، 2020B؛ Izacard and Grav، 2020) - للحصول على الحوار المعرفي، مهمة يمكن القول أنها أكثر تحديا لأنها تتطلب الاستئصال بناء على سياق الحوار متعدد الدورات المعقدة وإنشاء ردود متماسكة للمحادثة. نحن ندرس أنواعا مختلفة من الهندسة مع مكونات متعددة - المستردون والراحة، وكشف ترميز التشفير - بهدف تعظيم قابلية الإصلاحية أثناء الاحتفاظ بقدرة المحادثة. نوضح أن أفضل النماذج لدينا تحصل على أداء حديثة في مهام المحادثة المدرجة في المعرفة. تعرض النماذج إمكانات محادثة في المجال المفتوح، وتعميم بفعالية من السيناريوهات غير ضمن بيانات التدريب، وعلى النحو الذي تم التحقق منه من خلال التقييمات البشرية، يقلل بشكل كبير من المشكلة المعروفة من الهلوسة المعرفة في Statbots الحديثة.
العثور على التعريفي للبيانات هو مفتاح العديد من المهام، بما في ذلك توليد المضادة.إننا نبني نظام، بالنظر إلى بيان، يسترد معرفا من مصادر متنوعة على الويب.في صميم هذا النظام هو نموذج لاستدلال اللغة الطبيعية (NLI) يحدد ما إذا كانت الجملة المرشحة زاوية سا رية المفعول أم لا.ومع ذلك، فإن معظم نماذج NLI حتى الآن، تفتقر إلى قدرات التفكير المناسبة اللازمة لإيجاد التعدد الزيادة التي تنطوي على استنتاج معقد.وبالتالي، نقدم نموذج NLI المحسن للمعرفة يهدف إلى التعامل مع الاستدلال المستندة إلى السببية والمثال من خلال دمج رسوم البيانية المعرفة.تتفوق نموذج NLI الخاص بنا على خطوط الأساس لمهام NLI، خاصة بالنسبة للحالات التي تتطلب الاستدلال المستهدف.بالإضافة إلى ذلك، يحسن نموذج NLI هذا نظام استرجاع معرفي، وخاصة إيجاد مزايا معقدة بشكل أفضل.
تظل تحفيز الرسوم البيانية المعرفة عالية الجودة عالية الجودة من مجموعة معينة من الوثائق مشكلة صعبة في منظمة العفو الدولية. تتمثل إحدى الطرق في إحدى الطرق في هذه المشكلة من خلال التقدم في مهمة ذات صلة تعرف باسم ملء الفتحة. في هذه المهمة، نظرا لاستعلام كيان في شكل [كيان أو فتحة، حاول الأعمال الأخيرة في الحقل حل هذه المهمة في أزياء نهاية إلى نهاية باستخدام نماذج اللغة المستندة إلى الاسترجاع. في هذه الورقة، نقدم نهجا جديدا لملء فتحة الصفر التي تستوعب الصفر الذي يمتد استرجاع المقطع الكثيف مع السلبيات الصعبة وإجراءات تدريب قوية لنماذج التوليد المعزز للاسترجاع. تقارير النموذج لدينا تحسينات كبيرة على كل من مجموعات بيانات ملء فتحة T-REX و ZSRE، وتحسين كلا من توليد استرجاع المقطع ونظام الفتحة، والترتيب في وضع أعلى 1 في لوحة المتصدرين KILT. علاوة على ذلك، نوضح متانة نظامنا في إظهار قدراته على تكيف نطاقه على متن عبارة عن مجموعة جديدة من مجموعة البيانات المشبوكة لملء الفتحة، من خلال مزيج من التعلم الصفر / قليل من الرصاص. نحن نفرج عن شفرة المصدر والنماذج المدربة مسبقا.
هناك حدود مثيرة في فهم اللغة الطبيعية (NLU) وتوليد (NLG) يدعو (NLG) نماذج لغة (Vision-and) التي يمكن أن تصل إلى إمكانية الوصول إلى مستودعات المعرفة المنظم الخارجية بكفاءة. ومع ذلك، فإن العديد من قواعد المعرفة الموجودة تغطي فقط المجالات المحدودة، أو ت عاني من بيانات صاخبة، والأهم من ذلك كلها يصعب دمجها عادة في خطوط أنابيب اللغة العصبية. لملء هذه الفجوة، ونحن نطلق عرض المرئيات: رسم بياني لمعرفة عالية الجودة (كجم) والتي تشمل العقد مع المواد المتعددة اللغات والصور التوضيحية المتعددة، والعلاقات ذات الصلة بصريا. ونحن نطلق أيضا نموذج استرجاع متعدد الوسائط العصبي يمكنه استخدام الصور أو الجمل كمدخلات واسترداد الكيانات في كجم. يمكن دمج نموذج استرجاع متعدد الوسائط هذا في أي خط أنابيب نموذج (الشبكة العصبية). نحن نشجع مجتمع البحث على استخدام المرئيات لتعزيز البيانات و / أو كمصدر للتأريض، من بين الاستخدامات الأخرى الممكنة. تتميز المرئيات وكذلك نماذج استرجاع متعددة الوسائط متاحة للجمهور ويمكن تنزيلها في عنوان URL هذا: https://github.com/acercalixto/visualsem.
أظهرت التقدم المحدد في استخدام مكونات الاسترجاع على مصادر المعرفة الخارجية نتائج رائعة لمجموعة متنوعة من المهام المصب في معالجة اللغة الطبيعية.هنا، نستكشف استخدام مصادر المعرفة الخارجية غير منتهية للصور وتستياؤها المقابلة لتحسين الإجابة على السؤال ال مرئي (VQA).أولا، نحن ندرب نموذج محاذاة جديدة لتضمين الصور والتعليقات التوضيحية في نفس الفضاء، والذي يحقق تحسنا كبيرا في الأداء على استرجاع التعليق على الصورة W.r.T.طرق مماثلة.ثانيا، نظهر أن المحولات متعددة الوسائط متعددة الاسترجاع باستخدام نموذج المحاذاة المدربين يحسن النتائج على VQA عبر خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط طويلة.كلنا إجراء تجارب مكثفة لإثبات وعد هذا النهج، وفحص طلبات جديدة لوقت الاستدلال مثل مؤشرات التبديلات الساخنة.
نقوم بتقديم Gerdalir، مجموعة بيانات ألمانية لاسترجاع المعلومات القانونية بناء على وثائق الحالة من منصة المعلومات القانونية المفتوحة المفتوحة.تتكون DataSet من استفسارات 123 ألفا، يتم تصنيف كل منها وثيقة واحدة ذات صلة على الأقل في مجموعة من وثائق الحال ة 131K.نقوم بإجراء العديد من التجارب الأساسية بما في ذلك BM25 وإعادة الرحالة العصبية لحديمع DataSet لدينا، نهدف إلى توفير معيار موحد لرجال الألمانية وترويج البحث المفتوح في هذا المجال.أبعد من ذلك، تضم مجموعة بياناتنا بيانات تدريبية كافية لاستخدامها كملقمة من النماذج في اللغة الألمانية أو اللغوية متعددة اللغات.
يعد استرجاع الكيانات، الذي يهدف إلى إشراف الإزهام إلى الكيانات الكنسية من KBS ضخمة، ضروريا للعديد من المهام في معالجة اللغة الطبيعية.يوضح التقدم المحرز الأخير في استرجاع الكيانات أن هيكل التشفير المزدوج هو إطار قوي وفعال لترشيح المرشحين إذا تم تحديد الكيانات إلا بواسطة الأوصاف.ومع ذلك، فإنهم يتجاهلون العقار الذي يذكرنى أن معاني الكيان تذكر في سياقات مختلفة وترتبط بأجزاء مختلفة من الأوصاف، والتي تعامل على قدم المساواة في الأعمال السابقة.في هذا العمل، نقترح تمثيل كيان متعدد النقود (MURES)، وهو نهج رواية لاسترجاع الكيان الذي يبني تمثيلات متعددة المشاهدات لأوصاف الكيان وتقريب الرأي الأمثل للإشراف عبر طريقة البحث المثيرة.تحقق طريقةنا الأداء الحديثة على Zeshel ويحسن جودة المرشحين في مجموعات بيانات ربط كيان قياسية.
نقوم بدراسة استرجاع الأجابة المتعددة، وهي مشكلة غير استكشافية تتطلب استرجاع المقاطع لتغطية إجابات مميزة متعددة لسؤال معين. تتطلب هذه المهمة نمذجة مشتركة للممرات المستردة، حيث يجب ألا تسترجع النماذج مرارا وتكرارا الممرات التي تحتوي على نفس الإجابة بتك لفة مفقودة إجابة صالحة مختلفة. يعد العمل المسبق التركيز على استرجاع الإجابة الفردية محدودا لأنه لا يستطيع السبب في مجموعة المقاطعات المشتركة. في هذه الورقة، نقدم JPR، نموذج استرجاع مقطع مشترك يركز على إعادة إطلاق Reranking. لنموذج الاحتمال المشترك للممرات المستردة، يستخدم JPR لاستخدام Reranker التلقائي الذي يختار تسلسل من المقاطع، ومجهز بخوارزميات تدريب جديدة وفك تشفيرها. بالمقارنة مع النهج المسبقة، يحقق JPR تغطية إجابة أفضل بكثير على ثلاثة مجموعات بيانات متعددة الإجابات. عند الجمع بين مسألة السؤال المصب، يتيح الاسترجاع المحسن نماذج توليد الإجابات الأكبر لأنها تحتاج إلى النظر في عدد أقل من المقاطع، وإنشاء حالة جديدة من بين الفن.
كمية المنتج (PQ) هي تقنية واستخدامها على نطاق واسع لاسترجاع الإعلانات المخصصة. تقترح الدراسات الحديثة PQ خاضعة للإشراف، حيث يمكن تدريب نماذج التضمين والتجميل بشكل مشترك مع التعلم الخاضع للإشراف. ومع ذلك، هناك نقص في الصياغة المناسبة لهدف التدريب المش ترك؛ وبالتالي، فإن التحسينات حول الأساس غير المشرف السابق محدودة في الواقع. في هذا العمل، نقترح قياس كمية المنتج الموجهة نحو المطابقة (MOPQ)، حيث يتم صياغة فقدان MultioLli Outlastive MultioLli مهدفا. مع تقليل MCL، نحن قادرون على زيادة احتمال مطابقة الاستعلام ومفتاح الحقيقة الأرضية، مما يساهم في دقة الاسترجاع المثلى. بالنظر إلى أن الحساب الدقيق ل MCL مستعصرا بسبب طلب عينات متباينة واسعة، فإننا نقترح مزيد من أخذ العينات عبر الأجهزة المختلفة (DCS)، والذي يزيد بشكل كبير من العينات المقنعة لتقريب دقيق من MCL. نقوم بإجراء دراسات تجريبية واسعة النطاق على أربعة مجموعات بيانات حقيقية، والتي تحقق نتائجها من فعالية MOPQ. الرمز متاح في https://github.com/microsoft /mopq.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا