ترغب بنشر مسار تعليمي؟ اضغط هنا

إن الفهم القراءة الآلي (MRC) هو مهمة NLP الصعبة التي يتطلبها التعامل بعناية مع جميع الحبيبات اللغوية من Word، الجملة إلى المرور.بالنسبة إلى MRC الاستخراجية، تم عرض فترة الإجابة في الغالب عن طريق الأدلة الرئيسية الوحدات اللغوية، حيث إنها جملة في معظم الحالات.ومع ذلك، اكتشفنا مؤخرا أن الجمل قد لا تكون محددة بوضوح في العديد من اللغات إلى النطاقات المختلفة، بحيث يؤدي ذلك إلى ما يسمى بمشكلة غموض وحدة الموقع ونتيجة لذلك، مما يجعل من الصعب على النموذج لتحديد الجملة التي تحتوي على تمديد الإجابة بالضبط عندماالجملة نفسها لم يتم تعريفها بوضوح على الإطلاق.مع أخذ اللغة الصينية كدراسة حالة، فإننا نوضح وتحليل هذه الظاهرة اللغوية واقترح قارئ مقابلة مع التنافق الصريح بالإجمال لتخفيف مثل هذه المشكلة.يساعد قارئنا المقترح في النهاية في تحقيق أحدث حالة جديدة في مؤشر MRC الصيني ويظهر إمكانات كبيرة في التعامل مع لغات أخرى.
يجلب الفهم القراءة آلة حوار متعدد الأحزاب (MRC) تحديا هائلا لأنه ينطوي على مكبرات صوت متعددة في حوار واحد، مما أدى إلى تدفقات معلومات المتكلم المعقدة وسياقات الحوار الصاخبة.لتخفيف هذه الصعوبات، تركز النماذج السابقة على كيفية دمج هذه المعلومات باستخدا م الوحدات النمطية المستندة إلى الرسم البياني المعقدة والبيانات الإضافية المسمى يدويا، والتي عادة ما تكون نادرة في السيناريوهات الحقيقية.في هذه الورقة، نقوم بتصميم مهام التنبؤ ذات الإشراف الذاتي والخالية من العمالة في العمل على المتكلم والكلام الرئيسي للنموذج الضمني لتدفقات معلومات المتكلم، والتقاط أدلة بارزة في حوار طويل.تبرر النتائج التجريبية على مجموعة من مجموعات البيانات القياسية لفعالية أسلوبنا على أساس الأساس التنافسي والنماذج الحديثة الحالية.
كيف يمكننا أن نولد تفسيرات موجزة لفهم القراءة متعددة القفز (RC)؟ يمكن اعتبار الاستراتيجيات الحالية لتحديد الجمل الداعمة كأخصات تركز على الأسئلة الاستخراجية لنص المدخلات. ومع ذلك، فإن هذه التفسيرات الاستخراجية ليست بالضرورة موجزة، وليس كافية على الأقل للإجابة على سؤال. بدلا من ذلك، ندعو إلى نهج إغراق، حيث نقترح إنشاء ملخص ركز على أسئلة غير مركزة لفقرات الإدخال ثم إطعامها لنظام RC. بالنظر إلى كمية محدودة من التفسيرات الموضحة البشرية المشروح البشرية، فإننا نربع الشرح الإفجي بطريقة شبه إشراف، حيث نبدأ من النموذج الخاضع للإشراف، ثم تدريب عليه من خلال التجربة والخطأ تعظيم وظيفة المكافآت التي تمت ترقيتها على الحجز. توضح تجاربنا أن المفسر المفسد المقترح يمكن أن يولد توضيحات أكثر إحكاما من الشرح الاستخراجي مع إشراف محدود (مثيلات 2K فقط) مع الحفاظ على الاكتفاء.
البحث عن الويب هو وسيلة أساسية للبشر للحصول على معلومات، لكنها لا تزال تحديا كبيرا للآلات لفهم محتويات صفحات الويب. في هذه الورقة، نقدم مهمة فهم القراءة الهيكلية المستندة إلى الويب. نظرا لصفحة ويب وسؤال حولها، فإن المهمة هي العثور على إجابة من صفحة ا لويب. تتطلب هذه المهمة نظام ليس فقط لفهم دلالات النصوص ولكن أيضا هيكل صفحة الويب. علاوة على ذلك، اقترحنا Webrc، وهي مجموعة بيانات فهم هيكلية قائمة على شبكة الإنترنت. تتكون WebSrc من أزواج من الإجابات السؤال 400K، والتي يتم جمعها من صفحات الويب 6.4K مع شفرة مصدر HTML المقابلة، لقطات الشاشة والبيانات الوصفية. يتطلب كل سؤال في WebSrc فهم هيكلي معين لصفحة ويب للإجابة، والإجابة إما تمتد عن نصوص على صفحة الويب أو نعم / لا. نحن نقيم مختلف خطوط الأساس القوية على مجموعة بياناتنا لإظهار صعوبة مهمتنا. نحن نحقق أيضا في فائدة المعلومات الهيكلية والميزات المرئية. كانت مجموعة البيانات وخطوط البيانات الخاصة بنا متاحة للجمهور.
في هذه الورقة، نقدم مجموعة بيانات مفهوم التحقق من قراءة جديدة تسمى vgaokao من اختبارات اللغة الصينية في Gaokao.تختلف عن الجهود الحالية، تم تصميم مجموعة البيانات الجديدة في الأصل لتقييم المتحدثين الأصليين، وبالتالي تتطلب مهارات تفاهم لغة أكثر تقدما.لم عالجة التحديات في Vgaokao، نقترح نهجا جديدا متناكج للمتخصص، الذي يختار تكرارا دليلا تكميليا مع وجود آلية تحديث استعلام رواية وأدلة تدعم تكاليف، تليها مسابقة زوجية لدفع النماذج لتعلم الفرق الدقيق بين ما شابه ذلكقطع النص.تبين التجارب أن أساليبنا تتفوق على مختلف خطوط الأساس على Vgaokao مع أدلة تكميلية مستردة، مع وجود مزايا الكفاءة والشرطية.يتم إصدار DataSet و Code لدينا لمزيد من البحث.
تهدف مهمة Sereval 4 إلى إيجاد خيار مناسب من المرشحين المتعددين لحل مهمة فهم القراءة في الجهاز.تقترح معظم الأساليب الموجودة على Concat السؤال والخيار معا لتشكيل نموذج على دراية بالسياق.ومع ذلك، نقول أن التسلسلات المباشرة يمكن أن توفر فقط سياقا محظوظا فقط لمهمة MRC، مما يتجاهل المواقف المحددة للخيار بالنسبة للسؤال.في هذه الورقة، نقترح نموذج رواية MRC عن طريق تعبئة الخيارات في السؤال لإنتاج سياق جيد المحبوس (يعرف بأنه ملخص) يمكن أن تكشف بشكل أفضل عن العلاقة بين الخيار والسؤال.نقوم بإجراء سلسلة من التجارب على مجموعة البيانات المعينة، وتظهرت النتائج أن نهجنا يفوق النظرات الأخرى النظراء إلى حد كبير.
تقدم هذه الورقة المهمة المشتركة Semeval-2021 4: قراءة الفهم من معنى مجردة (Recam). تم تصميم هذه المهمة المشتركة للمساعدة في تقييم قدرة الآلات في تمثيل وفهم مفهوم مجردة. يتعين على النظام المقابل، من المتوقع أن يختار نظام المشاركة، الإجابة الصحيحة من خ مسة مرشحين من المفاهيم المجردة في الفهم مهام. بناء على اثنين من التعريفات النموذجية للمخراج، أي غير محسنة وغير محددة، توفر مهمتنا ثلاثة مجموعات فرعية لتقييم قدرة النماذج في فهم النوعين من المعنى التجريدي وتعميم النماذج. على وجه التحديد، يهدف فرقة فرعية 1 إلى تقييم مفاهيم نماذج النظام المشاركة التي لا يمكن أن ينظر إليها مباشرة في العالم المادي. يركز SubTask 2 على قدرة النماذج في فهم مفاهيم غير محددة تقع عالية في التسلسل الهرمي Hypernym نظرا لسياق مرور. يهدف SubTask 3 إلى توفير بعض الأفكار حول تعميم النماذج على النوعين من الممرضين. خلال فترة التقييم الرسمية SEMEVAL-2021، تلقينا 23 تقريرا إلى الفرعية 1 و 28 إلى الفريق الفرعي 2. قدمت الفرق المشاركة بالإضافة إلى ذلك 29 تقريرا إلى الفرع الفرعي 3. يمكن العثور على موقع المتصدرين ومواقع المنافسة في HTTPS: //competitions.codalab. ORG / المسابقات / 26153. تتوفر بيانات البيانات وخطوط الأساس في https://github.com/boyuanzheng010/semeval2021-Reading-comprehension-of-Abstract-meaning.
نقترح طريقة بسيطة لتوليد سؤال متعدد اللغات والإجابة على أزواج على نطاق واسع من خلال استخدام نموذج عام واحد.يمكن استخدام هذه العينات الاصطناعية لتحسين الأداء الصفر لقطة من نماذج QA متعددة اللغات على اللغات المستهدفة.يتطلب تدريبنا المتعدد المهام المقتر ح للنموذج الإداري فقط عينات التدريب المسمى باللغة الإنجليزية، مما يؤدي إلى إزالة الحاجة إلى مثل هذه العينات باللغات المستهدفة، مما يجعلها تنطبق على لغات أخرى بكثير من تلك التي تحتوي على البيانات المسمى.تشير التقييمات البشرية إلى أن غالبية مثل هذه العينات صحيحة وناصمة.تظهر النتائج التجريبية أن نهجنا المقترح يمكن أن يحقق مكاسب كبيرة في DataSet Xquad، مما يقلل من الفجوة بين الصفر بالرصاص والأداء الخاضع للإشراف على نماذج QA أصغر بلغات مختلفة.
تصف هذه الورقة النظام الفائز ل SubTask 2 والنظام الموضح الثاني لبرنامج التعرية الفرعية 1 في مهمة Semeval 2021 4: قراءة القراءة من معنى مجردة.نقترح استخدام جهاز تمييز Electra المصدر الذي يزعجني اختيار أفضل كلمة مجردة من خمسة مرشحين.يتم إدخال آلية الاه تمام العلوي والتنمية التلقائي لمعالجة التسلسلات الطويلة.توضح نتائج التجربة أن هذه المساهمة إلى حد كبير تسهيل النمذجة في اللغة السياقية في مهمة قراءة الفهم.تتم دراسة الاجتثاث أيضا لإظهار صلاحية أساليبنا المقترحة.
في مهام التحقق من القراءة في الجهاز، يجب على النموذج استخراج إجابة من السياق المتاح بالنظر إلى سؤال ومقطع.في الآونة الأخيرة، حققت نماذج اللغة المدربة مسبقا للمحولات أداء حديثة في العديد من مهام معالجة اللغة الطبيعية.ومع ذلك، فمن غير الواضح ما إذا كان هذا الأداء يعكس فهم اللغة الحقيقية.في هذه الورقة، نقترح أمثلة خصومة لتحقيق نموذج لغة عربية مدربة مسبقا (أرابيرت)، مما يؤدي إلى انخفاض كبير في الأداء على أربع مجموعات من مجموعات بيانات آلية قراءة آليا.نقدم تحليلا حكيما للدول الخفية للمحول لتقديم رؤى حول كيفية استكمال أسباب أرابيرت إجابة.تشير التجارب إلى أن أرابت يعتمد على الإشارات السطحية ومطابقة الكلمات الرئيسية بدلا من فهم النص.علاوة على ذلك، يوضح تصور الدولة المخفية أن أخطاء التنبؤ يمكن التعرف عليها من تمثيلات ناقلات في الطبقات السابقة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا