ترغب بنشر مسار تعليمي؟ اضغط هنا

تتكون مهمة تحليل المعنويات المستندة إلى جانب الجسيم من ثلاث مجموعات فرعية نموذجية: استخراج الأجل في الجانب، استخراج الأجل رأي، وتصنيف قطبية المعنويات.عادة ما يتم تنفيذ هذه المهن الفرعية الثلاثة بشكل مشترك لتوفير الموارد وتقليل انتشار الخطأ في خط الأن ابيب.ومع ذلك، فإن معظم النماذج المشتركة الحالية تركز فقط على فوائد تقاسم التشفير بين المهن الفرعية ولكن تجاهل الفرق.لذلك، نقترح نموذجا مشتركا ABSA، والتي لا تتمتع فقط بمزايا تقاسم التشفير ولكنها تركز أيضا على الفرق لتحسين فعالية النموذج.بالتفصيل، نقدم تصميما مزدوجا للتشفير، حيث يركز تشفير الزوج بشكل خاص على تصنيف زوج الرأي في الجانب المرشح، والتشمس الأصلي يحتفظ بالاهتمام على وضع العلامات التسلسل.تظهر النتائج التجريبية أن طرازنا المقترح يظهر متانة ويتفوق بشكل كبير على الحالة السابقة من بين الفن في أربعة مجموعات بيانات معيار.
نقوم بدراسة استرجاع الأجابة المتعددة، وهي مشكلة غير استكشافية تتطلب استرجاع المقاطع لتغطية إجابات مميزة متعددة لسؤال معين. تتطلب هذه المهمة نمذجة مشتركة للممرات المستردة، حيث يجب ألا تسترجع النماذج مرارا وتكرارا الممرات التي تحتوي على نفس الإجابة بتك لفة مفقودة إجابة صالحة مختلفة. يعد العمل المسبق التركيز على استرجاع الإجابة الفردية محدودا لأنه لا يستطيع السبب في مجموعة المقاطعات المشتركة. في هذه الورقة، نقدم JPR، نموذج استرجاع مقطع مشترك يركز على إعادة إطلاق Reranking. لنموذج الاحتمال المشترك للممرات المستردة، يستخدم JPR لاستخدام Reranker التلقائي الذي يختار تسلسل من المقاطع، ومجهز بخوارزميات تدريب جديدة وفك تشفيرها. بالمقارنة مع النهج المسبقة، يحقق JPR تغطية إجابة أفضل بكثير على ثلاثة مجموعات بيانات متعددة الإجابات. عند الجمع بين مسألة السؤال المصب، يتيح الاسترجاع المحسن نماذج توليد الإجابات الأكبر لأنها تحتاج إلى النظر في عدد أقل من المقاطع، وإنشاء حالة جديدة من بين الفن.
تعد مخصصات المجال لتقسيم الكلمات وعلامات نقاط البيع مشكلة صعبة للمعالجة المعجمية الصينية. التدريب الذاتي هو حل واعد فيه، الذي يكافح من أجل بناء مجموعة من مثيلات التدريب الزائفة عالية الجودة للنطاق المستهدف. عادة ما يفترض العمل السابق تكييفا عالميا من المصادر إلى الهدف لجمع مثل هذه الكائنات الزائفة، مما يتجاهل الفجوات المختلفة من الجمل المستهدفة إلى مجال المصدر. في هذا العمل، نبدأ من تجزئة الكلمات المشتركة ووضع علامات على نقاط البيع، وتقديم طريقة تكييف مجال Ground-Gromins لنموذج الفجوات بدقة. نقيس الفجوات بواسطة متري واحد بسيط وبديهي، واعتمادها لتطوير كوربوس المجال المستهدف الزائف بناء على النطاقات الفرعية المحبوبة بشكل جيد تدريجيا. يقترح نموذج التعلم التمثيل المختلط بين المجال الجديد وفقا لذلك لترميز المجال الفرعي المتعدد بشكل فعال. يتم تنفيذ العملية بأكملها تدريجيا لكل من Corpus Construction والنموذج التدريب. تظهر النتائج التجريبية على مجموعة بيانات معيار أن طريقتنا يمكن أن تكتسب تحسينات كبيرة على تختلف عن خطوط الأساس. يتم إجراء تحليلات واسعة لإظهار مزايا نموذج تكييف المجال النهائي لدينا أيضا.
في العديد من مهام معالجة اللغة الطبيعية، تعد استرجاع مرور وإعادة التعريف بمرتبة المقطع الإجراءان الرئيسيان في إيجاد المعلومات ذات الصلة وتحديدها. بما أن كل من الإجراءين يسهمان في الأداء النهائي، فمن المهم تحسينها بشكل مشترك من أجل تحقيق تحسن متبادل. في هذه الورقة، نقترح نهج تدريب مشترك رواية لاسترجاع المقطع الكثيف وإعادة إطلاق Reranking. مساهمة رئيسية هي أننا نقدم تقطير List Norwise الديناميكي، حيث نقوم بتصميم نهج تدريبي موحد للأسرار لكل من المسترد و Re-Ranker. أثناء التقطير الديناميكي، يمكن تحسين المسترد و Re-Ranker بشكل متكامل وفقا لمعلومات بعضهم البعض. نقترح أيضا استراتيجية تكبير البيانات الهجينة لبناء مثيلات تدريب متنوعة لنهج تدريب ListWise. تظهر تجارب واسعة فعالية نهجنا على كل من بيانات MSMARCO والأسئلة الطبيعية. يتوفر الكود الخاص بنا في https://github.com/paddlepaddle/rocketqa.
نماذج تتبع حكومية الحوار تلعب دورا مهما في نظام حوار موجه نحو المهام.ومع ذلك، فإن معظمهم يصطادون أنواع الفتحات بشكل مشروط بإدخال المدخلات بشكل مشروط.نكتشف أنه قد يتسبب في الخلط النموذج من خلال أنواع الفتحات التي تشترك في نفس نوع البيانات.لتخفيف هذه ا لمشكلة، نقترح Trippy-MRF و Trippy-LSTM النماذج التي تطرح الفتحات بشكل مشترك.تظهر نتائجنا أنهم قادرون على تخفيف الارتباك المذكور أعلاه، ويدفعون الحديث في DataSet MultiWoz 2.1 من 58.7 إلى 61.3.
تعد التطبيع المعجمي، بالإضافة إلى تقسيم الكلمات وعلامات جزء من الكلام، مهمة أساسية لمعالجة النصية اليابانية التي أنشأها المستخدم.في هذه الورقة، نقترح نموذج تحرير النصوص لحل المهمة الثلاثة المشتركة وطرق توليد البيانات المسمى Pseudo للتغلب على مشكلة نق ص البيانات.أظهرت تجاربنا أن النموذج المقترح حقق أداء تطبيع أفضل عند التدريب على بيانات أكثر تنوعا المصممة بالقطرات.
في استخراج الكيان المشترك والعلاقة، العمل الحالي إما ترميز الميزات الخاصة بمهام المهام بالتتابع، مما يؤدي إلى عدم التوازن في تفاعل الميزات المشتركة بين المهام حيث لا يكون للميزات المستخرجة لاحقا اتصالا مباشرا مع تلك التي تأتي أولا. أو ترميز ميزات الك يان وميزات العلاقة بطريقة متوازية، مما يعني أن التعلم التمثيل الميزات لكل مهمة مستقلة إلى حد كبير عن بعضها البعض باستثناء مشاركة الإدخال. نقترح شبكة تصفية القسم لنموذج التفاعل في اتجاهين بين المهام بشكل صحيح، حيث تحلل ترميز الميزة في خطوتين: القسم والتصفية. في تشفيرنا، نحن نستفيد بوابات اثنين: كيان وبوابة العلاقة، إلى الخلايا العصبية بالقطاع إلى قسمين مهمتين وتقسيم مشترك واحد. يمثل القسم المشترك معلومات مشتركة بين المهام القيمة لكل من المهام ويتم تقاسمها بالتساوي عبر مهمتين لضمان التفاعل السليم في اتجاهين. تمثل أقسام المهام معلومات مهمة داخلية ويتم تشكيلها من خلال الجهود المتضاحية لكل من البوابات، مما يتأكد من أن ترميز ميزات المهام الخاصة يعتمد على بعضها البعض. تظهر نتائج التجربة على ستة مجموعات بيانات عامة أن طرازنا يؤدي أفضل بكثير من النهج السابقة. بالإضافة إلى ذلك، على عكس ما ادعى العمل السابق، تشير تجاربنا الإضافية إلى أن التنبؤ بالعلامة مساهمة في تنبؤ الكيان المسمى بطريقة غير مهم. يمكن العثور على شفرة المصدر في https://github.com/coopercoper/pfn.
تصف هذه الورقة تقديمنا إلى Thesemeval'21: المهمة 7- Hahackathon: الكشف عن الفكاهة والجريمة.في هذا التحدي، نستكشف معدل تكبير متوسطة، وتعزيز الترجمة، والتعلم المتعدد الكثافة، وتمييز نماذج اللغة المختلفة.من الغريب، لا يحسن الثمينة والخلفية المتوسطة الأد اء، في حين أن التعلم المتعدد والكمال يحسن الأداء.نستكشف لماذا لا توفر الدفعة المتوسطة والخلفية نفس الفائدة مثل مهام معالجة اللغة الطبيعية الأخرى وتوفر نظرة ثاقبة في الأخطاء التي يصنعها طرازنا.أفضل نظام أداء لدينا يحتل المرتبة السابعة على المهمة 1BWith RMSE من 0.5339
تلقت ترجمة الكلام (ST) مؤخرا اهتماما متزايدا بتوليد الترجمات دون الحاجة إلى نسخ لغة مصدر ومتوسط توقيت (I.E. التوضيحية).ومع ذلك، فإن الجيل المشترك من مشاريع المصدر والترجمات المستهدفة لا يجلب فقط مزايا جودة الإخراج المحتملة عندما تقوم عمليات فك التشفي ر بإبلاغ بعضها البعض، ولكنها غالبا ما تكون مطلوبة في سيناريوهات متعددة اللغات.في هذا العمل، نركز على النماذج St النماذج التي تولد عمليات تعليقا ثابتا من حيث الهيكل والمحتوى المعجمي.نقدم مقاييس جديدة لتقييم الاتساق الفرعي.تظهر النتائج التي توصلنا إليها أن فك التشفير المشترك يؤدي إلى زيادة الأداء والاتساق بين التسميات التوضيحية والترجمات التي تم إنشاؤها والتي لا تزال تسمح بمرونة كافية لإنتاج ترجمات تتوافق مع الاحتياجات والمعايير الخاصة باللغة.
تعتبر تمثيل التعلم من الكيانات والعلاقات في قواعد المعرفة المنظمة مجالا نشطا من الأبحاث، مع التركيز بكثير في اختيار الهندسة المناسبة لالتقاط الهياكل الهرمية المستغلة في علاقات ISA أو Haspart. تضيحية الصندوق (Vilnis et al.، 2018؛ لي وآخرون، 2019؛ Dasg upta et al.، 2020)، والتي تمثل المفاهيم مثل تسلسلات النفايات الأبعاد، قادرة على تضمين التسلسلات الهرمية عند التدريب على مجموعة فرعية من الإغلاق المتعتقدين. في Patel et al.، (2020)، يوضح المؤلفون أن التخفيض المتعتقدين فقط مطلوب ومواصلة توسيع نطاق مذكرات الصندوق لالتقاط التسلسلات الهرمية المشتركة عن طريق زيادة الرسم البياني مع العقد الجديدة. في حين أنه من الممكن تمثيل التسلسلات الهرمية المشتركة بهذه الطريقة، يتم فصل المعلمات لكل التسلسل الهرمي، مما يجعل التعميم بين التسلسلات الهرمية بشكل غير قابل للإصلاح. في هذا العمل، نقدم تحول مربع إلى مربع المستفاد يحترم بنية كل التسلسل الهرمي. نوضح أن هذا لا يحسن فقط القدرة على النمذجة الحواف التركيبية في النمذجة، ولكنها قادرة أيضا على التعميم من مجموعة فرعية من الحد المتعدود.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا