ترغب بنشر مسار تعليمي؟ اضغط هنا

تلقت تلخيص محادثة مبادرة إيلاء اهتمام متزايد في حين تعتمد معظم نماذج تلخيص حديثة حديثة من بين الفنون بشدة على ملخصات المشروح بين الإنسان. للحد من الاعتماد على الملخصات المسمى، في هذا العمل، نقدم مجموعة بسيطة ولكنها فعالة من طرق تكبير بيانات المحادثة (CODA) لعلمة محادثة إفراطية شبه إشراف، مثل تبادل / حذف عشوائي لإضطرب علاقات الخطاب داخل المحادثات، والحوار - الإدراج الموجه المرشد بمقاطعة تطوير المحادثات، والاستبدال القائم على الجيل الشرطي لاستبدال الكلام مع صياغةهم الناتجة بناء على سياق المحادثة. لمزيد من الاستفادة من المحادثات غير المستمرة، نجمع بين Coda مع التدريب الذاتي الصاخب على مرحلتين حيث نقوم أولا بتدريب نموذج التلخيص مسبقا على المحادثات غير المسبقة مع ملخصات زائفة، ثم ضبطها على المحادثات المسمى. توضح التجارب التي أجريت في مجموعات بيانات تلخيص المحادثة الأخيرة فعالية أساليبنا على العديد من خطوط خطوط تكبير البيانات في البيانات.
تحليل Coreference Event Dockence (CDCR) هي مهمة تحديد الأحداث التي تشير إلى نفس الأحداث طوال مجموعة من المستندات. تعد شرح بيانات CDCR عملية شاقة ومكلفة، موضحا سبب وجود كورسا الموجودة صغيرة وتفتقر إلى تغطية المجال. للتغلب على هذه الاختناق، نستخلك تلقا ئيا بيانات Coreference من الارتباطات التشعبية في الأخبار عبر الإنترنت: عند الإشارة إلى حدث كبير في العالم الحقيقي، غالبا ما يقوم الكتاب في كثير من الأحيان بإضافة ارتباط تشعبي إلى مقالة أخرى تغطي هذا الحدث. نوضح أن جمع الارتباطات التشعبية التي تشير إلى نفس المقالة (الأقوالية) تنتج بيانات CDCR واسعة عالية الجودة وإنشاء كائن من وثائق 2M وذكر الحدث الفضي القياسي 2.7M يسمى HyperCoref. نقيم نظام أحدث على ثلاثة CDCR Corpora ويجد أن النماذج المدربة على مجموعات فرعية صغيرة من Hypercoref تنافسية للغاية، مع أداء مشابه للنماذج المدربة على البيانات الذهبية القياسية. مع عملنا، نقوم بحرية بحث CDCR من اعتمادا على بيانات التدريب المكلفة المشروح البشرية وتفتتح إمكانيات للبحث عن البحوث بعد أن يتم تكييف نهج استخراج البيانات لدينا بسهولة مع لغات أخرى.
نقدم Dreamdrug، مجموعة بيانات التعيد الجماعي للكشف عن ذكرات الأدوية في قوائم البند الناتجة عن المستخدم الصاخبة من أسواق Darknet.تحتوي DataSet لدينا على ما يقرب من 15000 كيانات مخطوية مشروح يدويا في أكثر من 3500 من قوائم البند كشط من منصة Darknet Mark et Dreammarket '' '' '' '' 'في عام 2017. نحن أيضا تدريب ونماذج خط الأساس للكشف عن هذه الكيانات، باستخدام نماذج اللغة السياقية التي تم ضبطها بشكل صحيحالإعداد وعلى مجموعة البيانات كاملة، وفحص تأثير الاحتجاج على الفورورا غير المخلفات داخل المجال.
في هذه الورقة، نقدم أول بيانات مفاجئة متعددة اللغات متاحة للجمهور.جمعنا حوالي 6M أسئلة وأجوبة أزواج من الويب، في 21 لغة مختلفة.على الرغم من أن هذا أكبر بكثير من مجموعات بيانات استرجاع الأسئلة الشائعة الحالية، إلا أنها تأتي مع تحدياتها الخاصة: ازدواجي ة المحتوى والتوزيع غير المتكافئ للمواضيع.نعتمد إعداد مماثل لاسترجاع مرور كثيف (DPR) واختبار العديد من التشفير BI على هذه البيانات.تكشف تجاربنا أن نموذج متعدد اللغات يعتمد على XLM-Roberta يحقق أفضل النتائج، باستثناء اللغة الإنجليزية.يبدو أن لغات الموارد السفلية تتعلم من بعضها البعض ككلمة متعددة اللغات يحقق MRR أعلى من تلك الخاصة باللغة.يكشف تحليلنا النوعي عن تنشيط النموذج على تغييرات كلمة بسيطة.نحن نطلق علنا علنا DataSet، نموذج، وتدريب البرنامج النصي.
حقق تمثيلات تشفير ثنائية الاتجاه من المحولات (بيرت) عروضا حديثة على العديد من مهام تصنيف النص، مثل تحليل الغراء والمعنويات. بدأ العمل الأخير في المجال القانوني في استخدام بيرت في المهام، مثل التنبؤ بالحكم القانوني والتنبؤ بالانتهاك. تتمثل الممارسات ا لشائعة في استخدام Bert في ضبط نموذج مدرب مسبقا على مهمة مستهدفة واقتطع نصات الإدخال بحجم إدخال BERT (E.G. في معظم الرموز 512). ومع ذلك، نظرا للخصائص الفريدة للمستندات القانونية، فليس من الواضح كيفية التكيف بفعالية بيرت في المجال القانوني. في هذا العمل، نحقق في كيفية التعامل مع المستندات الطويلة، وكيفية أهمية التدريب المسبق على المستندات من نفس المجال باعتباره المهمة المستهدفة. نحن نقوم بإجراء تجارب على مجموعات البيانات الأخيرة: DataSet DataSet ECHR ومجموعة بيانات المهام الناجحة، وهي مهام التصنيف متعددة الملصقات والتصنيف الثنائي، على التوالي. الأهم من ذلك، في المتوسط ​​عدد الرموز في وثيقة من مجموعة بيانات انتهاك EURR أكثر من 1600. في حين أن المستندات الموجودة في مجموعة بيانات المهام الأساسية أقصر (الحد الأقصى لعدد الرموز 204). قارننا بدقة العديد من التقنيات لتكييف بيرت على وثائق طويلة ومقارنة النماذج المختلفة المدربة مسبقا على المجالات القانونية وغيرها. تظهر نتائجنا التجريبية أننا نحتاج إلى التكيف بشكل صريح بتكييف بيرت للتعامل مع المستندات الطويلة، حيث يؤدي اقتطاع إلى أداء أقل فعالية. وجدنا أيضا أن التدريب المسبق على المستندات التي تشبه المهمة المستهدفة ستؤدي إلى أداء أكثر فعالية في العديد من السيناريو.
تحتوي العديد من مجموعات بيانات NLP الجماعية على القطع الأثرية المنهجية التي تم تحديدها فقط بعد اكتمال جمع البيانات. يجب أن يسهل تحديد الهوية السابقة من هذه القضايا إنشاء بيانات تدريبية وتقييم عالية الجودة. نحاول ذلك عن طريق تقييم البروتوكولات التي يع مل فيها اللغويين الخبراء في الحلقة "أثناء جمع البيانات لتحديد هذه المشكلات ومعالجتها عن طريق ضبط تعليمات المهام والحوافز. باستخدام الاستدلال اللغوي الطبيعي كحالة اختبار، قارن ثلاثة بروتوكولات جمع البيانات: (1) بروتوكول أساسي مع عدم وجود تورط لغوي، (2) تدخل لغوي في حلقة مع قيود محدثة بشكل متطور على مهمة الكتابة، و (3) تمديد يضيف التفاعل المباشر بين اللغويين والملائقيين عبر غرفة الدردشة. نجد أن المشاركة اللغوية لا تؤدي إلى زيادة الدقة على مجموعات اختبار خارج المجال مقارنة مع خط الأساس، وإضافة غرفة من الدردشة ليس لها تأثير على البيانات. ومع ذلك، فإن المشاركة اللغوية تؤدي إلى بيانات تقييم أكثر تحديا ودقة أعلى في بعض مجموعات التحدي، مما يدل على فوائد دمج تحليل الخبراء أثناء جمع البيانات.
تلخيص الحوار عبارة عن مهمة طويلة الأمد في مجال NLP، وعدة مجموعات بيانات مع حوارات ووجود ملخصات مكتوبة بشرية من الأنماط المختلفة موجودة.ومع ذلك، فمن غير الواضح لأي نوع من الحوار أي نوع الموجز هو الأنسب.لهذا السبب، نطبق النموذج اللغوي لأنواع الحوار لاس تخلاص عناصر ملخص مطابقة ومهام NLP.يتيح لنا هذا تعيين بيانات تلخيص الحوار الموجودة في هذا النموذج وتحديد الفجوات والاتجاهات المحتملة للعمل في المستقبل.كجزء من هذه العملية، نقدم أيضا نظرة عامة واسعة النطاق عن مجموعات بيانات تلخيص الحوار الموجودة.
شاركت في WMT مشاركتها الأخبار مهمة الترجمة والتركيز على زوج واحد في لغة الموارد عالية: الإنجليزية والصينية (اتجاهين، صينيين إلى اللغة الإنجليزية والإنجليزية إلى الصينية).تركز الأنظمة المقدمة (Zenghuimt) على تنظيف البيانات، واختيار البيانات، والترجمة مرة أخرى ونموذج النموذج.تتضمن التقنيات التي استخدمتها لتصفية البيانات والاختيار التصفية حسب القواعد ونموذج اللغة ومحاذاة Word.لقد استخدمت نموذجا أساسا للترجمة المدربين على Corpus الأولي للحصول على الإصدارات المستهدفة من مجموعات اختبار WMT21، ثم استخدمت نماذج اللغة لمعرفة البيانات أحادية الأبدية التي تشبه الإصدار المستهدف من مجموعة الاختبار، ثم تم استخدام هذه البيانات الأحاديةللقيام الترجمة مرة أخرى.في مجموعة الاختبار، تحقيق أفضل أنظمة بلدي المقدمة 35.9 و 32.2 بلو للإنجليزية إلى اتجاهات اللغة الإنجليزية والصينية إلى الإنجليزية على التوالي، وهي مرتفعة للغاية بالنسبة لطراز صغير.
توليد أزواج الإجابة ذات الجودة العالية هي مهمة صلبة ولكنها ذات مغزى. على الرغم من أن الأعمال السابقة قد حققت نتائج رائعة حول توليد الأسئلة على دراية بالإجابة، فمن الصعب تطبيقها في تطبيق عملي في مجال التعليم. تتناول هذه الورقة لأول مرة مهمة توليد زوج الإجابة السؤال في بيانات الفحص العالمي الحقيقي، وتقترح إطارا جديدا جديدا في العرق. لالتقاط المعلومات المهمة لمقطع الإدخال، نقوم أولا بإنشاء أجهزة iTPhragrases (بدلا من استخراج)، وبالتالي يتم تقليل هذه المهمة إلى توليد مشترك مسدد السؤال عن السؤال المجاني. تبعا لذلك، نقترح نموذج اتصالات متعددة الوكيل لتوليد واستفسار الأسئلة والمجاسات القصيرة بشكل متكرر، ثم قم بتطبيق السؤال والمجاسيات المتولدة لتوجيه جيل الإجابات. لإنشاء معيار قوي، نبني نموذجنا على نموذج ما قبل التدريب الجيل القوي. تظهر النتائج التجريبية أن نموذجنا يجعل اختراقات كبيرة في مهمة جيل الإجابة عن السؤال. علاوة على ذلك، فإننا نصنع تحليلا شاملا على طرازنا، مما يشير إلى اتجاهات جديدة لهذه المهمة الصعبة.
يعد Growdsourcing من غير الخبراء أحد أكثر الطرق شيوعا لجمع البيانات والشروح في NLP. على الرغم من أن هذه الأداة الأساسية في NLP، إلا أن استخدام الجماعة الجماعية يسترشد إلى حد كبير بالممارسات المشتركة والخبرة الشخصية للباحثين. يظل تطوير نظرية الاستخدام الجماعي لمشاكل اللغة العملية تحديا مفتوحا. ومع ذلك، هناك العديد من المبادئ والممارسات التي أثبتت فعاليتها في توليد بيانات عالية الجودة ومتنوعة. يعرض هذا البرنامج التعليمي الباحثين NLP إلى هذه الأساليب والمبادئ الجماعية لجمع البيانات هذه من خلال مناقشة مفصلة لمجموعة متنوعة من دراسات الحالة. يركز اختيار دراسات الحالة على الإعدادات الصعبة حيث يطلب من الجمهور أن يكتب النص الأصلي أو أداء العمل غير المقيد نسبيا. من خلال دراسات الحالة هذه، نناقش في عمليات تفصيلية مصممة بعناية لتحقيق البيانات ذات الخصائص المحددة، على سبيل المثال تتطلب الاستدلال المنطقي أو التفكير الأساسي أو فهم المحادثة. تركز كل دراسة حالة على تفاصيل بروتوكول جمع البيانات التابعة للبيانات التي غالبا ما تتلقى اهتماما محدودا في العروض البحثية البحثية، على سبيل المثال في المؤتمرات، ولكنها حاسمة لنجاح البحث.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا