ترغب بنشر مسار تعليمي؟ اضغط هنا

تفتقر إلى البيانات المشروحة غير المشروح بين الإنسان هي تحدي رئيسي واحد لتحليل تمثيل المعنى التجريدي (AMR). لتخفيف هذه المشكلة، عادة ما تستخدم الأعمال السابقة البيانات الفضية أو نماذج اللغة المدربة مسبقا. على وجه الخصوص. ومع ذلك، فإنه يجعل فك تشفير أب طأ نسبيا. في هذا العمل، نحقق مناهج بديلة لتحقيق أداء تنافسي بسرعات أسرع. نقترح محلل عمرو المبسط وتقنية تدريب مسبقة الاستخدام للاستخدام الفعال للبيانات الفضية. نقوم بإجراء تجارب مكثفة على مجموعة بيانات AMR2.0 المستخدمة على نطاق واسع وتظهرت النتائج أن محلل عمرو المحولات لدينا يحقق أفضل أداء بين النماذج المستندة إلى SEQ2Graph. علاوة على ذلك، مع البيانات الفضية، يحقق نموذجنا نتائج تنافسية مع نموذج SOTA، والسرعة هي أمر ذو حجم أسرع. تتم التحليلات التفصيلية للحصول على المزيد من الأفكار في نموذجنا المقترح وفعالية تقنية التدريب المسبق.
إسناد التأليف هو مهمة تعيين وثيقة غير معروفة إلى مؤلف من مجموعة من المرشحين.في الماضي، تستخدم الدراسات في هذا المجال مجموعات بيانات التقييم المختلفة لإظهار فعالية الخطوات والميزات والنماذج مسبقا.ومع ذلك، فإن جزء صغير فقط من الأعمال يستخدم أكثر من مجم وعة بيانات لإثبات المطالبات.في هذه الورقة، نقدم مجموعة من مجموعات بيانات إيسبت الأمعاء المتنوعة للغاية، والتي تعميم نتائج التقييم بشكل أفضل من أبحاث إسناد التأليف.علاوة على ذلك، نقوم بتنفيذ مجموعة واسعة من نماذج تعلم الآلات المستخدمة سابقا وإظهار أن العديد من النهج تظهر عروضا مختلفة بشكل كبير عند تطبيقها على مجموعات بيانات مختلفة.ندرج نماذج لغة مدربة مسبقا، لأول مرة اختبرها في هذا المجال بطريقة منهجية.أخيرا، نقترح مجموعة من الدرجات المجمعة لتقييم جوانب مختلفة من جمع البيانات.
أصبحت الرعاية الصحية موضوع بحث أكثر وأكثر أهمية مؤخرا. مع البيانات المتنامية في مجال الرعاية الصحية، فإنه يوفر فرصة رائعة للتعلم العميق لتحسين جودة الخدمة وتقليل التكاليف. ومع ذلك، فإن تعقيد بيانات السجلات الصحية الإلكترونية (EHR) هي تحديا لتطبيق الت علم العميق. على وجه التحديد، تتم مراقبة البيانات التي تم إنتاجها في القبول في المستشفى من قبل نظام EHR، والذي يتضمن بيانات منظمة مثل درجة حرارة الجسم اليومية والبيانات غير المنظمة مثل النصوص المجانية والقياسات المختبرية. على الرغم من وجود بعض الأطر المعالجة المسبقة المقترحة لبيانات EHR المحددة، فإن الملاحظات السريرية التي تحتوي على قيمة سريرية كبيرة تتجاوز عالم نظرها. بالإضافة إلى ذلك، سواء كانت هذه البيانات المختلفة من وجهات النظر المختلفة هي مفيدة لجميع المهام الطبية وكيفية الاستفادة من أفضل هذه البيانات لا تزال غير واضحة. لذلك، في هذه الورقة، نقوم أولا باستخراج الملاحظات السريرية المصاحبة من EHR وتقترح طريقة لدمج هذه البيانات، كما ندرس بشكل شامل النماذج المختلفة وأساليب نفاد البيانات لتحسين أداء تنبؤ المهام الطبي بشكل أفضل. تظهر النتائج على مهام التنبؤتين أن نموذجنا المنصوص عليه مع بيانات مختلفة تتفوق على الطريقة التي من أحدثها دون ملاحظات سريرية، توضح أهمية طريقة الانصهار وميزات الملاحظات السريرية.
يعد Growdsourcing من غير الخبراء أحد أكثر الطرق شيوعا لجمع البيانات والشروح في NLP. على الرغم من أن هذه الأداة الأساسية في NLP، إلا أن استخدام الجماعة الجماعية يسترشد إلى حد كبير بالممارسات المشتركة والخبرة الشخصية للباحثين. يظل تطوير نظرية الاستخدام الجماعي لمشاكل اللغة العملية تحديا مفتوحا. ومع ذلك، هناك العديد من المبادئ والممارسات التي أثبتت فعاليتها في توليد بيانات عالية الجودة ومتنوعة. يعرض هذا البرنامج التعليمي الباحثين NLP إلى هذه الأساليب والمبادئ الجماعية لجمع البيانات هذه من خلال مناقشة مفصلة لمجموعة متنوعة من دراسات الحالة. يركز اختيار دراسات الحالة على الإعدادات الصعبة حيث يطلب من الجمهور أن يكتب النص الأصلي أو أداء العمل غير المقيد نسبيا. من خلال دراسات الحالة هذه، نناقش في عمليات تفصيلية مصممة بعناية لتحقيق البيانات ذات الخصائص المحددة، على سبيل المثال تتطلب الاستدلال المنطقي أو التفكير الأساسي أو فهم المحادثة. تركز كل دراسة حالة على تفاصيل بروتوكول جمع البيانات التابعة للبيانات التي غالبا ما تتلقى اهتماما محدودا في العروض البحثية البحثية، على سبيل المثال في المؤتمرات، ولكنها حاسمة لنجاح البحث.
توليد أزواج الإجابة ذات الجودة العالية هي مهمة صلبة ولكنها ذات مغزى. على الرغم من أن الأعمال السابقة قد حققت نتائج رائعة حول توليد الأسئلة على دراية بالإجابة، فمن الصعب تطبيقها في تطبيق عملي في مجال التعليم. تتناول هذه الورقة لأول مرة مهمة توليد زوج الإجابة السؤال في بيانات الفحص العالمي الحقيقي، وتقترح إطارا جديدا جديدا في العرق. لالتقاط المعلومات المهمة لمقطع الإدخال، نقوم أولا بإنشاء أجهزة iTPhragrases (بدلا من استخراج)، وبالتالي يتم تقليل هذه المهمة إلى توليد مشترك مسدد السؤال عن السؤال المجاني. تبعا لذلك، نقترح نموذج اتصالات متعددة الوكيل لتوليد واستفسار الأسئلة والمجاسات القصيرة بشكل متكرر، ثم قم بتطبيق السؤال والمجاسيات المتولدة لتوجيه جيل الإجابات. لإنشاء معيار قوي، نبني نموذجنا على نموذج ما قبل التدريب الجيل القوي. تظهر النتائج التجريبية أن نموذجنا يجعل اختراقات كبيرة في مهمة جيل الإجابة عن السؤال. علاوة على ذلك، فإننا نصنع تحليلا شاملا على طرازنا، مما يشير إلى اتجاهات جديدة لهذه المهمة الصعبة.
على الرغم من كفاءتها المثبتة في المجالات الأخرى، فإن تكبير البيانات أقل شعبية في سياق معالجة اللغة الطبيعية (NLP) بسبب تعقيدها ونتائج محدودة.أظهرت دراسة حديثة (Longpre et al.، 2020) على سبيل المثال أن تعزز بيانات المهمة غير المرغوية تفشل في تعزيز أدا ء المحولات مسبقا حتى في أنظمة البيانات المنخفضة.في هذه الورقة، نحقق في ما إذا كان جدولة التكبير التي يحركها البيانات وإدماج مجموعة أوسع من التحولات يمكن أن تؤدي إلى تحسين الأداء حيث كانت السياسات الثابتة والمحدودة غير ناجحة.تشير نتائجنا إلى أنه، في حين أن هذا النهج يمكن أن يساعد عملية التدريب في بعض الإعدادات، فإن التحسينات غير صحيحة.هذه النتيجة السلبية تهدف إلى مساعدة الباحثين فهم أفضل قيود تكبير البيانات من أجل NLP.
تعد استخراج أجهزة القياسات الرائعة التي تلخص النقاط الرئيسية الوثيقة مهمة أساسية في معالجة اللغة الطبيعية.الأساليب الخاضعة للإشراف لاستخراج الصوت (KPE) تم تطويرها إلى حد كبير بناء على افتراض أن البيانات التدريبية مشروحة بالكامل.ومع ذلك، نظرا لصعوبة ع بوات مفاتيح الصوت، تعاني نماذج KPE بشدة من مشكلة غير مشروعة غير كاملة في العديد من السيناريوهات.تحقيقا لهذه الغاية، نقترح طريقة تدريب أكثر قوة تتعلم التخفيف من سوء الخضوع الذي جلبه خطوط الرعاية القصوى غير المسبقة.نقدم أخذ العينات السلبية لضبط فقدان التدريب، وإجراء تجارب تحت سيناريوهات مختلفة.تظهر الدراسات التجريبية حول مجموعات البيانات الاصطناعية ومجموعات البيانات المفتوحة أن طرازنا قوي للمشكلة المشروحة غير المكتملة وتجاوز الأساس المسبق.تجارب واسعة على خمسة مجموعات بيانات مجال علمي من المقاييس المختلفة توضح أن طرازنا تنافس مع الطريقة التي من بين الفن.
جزء أساسي من حركة الأخلاقيات NLP هو استخدام البيانات المسؤولة عن البيانات، ولكن بالضبط ما يعنيه ذلك أو كيف يمكن تحقيقه بشكل أفضل لا يزال غير واضح.تناقش ورقة الموضع هذه المبادئ القانونية والأخلاقية الأساسية لجمع البيانات النصية ومشاركتها، والتوترات بي نهما.نقترح قائمة مرجعية محتملة لاستخدام البيانات المسؤولة (إعادة) والتي يمكن أن توحيد مراجعة النظراء لتقديمات المؤتمرات، وكذلك تمكين رؤية أكثر متعمقة للبحث المنشور في جميع أنحاء المجتمع.تهدف اقتراحنا إلى المساهمة في تطوير معيار متسق لاستخدام البيانات (إعادة)، واحتضنت مؤتمرات NLP.
تلقت تلخيص محادثة مبادرة إيلاء اهتمام متزايد في حين تعتمد معظم نماذج تلخيص حديثة حديثة من بين الفنون بشدة على ملخصات المشروح بين الإنسان. للحد من الاعتماد على الملخصات المسمى، في هذا العمل، نقدم مجموعة بسيطة ولكنها فعالة من طرق تكبير بيانات المحادثة (CODA) لعلمة محادثة إفراطية شبه إشراف، مثل تبادل / حذف عشوائي لإضطرب علاقات الخطاب داخل المحادثات، والحوار - الإدراج الموجه المرشد بمقاطعة تطوير المحادثات، والاستبدال القائم على الجيل الشرطي لاستبدال الكلام مع صياغةهم الناتجة بناء على سياق المحادثة. لمزيد من الاستفادة من المحادثات غير المستمرة، نجمع بين Coda مع التدريب الذاتي الصاخب على مرحلتين حيث نقوم أولا بتدريب نموذج التلخيص مسبقا على المحادثات غير المسبقة مع ملخصات زائفة، ثم ضبطها على المحادثات المسمى. توضح التجارب التي أجريت في مجموعات بيانات تلخيص المحادثة الأخيرة فعالية أساليبنا على العديد من خطوط خطوط تكبير البيانات في البيانات.
تركز أساليب تصنيف النص الحالية أساسا على مجموعة تسمية ثابتة، في حين أن العديد من التطبيقات في العالم الحقيقي تتطلب تمديد فئات جديدة من الرباعي حيث يزيد عدد العينات لكل علامة. لاستيعاب هذه المتطلبات، نقدم مشكلة جديدة تسمى تصنيف الحبيبات الخشنة إلى الد قيقة، والتي تهدف إلى أداء تصنيف جيد الحبيبات على البيانات المشروحة بشكل خشن. بدلا من طلب التعليقات التوضيحية البشرية المحبوبة الجديدة، فإننا نقوم باختيار الاستفادة من أسماء السطح التسمية باعتبارها الإرشادات البشرية الوحيدة والنسج في نماذج لغوية غنية مدربة مسبقا في استراتيجية الإشراف الضعيفة المتكررة. على وجه التحديد، نقترح أولا صياغة صياغة دقيقة مشروطة على التسمية لتحريك هذه المولدات لمهمتنا. علاوة على ذلك، نركض هدف تنظيمي بناء على قيود العلامات الجميلة الخشنة المستمدة من إعداد مشكلتنا، مما يتيح لنا المزيد من التحسينات على الصيغة السابقة. يستخدم إطار عملنا النماذج الإدارية التي تم ضبطها بشكل جيد لعينة بيانات التدريب الزائفة لتدريب المصنف، و BootStraps على البيانات الحقيقية غير المسبقة لتحسين النموذج. تجارب واسعة دراسات حالة عن مجموعات بيانات عالمية في العالم الحقيقي تثبت أداء فائقا فوق خطوط خطوط تصنيف Sota-Shot-Shot.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا