ترغب بنشر مسار تعليمي؟ اضغط هنا

تتضمن ممارسة شائعة في بناء مجموعات بيانات NLP، خاصة استخدام التعليقات التوضيحية من قبل الجمهور، الحصول على أحكام معلقية متعددة على نفس حالات البيانات، والتي يتم تسويتها بعد ذلك لإنتاج حقائق أو درجة أرضية واحدة، من خلال التصويت الأغلبية، المتوسط، أو ا لحكموبعدفي حين أن هذه النهج قد تكون مناسبة في مهام توضيحية معينة، تطل مثل هذه التجمعات على الطبيعة التي تم إنشاؤها اجتماعيا للتصورات الإنسانية التي تهدف الشروح عن المهام ذاتية نسبيا إلى الاستيلاء عليها.على وجه الخصوص، فإن الخلافات المنهجية بين المحن المعلقين بسبب خلفياتهم الاجتماعية والثقافية والتجارب العاشية غالبا ما يتم توعيتها من خلال هذه التجمعات.في هذه الورقة، نوضح تجريبيا أن تجميع الملصقات قد يعرض تحيزات تمثيلية من وجهات النظر الفردية والمجموعة.بناء على هذا النتيجة، نقترح مجموعة من توصيات لزيادة فائدة وشفافية مجموعات البيانات في حالات استخدام المصب.
الحكم من الانصهار هي مهمة توليد مشروطة تدمج العديد من الجمل ذات الصلة في واحدة متماسكة، والتي يمكن اعتبارها عقوبة ملخص. منذ فترة طويلة تم الاعتراف بأهمية الانصهار منذ فترة طويلة من قبل المجتمعات في توليد اللغة الطبيعية، وخاصة في تلخيص النص. لا يزال ي مثل تحديا لنموذج لخصي مخبئي عصبي لإنشاء عقوبة ملخص متكاملة جيدا. في هذه الورقة، نستكشف طريقة انصهار الجملة الفعالة في سياق تلخيص النص. نقترح إنشاء رسم بياني حدث من جمل المدخلات لالتقاط الأحداث ذات الصلة بفعالية وتنظيمها بطريقة منظمة واستخدام الرسم البياني الحدث الذي تم إنشاؤه لتوجيه الانصهار الجملة. بالإضافة إلى الاستفادة من الاهتمام على محتوى الجمل والعقد الرسم البياني، فإننا نضع كذلك آلية انتباه تدفق الرسوم البيانية للتحكم في عملية الانصهار عبر بنية الرسم البياني. عند تقييم بيانات خلطة الجملة التي تم بناؤها من مجموعة بيانات ملخصة، CNN / DALIYMAIL ومتعدد الأخبار، يظهر طرازنا لتحقيق أدائه الحديث من حيث الحزام وغيرها من المقاييس مثل معدل الانصهار والإخلاص.
تهدف تلخيص الكود إلى توليد أوصاف لغة طبيعية موجزة من التعليمات البرمجية المصدرية، والتي يمكن أن تساعد في تحسين فهم البرنامج والصيانة. تظهر الدراسات الحديثة أن المعلومات الأساسية والهيكلية المستخرجة من أشجار بناء الجملة التجريدية (ASTS) مواتية لتوليد الموجز. ومع ذلك، فإن النهج الحالية تفشل في التقاط المعلومات الغنية بالكامل في ASTS بسبب الحجم / العمق الكبير من ASTS. في هذه الورقة، نقترح نموذج رواية يلقي أن ينشق التسلسل هرمي وإعادة بناء ASTS. أولا، نحن تقسيم هرميا كبيرا إلى مجموعة كبيرة في مجموعة من السكتة الدماغيين واستخدام شبكة عصبية متكررة لتشفير الفرعية. ثم، نكمل تجميع شركات السكتة الدماغية من خلال إعادة بناء النقص الانقسام للحصول على تمثيل AST الكامل. أخيرا، يتم استخدام تمثيل AST، جنبا إلى جنب مع تضمين شفرة المصدر الذي حصل عليه تشفير رمز الكود الفانيليا، لتلخيص التعليمات البرمجية. أظهرت تجارب واسعة، بما في ذلك دراسة الاجتثاث والتقييم البشري، على المعايير قوة المدلى بها. لتسهيل الاستيلاء، تتوفر الكود والبيانات لدينا في https://github.com/deepsoftwareanalytics/ast.
توفر تبسيط الجملة المتوازي (SS) نادرة لأوصوامل SS العصبية. نقترح طريقة غير منشأة لبناء SS Corpora من Translation Translation ثنائي اللغة واسعة النطاق، مما يخفف من الحاجة إلى SS Corporged Corge. يتم تحفيز طريقتنا عن طريق النتائج التالية: يميل نموذج ال ترجمة الآلية العصبية عادة إلى توليد المزيد من الرموز عالية التردد وفرق مستويات التعقيد النصية موجودة بين المصدر واللغة المستهدفة ل Translation Corpus. من خلال أخذ زوج من المصدر الجمل من Corpus Translation وترجمات مراجعها في لغة الجسر، يمكننا إنشاء بيانات SS موازية زائفة واسعة النطاق. بعد ذلك، نبقي أزواج الجملة هذه مع اختلاف أعلى تعقيد كزواج من جملة SS. يمكن أن تلبي المبنى SS Corpora مع نهج غير مدفوع التوقعات بأن الأحكام المحاذاة تحافظ على نفس المعاني وأن يكون لها اختلاف في مستويات تعقيد النص. تظهر النتائج التجريبية أن أساليب SS التي تدربت بها كوربورا تحقق النتائج من أحدث النتائج وتفوق النتائج على نتائج اللغة الإنجليزية في Wikilarge.
تهدف الأبحاث حول الحوار التعاطف إلى إنهاء وكيل بسعة الفهم الدقيق والاستجابة السليمة للعواطف. تركز النماذج الحالية لتوليد الحوار المتعاطفة على تدفق المشاعر في اتجاه واحد، أي من السياق للاستجابة. نقول أن إجراء محادثة متعاطفة هي عملية ثنائية الاتجاه، حي ث يحدث التعاطف عندما يمكن أن تتقارب عواطف اثنين من المحاورين في نفس النقطة، أي، الوصول إلى توافق عاطفي. علاوة على ذلك، نجد أيضا أن الحوار المتعاطفة Corpus محدودة للغاية، مما يؤدي إلى تقييد الأداء النموذجي. لمعالجة المشكلات المذكورة أعلاه، نقترح نموذجا ثنائيا، ثنائي إلكتروني، لإنشاء إجماع عاطفي في وقت واحد واستخدام بعض البيانات الخارجية غير المستهلكة. على وجه التحديد، يدمج نموذجنا نموذج حوار إلى الأمام، نموذج حوار للخلف، ومتغير كامن منفصل يمثل الإجماع العاطفي في هندسة موحدة. ثم، لتخفيف قيود البيانات المقترنة، استخراج البيانات العاطفية غير المستفادة من محادثات مفتوحة واستخدامها ثنائي إفريقيا لإنتاج العينات الزائفة القابلة للتعاطف الزائفة، وهي أكثر كفاءة وتكلفة منخفضة من الشرح البشري. توضح التقييمات التلقائية والإنسانية أن أسلوبنا تتفوق على خطوط أساس تنافسية في إنتاج ردود متماسكة ومواءة.
يحقق نماذج اللغة المستردة مسبقا للمحولات نتائج رائعة في العديد من معايير NLU المعروفة. ومع ذلك، في حين أن أساليب المحاكمات مريحة للغاية، فهي مكلفة من حيث الوقت والموارد. هذا يدعو إلى دراسة تأثير حجم البيانات المحدد على معرفة النماذج. نستكشف هذا التأث ير على القدرات النحوية لروبيرتا، باستخدام النماذج المدربة على الأحجام الإضافية لبيانات النص الخام. أولا، نستخدم التحقيقات الهيكلية النحوية لتحديد ما إذا كانت الطرز المحددة على مزيد من البيانات ترمز كمية أعلى من المعلومات النحوية. ثانيا، نقوم بإجراء تقييم نصلي مستهدف لتحليل تأثير حجم البيانات المحدد على أداء التعميم النحوي للنماذج. ثالثا، قارنا أداء النماذج المختلفة على ثلاثة تطبيقات المصب: وضع علامات جزء من الكلام وتحليل التبعية وإعادة صياغة الحساب. نحن نتكمل دراستنا بتحليل مفاضلة التكلفة - المنفعة للتدريب مثل هذه النماذج. تظهر تجاربنا أنه في حين أن النماذج المحددة على مزيد من البيانات ترمز المزيد من المعرفة النحوية وأداء أفضل في تطبيقات المصب، فإنها لا تقدم دائما أداء أفضل عبر الظواهر الأساسية المختلفة وتأتي بتكلفة مالية وبيئية أعلى.
تم تطبيق نماذج التسلسل إلى التسلسل على مجموعة واسعة من مهام NLP، ولكن كيفية استخدامها بشكل صحيح لتتبع حالة الحوار بشكل منهجي. في هذه الورقة، ندرس هذه المشكلة من وجهات نظر أهداف ما قبل التدريب وكذلك تنسيقات تمثيلات السياق. نوضح أن اختيار الهدف ما قبل التدريب يجعل فرقا كبيرا لجودة تتبع الدولة. على وجه الخصوص، نجد أن التنبؤ الأمان المقنع هو أكثر فعالية من نمذجة اللغة التراجع التلقائي. نستكشف أيضا استخدام Pegasus، وهو هدف ما قبل التدريب المستندة إلى التنبؤ بتلخيص النص، لنموذج تتبع الدولة. وجدنا أن التدريب المسبق لمهمة التلخيص البعيدة على ما يبدو يعمل بشكل جيد بشكل جيد لتتبع حالة الحوار. بالإضافة إلى ذلك، وجدنا أنه في حين أن تمثيل سياق الدولة المتكرر يعمل أيضا بشكل جيد بشكل معقول، فقد يكون للنموذج صعوبة في التعافي من الأخطاء السابقة. أجرينا تجارب في مجموعات بيانات MultiWoz 2.1-2.4 و Woz 2.0 و DSTC2 مع ملاحظات متسقة.
نقترح إطارا جديدا لتدريب النماذج لتصنيف مقبولية الردود الناتجة عن نماذج توليد اللغة الطبيعية (NLG)، وتحسين تحويل الجملة الحالية والنهج القائمة على النماذج. يعتبر استجابة NLG مقبولة إذا كانت كل من صحيحة وتجميعها. نحن لا نستخدم أي مراجع بشرية مما يجعل المصنفين مناسبين لنشر وقت التشغيل. يتم الحصول على بيانات التدريب للصفوف المصنفة باستخدام نهج من 2 مراحل من أول توليد البيانات الاصطناعية باستخدام مزيج من النهج القائمة والجديدة القائمة على النموذج متبوعا بإطار التحقق من صحة جديدة لتصفية وفرز البيانات الاصطناعية في فئات مقبولة وغير مقبولة. يتكيف نهجنا ذو المرحلتين لدينا بمجموعة واسعة من تمثيل البيانات ولا يتطلب بيانات إضافية تتجاوز ما يتم تدريب نماذج NLG عليها. وهي أيضا مستقلة عن الهندسة المعمارية النموذجية NLG الأساسية، وقادرة على توليد عينات أكثر واقعية قريبة من توزيع الردود الناتجة عن النموذج NLG. نقدم النتائج على 5 مجموعات بيانات (Webnlg، وتنظيفها E2E، Viggo، والتنبيه، والطقس) بتمثيلات بيانات متفاوتة. قارن إطار عملنا مع التقنيات الحالية التي تنطوي على توليد بيانات الاصطناعية باستخدام تحويلات جملة بسيطة و / أو تقنيات قائمة على الطراز، وإظهار أن بناء مصنف مقبولية يستخدمون البيانات التي تشبه مخرجات طراز الجيل تتبع إطار التحقق من الصحة تتفوق على التقنيات الحالية، وتحقيق الدولة النتائج من الفن. نظهر أيضا أن تقنياتنا يمكن استخدامها في إعدادات قليلة عند استخدام التدريب الذاتي.
عثرت نمذجة اللغة الإحصائية والترجمة مع المحولات العديد من التطبيقات الناجحة في فهم البرنامج ومهام الجيل، وتحديد معايير عالية للأدوات في بيئات تطوير البرمجيات الحديثة. ومع ذلك، فإن نافذة السياق المحدودة لهذه النماذج العصبية تعني أنهم لن يكونوا غير قاد رين على الاستفادة من السياق الكامل بأكمله من الملفات والحزم الكبيرة لأي مهمة معينة. في حين أن هناك العديد من الجهود المبذولة لتوسيع نافذة السياق، فإننا نقدم نهجا مستقلا بالهندسة المعمارية للاستفادة من التسلسلات الهيدروجسية النحوية من التعليمات البرمجية المصدرية لإدماج سياق كامل مستوى الملف في نافذة ذات طول ثابت. باستخدام أشجار بناء جملة الخرسانة من كل ملف مصدر نستخرج التسلسلات الهرمية النحوية ودمجها في نافذة السياق عن طريق إزالة بشكل انتقائي من عرض نطاقات أكثر تحديدا وأقل أهمية لمهمة معينة. نقوم بتقييم هذا النهج على مهام توليد التعليمات البرمجية والترجمة المشتركة للغة الطبيعية ومزدئة المصدر في لغة البرمجة الثابتة، وتحقيق حالة جديدة من بين الفن في إكمال التعليمات البرمجية وتلخيص Python في معيار Codexglue. نقدم أيضا معايير CodexGlue جديدة للمهام الدوافع المتعلقة بتجربة المستخدمين: إكمال التعليمات البرمجية مع الحرفيات الطبيعية، طريقة إتمام الأسلوب / تلخيص / رمز رمز مكيف في سياق مستوى الملفات.
نقترح نسخ المتداول من تخصيص Dirichlet الكامن، يسمى Rollinglda. من خلال نهج متتابع، فإنه يتيح بناء سلسلة الزمن القائم على LDA من الموضوعات التي تتفق مع الدول السابقة لنماذج LDA. بعد النمذجة الأولي، يمكن حساب التحديثات بكفاءة، مما يسمح للرصد في الوقت ا لفعلي والكشف عن الأحداث أو الاستراتيجات الهيكلية. لهذا الغرض، نقترح تدابير تشابه مناسبة للموضوعات وتوفير دليل محاكاة على التفوق على النهج الأخرى الشائعة الاستخدام. يتم توضيح كفاية الطريقة الناتجة من خلال تطبيق على مثال Corpus. على وجه الخصوص، نحسب التشابه المتمثل في توزيعات الموضوعات التي تم الحصول عليها بالتتابع على فترات زمنية متتالية. للحصول على مثال تمثيلي، تتكون من مقالات نيويورك تايمز من عام 1980 إلى 2020، نقوم بتحليل تأثير العديد من خيارات المعلمات ضبطها وندير طريقة Rollinglda على مجموعة البيانات الكاملة التي تبلغ حوالي 4 ملايين مادة لإظهار جدوائها.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا