ترغب بنشر مسار تعليمي؟ اضغط هنا

أصبحت التمثيل التعلم للنص عبر الاحتمالات نموذج لغة على كوربوس كبيرة أصبح نقطة انطلاق قياسية لبناء أنظمة NLP. يقف هذا النهج على النقيض من السيارات الآلية، كما تم تدريبه على النص الخام، ولكن بهدف التعلم لترميز كل إدخال كجاغر يتيح إعادة الإعمار الكامل. AutoNCoders جذابة بسبب هيكل الفضاء الكامن وخصائصها التوليدية. لذلك نستكشف بناء AutoNCoder على مستوى الجملة من نموذج لغة محول محول مسبقا. نحن نقوم بتكييف هدف نمذجة اللغة الملثمين كإنتاجية، وتمديد واحد، في حين أن تدرب فقط عنق الزجاجات الجملة ومكتشف محول بطبقة واحدة. نوضح أن تمثيلات الجملة التي اكتشفها طرازنا تحقق جودة أفضل من الأساليب السابقة التي استخراج تمثيلات من المحولات المسبدة مسبقا على مهام تشابه النص، ونقل النمط (مثال على الجيل الخاضع للرقابة)، ومهام تصنيف الجملة واحدة في معيار الغراء، أثناء استخدام عدد أقل من النماذج المحددة مسبقا.
يجعل معالجة اللغة الطبيعية الحديثة (NLP) استخداما مكثفا لأساليب التعلم العميق بسبب الدقة التي تقدمها لمجموعة متنوعة من التطبيقات.نظرا للتأثير البيئي الكبير للبيئة للتعلم العميق، تم اقتراح تحليل التكلفة والفائدة بما في ذلك بصمة الكربون وكذلك تدابير ال دقة لتحسين توثيق استخدام أساليب NLP للبحث أو النشر.في هذه الورقة، نراجع الأدوات المتاحة لقياس استخدام الطاقة وانبعاثات ثاني أكسيد الكربون لأساليب NLP.نحن تصف نطاق التدابير المقدمة ومقارنة استخدام ستة أدوات (تعقب الكربون، تعقب تأثير التجريب، الخوارزميات الخضراء، تأثير ثاني أكسيد الكربون، واستخدام الطاقة والاستزمي) على تجارب التعرف على الكيان المسماة المنجزة على إعدادات حسابية مختلفة (الخادم المحليمقابل مرفق الحوسبة).بناء على هذه النتائج، نقترح توصيات قابلة للتنفيذ لقياس الأثر البيئي بدقة تجارب NLP.
شفافية إفصائية أوسع --- الحقيقة والوضوح في مجال الاتصالات فيما يتعلق بوظائف منظمة العفو الدولية --- تعتبر على نطاق واسع مرغوب فيه. لسوء الحظ، إنه مفهوم غامض، يصعب تحديده وقياسه. هذا هو الإشكارات، كما أظهر العمل السابق مفاضلات محتملة وعواقب سلبية للإف صاح عن الشفافية، مثل تأثير الالتباس، حيث تفهم الكثير من المعلومات "فهم القارئ لما يعني وصف النظام. لقد جعلت الطبيعة الشخصية الشفافية الإفصائية دراسة عميقة في هذه المشكلات وعلاجاتهم صعبة. لتحسين هذه الحالة، نقدم مقاييس احتمالية النموذج العصبي النموذجي النموذجي مباشرة من الشفافية الكشفية، وإظهار أنهم يرتبطون بالمستخدم وفكرات الخبراء من شفافية النظام، مما يجعلهم وكيلا موضوعيا صالحا. أخيرا، نوضح استخدام هذه المقاييس في دراسة تجريبية يحدد العلاقات بين الشفافية والارتباك وتصورات المستخدمين في كائن من أوصاف نظام NLP الحقيقي.
تتضمن ممارسة شائعة في بناء مجموعات بيانات NLP، خاصة استخدام التعليقات التوضيحية من قبل الجمهور، الحصول على أحكام معلقية متعددة على نفس حالات البيانات، والتي يتم تسويتها بعد ذلك لإنتاج حقائق أو درجة أرضية واحدة، من خلال التصويت الأغلبية، المتوسط، أو ا لحكموبعدفي حين أن هذه النهج قد تكون مناسبة في مهام توضيحية معينة، تطل مثل هذه التجمعات على الطبيعة التي تم إنشاؤها اجتماعيا للتصورات الإنسانية التي تهدف الشروح عن المهام ذاتية نسبيا إلى الاستيلاء عليها.على وجه الخصوص، فإن الخلافات المنهجية بين المحن المعلقين بسبب خلفياتهم الاجتماعية والثقافية والتجارب العاشية غالبا ما يتم توعيتها من خلال هذه التجمعات.في هذه الورقة، نوضح تجريبيا أن تجميع الملصقات قد يعرض تحيزات تمثيلية من وجهات النظر الفردية والمجموعة.بناء على هذا النتيجة، نقترح مجموعة من توصيات لزيادة فائدة وشفافية مجموعات البيانات في حالات استخدام المصب.
أظهرت نماذج محولات محول مسبقا واسعة النطاق أداء حديثة (SOTA) في مجموعة متنوعة من مهام NLP.في الوقت الحاضر، تتوفر العديد من النماذج المحددة مسبقا في النكهات النموذجية المختلفة ولغات مختلفة، ويمكن تكييفها بسهولة مع المهمة المصب الأولى.ومع ذلك، فإن عدد محدود فقط من النماذج متاحة لمهام الحوار، وخاصة مهام الحوار الموجهة نحو الأهداف.بالإضافة إلى ذلك، يتم تدريب النماذج المحددة مسبقا على لغة المجال العامة، مما يخلق عدم تطابقا بين لغة المحترفين ومجال المصب المصب.في هذه المساهمة، نقدم CS-Bert، نموذج BERT مسبقا على ملايين الحوارات في مجال خدمة العملاء.نقوم بتقييم CS-Bert على العديد من مهام حوار خدمة العملاء في العديد من مهام خدمة العملاء، وإظهار أن محالقنا في المجال لدينا مفيد مقارنة بالنماذج الأخرى المحددة مسبقا في كل من التجارب الصفري بالرصاص وكذلك في التجارب الصفرية، خاصة في إعداد بيانات منخفض الموارد.
لقد نجحت النماذج اللغوية المدربة مسبقا للمحولات بشكل كبير في معظم مهام NLP التقليدية.لكنهم غالبا ما يكافحون في هذه المهام حيث يلزم التفاهم العددي.يمكن أن تكون بعض الأسباب المحتملة هي الأحمال وأهداف ما قبل التدريب غير المصممة خصيصا للتعلم والحفاظ على الحساب.نحن هنا التحقيق في قدرة نموذج تعلم تحويل النص إلى النصي (T5)، والذي تفوقت على أسلافه في المهام التقليدية لبرنامج التعاون الخليجي، لتعلم الحساب.نحن نعتبر أربع مهام الحسابية: التردد، تنبؤ ترتيب الحجم، والعثور على الحد الأدنى والحد الأقصى في سلسلة، والفرز.نجد أنه على الرغم من أن نماذج T5 تؤدي بشكل جيد في إعداد الاستيفاء، إلا أنهم يكافحون إلى حد كبير في إعداد الاستقراء عبر جميع المهام الأربعة.
تصف هذه الورقة نظام Duluth الذي شارك في مهمة Semeval-2021 11، الرسم البياني للمساهمة NLP.وتفصل في استخراج جمل المساهمة والكيانات العلمية وعلاقاتها من المقالات العلمية في مجال معالجة اللغة الطبيعية.يستخدم حلنا Deberta لتصنيف الجملة المتعدد الفوضى لاست خراج الجمل المساهمة ونوعها، وتحليل التبعية لتحديد كل جملة واستخراج ثلاثة أضعاف ثلاثة أضعاف.احتل نظامنا في المرتبة الخامسة من السبعة للمرحلة الأولى: خط أنابيب نهاية إلى نهاية، السادس من ثمانية للمرحلة 2 الجزء الأول: العبارات والثمانية، والخامس الثمانية للمرحلة 2 الجزء 2: استخراج ثلاثي.
تصف هذه الورقة النظام الذي بنناه كفريق YNU-HPCC في مهمة Semeval-2021 11: NLPContribeGraph. تتضمن هذه المهمة أولا تحديد الجمل في المقالات العلمية المعينة للغة الطبيعية (NLP) التي تعكس مساهمات البحث من خلال التصنيف الثنائي؛ ثم تحديد المصطلحات العلمية ا لأساسية وعبارات علاقتها من جمل هذه المساهمة عن طريق وضع التسلسل؛ وأخيرا، يتم تصنيف هذه المصطلحات والعلاقات العلمية هذه، وحددها، ويتم تنظيمها في ثلاثة أضعاف ثلاثة أضعاف لتشكيل رسم بياني للمعرفة بمساعدة تصنيف Multiclass وتصنيف متعدد التسميات. قمنا بتطوير نظام لهذه المهمة باستخدام نموذج تمثيل لغوي مدرب مسبقا يسمى Bert الذي يمثل تمثيلات تشفير ثنائية الاتجاه من المحولات، وحقق نتائج جيدة. متوسط ​​درجة F1 للتقييم المرحلة 2، الجزء الأول كان 0.4562 واحتل المرتبة 7، ومتوسط ​​درجة F1 لمرحلة التقييم 2، الجزء الثاني كان 0.6541، وأيضا المرتبة 7.
نحن نحلل 6.7 مليون وثائق قانون القضية لتحديد وجود التحيز بين الجنسين في نظامنا القضائي. نجد أن طرق كشف التحيز الحالية في NLP غير كافية لتحديد التحيز بين الجنسين في قاعدة بيانات القوانين الخاصة بنا واقتراح نهج بديل. نظهر أن النتائج غير المتسقة للخوارز ميات الحالية هي عواقب التعريفات غير المتسقة للبحث المسبق للاحماء أنفسهم. تعتمد خوارزميات الكشف عن التحيز على مجموعات من الكلمات لتمثيل التحيز (على سبيل المثال، الراتب، "الوظيفة"، بوس "لتمثيل التوظيف كموضوع متحيز يحتمل على المرأة في نص). ومع ذلك، فإن الطرق التي تبني هذه المجموعات من الكلمات لها عدة نقاط ضعف، في المقام الأول أن قوائم الكلمات تستند إلى حدس الباحثين الخاصة. نقترح طريقتين جديدتين لأتمتة إنشاء قوائم الكلمات لتمثيل التحيزات. نجد أن طرقنا تتفوق على طرق الكشف عن التحيز الحالية NLP الحالية. يحسن أبحاثنا إمكانات تقنية NLP للكشف عن التحيز وتسلط الضوء على التحيزات الجنسانية الموجودة في قانون الحالة المؤثرة. من أجل اختبار أداء طريقة الكشف عن التحيز NLP، نتراجع نتائج التحيز لدينا في حالة القانون ضد بيانات تعداد الولايات المتحدة من مشاركة المرأة في القوى العاملة في المائة عام الماضية.
نقترح سلسلة من النماذج العصبية التي تنفذ تصنيف الجملة، والاعتراف العبارة، واستخراج ثلاثي لإجراء المساهمات العلمية تلقائيا من منشورات NLP. لتحديد أحكام المساهمة الأكثر أهمية في ورقة، استخدمنا مصنف مقرا له بالميزات الموضعية (SubTask 1). تم استخدام نموذ ج BERT-CRF للتعرف على العبارات ذات الصلة وتمييزها في جمل المساهمة (SubTask 2). قمنا بتصنيف ثلاث مرات إلى عدة أنواع بناء على ما إذا كانت عناصرها وكيف تم التعبير عن عناصرها في نص، ومعالجتها كل نوع باستخدام مصنفين منفصلين مقرهم بالمقيمين بالإضافة إلى القواعد (SubTask 3). تم تصنيف نظامنا رسميا في المرحلة الأولى في تقييم المرحلة الأولى وأول مرة في كلا جزأين التقييم المرحلة 2. بعد إصلاح خطأ التقديم في PHARESE 1، فإن نهجنا يؤدي إلى أفضل النتائج بشكل عام. في هذه الورقة، بالإضافة إلى وصف للنظام، نقدم أيضا تحليلا إضافيا لنتائجنا، مما يسلط الضوء على نقاط القوة والقيود لها. نجعل شفرةنا متوفرة علنا ​​في https://github.com/liu-hy/nlp-contrib-graph.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا