ترغب بنشر مسار تعليمي؟ اضغط هنا

التحيز منتشر لنماذج NLP، تحفز تطوير تقنيات الدخل التلقائي.يقتصر تقييم أساليب ديوان NLP إلى حد كبير على السمات الثنائية في العزلة، على سبيل المثال، الدخان فيما يتعلق بالجنس أو العرق الثنائي، إلا أن العديد من الشركات تشمل العديد من هذه الصفات، وربما مع ارتفاع كرادة.في هذه الورقة، نقول أن نموذجا عادلا حقيقيا يجب أن يفكر في مجموعات GerryMandering التي تضم سمات مفردة فحسب، بل أيضا مجموعات تقاطع أيضا.نحن نقيم شكل من أشكال النموذج المحيزي الجديد الذي هو جديد على NLP، وكذلك امتداد تقنية الإسقاط Nullspace التكراري يمكن أن تتعامل مع هويات متعددة.
نحن تصف أنظمة NMT الخاصة بنا المقدمة إلى المهمة المشتركة WMT2021 في ترجمة الأخبار الإنجليزية - التشيكية: CUNI-DOCTRANSFORMER (CUBBITT على مستوى المستند) و Cuni-Marian-Baselines.نحن نحسن السابق بمعالجة أفضل من تجزئة الجملة وعلاج ما بعد معالجة الأخطاء في تحديد الأرقام والوحدات.نحن نستخدم الأخير للتجارب مع تقنيات الخلفية المختلفة.
غالبا ما تصل التقنيات الحالية لتخفيف DataSet Bias إلى نموذج متحيز لتحديد مثيلات منحازة. ثم يتم تخفيض دور هذه الحالات المتحيزة خلال تدريب النموذج الرئيسي لتعزيز متانة البيانات الخاصة به ببيانات خارج التوزيع. إن الافتراض الأساسي المشترك لهذه التقنيات ه و أن النموذج الرئيسي يتعامل مع حالات متحيزة بالمثل للنموذج المتحيز، في أنه سوف يلجأ إلى التحيزات كلما كان ذلك متاحا. في هذه الورقة، نوضح أن هذا الافتراض لا يمسك بشكل عام. نقوم بإجراء تحقيق حاسم على مجموعة من مجموعات عمليتين مشهورة في المجال، MNLI و FEVER، إلى جانب طريقتين للكشف عن مثيل متحيز، وإدخال جزئي ونماذج ذات سعة محدودة. تظهر تجاربنا أنه في حوالي الثلث إلى نصف الحالات، لا يتمكن النموذج المتحيز من التنبؤ بسلوك النموذج الرئيسي، مع إبرازها بواسطة الأجزاء المختلفة بشكل كبير من المدخلات التي يضمونها قراراتهم. بناء على التحقق الدليلي، نوضح أيضا أن هذا التقدير يتماشى للغاية مع التفسير البشري. تشير النتائج التي توصلنا إليها إلى أن ترزز المثيلات التي تم اكتشافها بواسطة طرق اكتشاف التحيز، وهي إجراءات تمارس على نطاق واسع، هي مضيعة لا لزوم لها من البيانات التدريبية. نطلق سرد علاماتنا لتسهيل الإنتاجية والبحوث المستقبلية.
الاتصالات المكتوبة هي ذات أهمية قصوى لتقدم البحث العلمي. ومع ذلك، قد تتأثر سرعة التطوير من ندرة المراجعين للحكم على جودة المواد البحثية. في هذا السياق، أصبحت الأساليب التلقائية التي يمكنها الاستعلام عن القطاعات اللغوية في مساهمات مكتوبة من خلال اكتشا ف وجود أو عدم وجود أنماط الخطابية المشتركة أصبحت ضرورة. تهدف هذه الورقة إلى مقارنة تقنيات تعلم الآلات الخاضعة للإشراف التي تم اختبارها لإنجاز تحليل النوع في مقاطع مقدمة من مقالات هندسة البرمجيات. تم تنفيذ نهج شبه مشار إليه لزيادة عدد الجمل المشروح في اللوحات (المتاحة على: مجهول). تم إجراء نهجين إشرافين باستخدام الانحدار من SVM وانحدار لوجستي لتقييم درجة F- النتيجة لتحليل النوع في الجور. تم العثور على تقنية استنادا إلى الانحدار اللوجستي ونقلها لإجراء تحليل النوع بشكل مرض للغاية بمعدل 88.25 على درجة F عند استرداد الأنماط على المستوى العام.
إن إشراق تقنيات الإقناع في الميمات هو الطريقة الأكثر تأثيرا للتأثير على عقليات الشعوب. إن الناس يميلون أكثر إلى الميمات لأنهم أكثر تحفيزا وغالبا ما يتم استغلال الأيمن وغالبا ما يتم استغلال الأيمن بسلامة الدعاية بسلامة في سياقها بقصد تحقيق جدول أعمال محدد. تصف هذه الورقة مشاركتنا في المهام الفرعية الثلاثة التي ظهرت مهمة Semeval 2021 6 على اكتشاف تقنيات الإقناع في النصوص والصور. نستخدم الانحدار من الانحدار اللوجستي، وشجرة القرار، والتقوية التي تم ضبطها بشكل جيد لمعالجة المراكط الفرعية 1. أما بالنسبة ل SubTask 2، نقترح نظام يقوم بدمج نموذج تحديد SPE SPAN ونموذج تصنيف متعدد التسميات يعتمد على بيرتف مدرب مسبقا. نحن نتطلع إلى تصنيف متعدد العلامات متعددة الوسائط للميمات المحددة في SubTask 3 عن طريق الاستفادة من طراز الصور المستند إلى RESNENT50 ونموذج النص المستند إلى Distilbert، وهي عبارة عن بنية متعددة الوسائط بناء على طراز Multikernel CNN + LSTM و MLP. توضح النتائج الأداء التنافسي لأنظمنا.
يقدم وصف النظام التالي نهجنا في اكتشاف تقنيات الإقناع في النصوص والصور.تم تأطير المهمة المعينة بمثابة مشكلة تصنيف متعدد العلامات مع التقنيات المختلفة التي تخدم باسم ملصقات فئة.تعد مشكلة تصنيف العلامات المتعددة واحدة واحدة فيها قائمة من المتغيرات المس تهدفة مثل ملصقاتنا الفئة مرتبطة بكل قطعة إدخال ويفترض أن المستند يمكن أن يتم تعيينه في وقت واحد ويتم تعيينه بشكل مستقل إلى ملصقات أو فئات متعددة.من أجل تخصيص ملصقات فئة للميمات المعينة، اخترنا روبرتا (نهج برت محمول بقوة) كفنذة شبكة عصبية لتصنيف الرمز المميز والتسلسل.بدء التشغيل باستخدام نموذج مدرب مسبقا لتمثيل اللغة، نضربنا هذا النموذج على مهمة التصنيف المعطاة مع البيانات المشروحة المقدمة في خطوات التدريب الخاضعة للإشراف.لدمج ميزات الصور في الإعداد المتعدد الوسائط، نعتمد على بنية VGGG-16 المدربة مسبقا مسبقا.
نحن تصف مهمة Semeval-2021 6 على اكتشاف تقنيات الإقناع في النصوص والصور: البيانات، إرشادات التوضيحية، إعداد التقييم، النتائج، والأنظمة المشاركة.المهمة التي تركز على الميمات وكانت ثلاث مجموعات فرعية: (1) اكتشاف التقنيات في النص، (2) اكتشاف تمديد النص ح يث يتم استخدام التقنيات، و (3) كشف التقنيات في جميع أنحاء، أي كلاهما في النصوفي الصورة.كانت مهمة شائعة، وجذب 71 تسجيل، و 22 فريقا قدمت في نهاية المطاف تقديم رسمي في مجموعة الاختبار.أكدت نتائج التقييم للمراكب الفرعي الثالث أهمية كل من الطرائق والنص والصورة.علاوة على ذلك، ذكرت بعض الفرق المزايا عند عدم الجمع بين الطرطرين، على سبيل المثال، باستخدام الانصهار المبكر أو المتأخر، بل ينطلق على التفاعل بينهما في نموذج مشترك.
تراجع الجملة هي تقنية تكييف مجال بسيطة وقوية.نقوم بإجراء تصنيف النطاق لحساب الحوسبة أوزان مع 1) نموذج اللغة Cross Entropy الفرق 2) شبكة عصبية تشفيرية 3) شبكة توتور العصبية العودية.قارنا هذه الأساليب فيما يتعلق بدقة تصنيف المجال ودراسة توزيع الاحتمالا ت الخلفية.ثم نقوم بتنفيذ تجارب NMT في السيناريو حيث ليس لدينا فورانيا متوازية في المجال وعلى الفورورا المحدودة في المجال.هنا ونحن نستخدم مصنف المجال للاعتقال جمل كوربوس التدريب خارج المجال.هذا يؤدي إلى تحسينات تصل إلى 2.1 بلو للترجمة الألمانية إلى الإنجليزية.
الهدف من SEMEVAL-2021 المهمة 6 هو تحديد التقنيات المستخدمة مع فترة (ق) من النص المشمول من كل تقنية.تصف هذه الورقة النظام والنموذج الذي طورنا لهذه المهمة.نقترح أولا نظام خط أنابيب لتحديد المواقف، ثم صنف هذه التقنية في تسلسل الإدخال.لكنه يعاني بشدة من التعامل مع المتداخلة في فترة متداخلة.ثم نقترح صياغة المهمة كمسألة مسألة الإجابة على مهمة MRC التي تحقق نتيجة أفضل مقارنة بطريقة خط الأنابيب.علاوة على ذلك، يتم استكشاف تقنيات تكبير البيانات وتصميم الخسائر أيضا لتخفيف مشكلة متفرج البيانات والخلل.أخيرا، نحن نحصل على المركز الثالث في مرحلة التقييم النهائي.
توضح هذه الورقة وتبحث في أنظمة مختلفة لمعالجة المهمة 6 من Semeval-2021: اكتشاف تقنيات الإقناع في النصوص والصور، والتعقب الفرعي 1. تهدف المهمة إلى بناء نموذج لتحديد التقنيات الطبية والنفسية (مثل التبسيط المفاجئ، الاسم-Cling، تشويه) في المحتوى النصي من ميمي يستخدم غالبا في حملة تضليل للتأثير على المستخدمين.توفر الورقة مقارنة واسعة النطاق بين مختلف أنظمة تعليم الآلات كحل للمهمة.نقوم بتوصيل المعالجة المسبقة للبيانات النصية لصالح المهمة وعدة طرق للتغلب على خلل الفصل.تظهر النتائج أن ضبط نموذج روبرتا يعطى أفضل النتائج مع نقاط F1-Micro من 0.51 على مجموعة التطوير.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا