مساحة جديدة

اشترك بالحزمة الذهبية واحصل على وصول غير محدود شمرا أكاديميا

تسجيل مستخدم جديد

لا تجاهل جميع الحالات المتحيزة: التحقيق في الافتراض الأساسي في تقنيات تخفيف البيانات DataSet

Don't Discard All the Biased Instances: Investigating a Core Assumption in Dataset Bias Mitigation Techniques

176 0 0 0.0 ( 0 )

تحميل البحث استخدام كمرجع

نشر من قبل جمعية اللغويات الحاسوبية ACL مقالة

تاريخ النشر 2021

مجال البحث الذكاء الاصناعي

والبحث باللغة English

تمت اﻹضافة من قبل Shamra Editor

قم بزيارة صفحتنا على فيسبوك

‎Shamra Academia - شمرا أكاديميا‎

اسأل ChatGPT حول البحث

الملخص بالعربية الملخص بالإنكليزية

غالبا ما تصل التقنيات الحالية لتخفيف DataSet Bias إلى نموذج متحيز لتحديد مثيلات منحازة. ثم يتم تخفيض دور هذه الحالات المتحيزة خلال تدريب النموذج الرئيسي لتعزيز متانة البيانات الخاصة به ببيانات خارج التوزيع. إن الافتراض الأساسي المشترك لهذه التقنيات هو أن النموذج الرئيسي يتعامل مع حالات متحيزة بالمثل للنموذج المتحيز، في أنه سوف يلجأ إلى التحيزات كلما كان ذلك متاحا. في هذه الورقة، نوضح أن هذا الافتراض لا يمسك بشكل عام. نقوم بإجراء تحقيق حاسم على مجموعة من مجموعات عمليتين مشهورة في المجال، MNLI و FEVER، إلى جانب طريقتين للكشف عن مثيل متحيز، وإدخال جزئي ونماذج ذات سعة محدودة. تظهر تجاربنا أنه في حوالي الثلث إلى نصف الحالات، لا يتمكن النموذج المتحيز من التنبؤ بسلوك النموذج الرئيسي، مع إبرازها بواسطة الأجزاء المختلفة بشكل كبير من المدخلات التي يضمونها قراراتهم. بناء على التحقق الدليلي، نوضح أيضا أن هذا التقدير يتماشى للغاية مع التفسير البشري. تشير النتائج التي توصلنا إليها إلى أن ترزز المثيلات التي تم اكتشافها بواسطة طرق اكتشاف التحيز، وهي إجراءات تمارس على نطاق واسع، هي مضيعة لا لزوم لها من البيانات التدريبية. نطلق سرد علاماتنا لتسهيل الإنتاجية والبحوث المستقبلية.

المراجع المستخدمة

https://aclanthology.org/

قيم البحث

اقرأ أيضاً

تخفيف التحيز DIACHRONIC في DataSet

231 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

أخبار وهمية تسبب أضرارا كبيرة في المجتمع.للتعامل مع هذه الأخبار المزيفة، تم إجراء العديد من الدراسات حول نماذج كشف البناء وترتيب مجموعات البيانات.معظم مجموعات بيانات الأخبار المزيفة تعتمد على فترة زمنية محددة.وبالتالي، فإن نماذج الكشف المدربة على مثل هذه البيانات لديها صعوبة في اكتشاف الأخبار الرواية المزيفة الناتجة عن التغييرات السياسية والتغيرات الاجتماعية؛قد ينتج عنهم إخراج متحيز من المدخلات، بما في ذلك أسماء شخص معين وأسماء تنظيمية.نشير إلى هذه المشكلة كتحيز DIACHRONIC لأنه سبب تاريخ إنشاء الأخبار في كل مجموعة بيانات.في هذه الدراسة، نؤكد التحيز، وخاصة الأسماء المناسبة بما في ذلك أسماء الشخص، من انحراف مظاهر العبارة في كل مجموعة بيانات.بناء على هذه النتائج، نقترح طرق الاخفاء باستخدام Wikidata للتخفيف من تأثير أسماء الشخص والتحقق من صحة ما إذا كانوا يقومون بإجراء نماذج الكشف عن الأخبار وهمية قوية من خلال التجارب مع بيانات داخل المجال والخروج.

fake diachronic bias detection models مزورة التحيز DIACHRONIC. نماذج الكشف صناعة حمض الفوسفور المزيد..

"لا تناقش": التحقيق في ميزات الدلالية والجدبية للكشف عن الرسائل والتصنيف والإشراف

135 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

واحدة من الآليات التي ينتشر فيها التضليل عبر الإنترنت، لا سيما من خلال وسائل التواصل الاجتماعي، من خلال توظيف تقنيات الدعاية. وتشمل هذه الاستراتيجيات الخطابية والنفسية المحددة، تتراوح من الاستفادة من العواطف لاستغلال المداخل المنطقية. في هذه الورقة، هدفنا هو دفع البحث إلى الأمام على اكتشاف الدعاية بناء على تحليل النص، بالنظر إلى الدور الحاسم قد تلعب هذه الأساليب لمعالجة هذه القضية المجتمعية الرئيسية. وبشكل أكثر دقة، نقترح نهجا مختلفا لتصنيف مقتطفات نصية كرسائل دعائية ووفقا لتقنية الدعاية التطبيقية الدقيقة، بالإضافة إلى تحليل لغوي مفصل للميزات التي تميز معلومات الدعاية في النص (مثل ميزات الدلالية والمعنويات والحجة) وبعد تجارب واسعة النطاق التي أجريت على موارد دعائية متوفرة (IE، NLP4IF'19 و Semeval'y-Task Task 11) تشير إلى أن النهج المقترح، والاستفادة من طرازات لغة مختلفة والسمات اللغوية التي تم التحقيق فيها، تحقق نتائج واعدة للغاية حول تصنيف الدعاية، سواء - وفي مستوى الشظية.

investigating semantic argumentative features propagandist message detection التحقيق الدلالي ميزات جدلية كشف الرسائل الدعائية صناعة حمض الفوسفور المزيد..

التحقيق التحيز العنصران في مجموعات بيانات اللغة المسيئة

298 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

في الوقت الحاضر، تستخدم منصات وسائل التواصل الاجتماعي نماذج التصنيف للتعامل مع خطاب الكراهية واللغة المسيئة.مشكلة هذه النماذج هي ضعفها للحيز.شكل منتشر من التحيز في خطاب الكراهية ومجموعات البيانات اللغوية المسيئة هو التحيز الهندي الناجم عن التصور النف سي للتعليق وتعقيد مهمة الشرح.في ورقتنا، نقوم بتطوير مجموعة من الأساليب لقياس التحيز العنافي في مجموعات البيانات اللغوية المسيئة وتحديد وجهات نظر مختلفة باللغة المسيئة.نحن نطبق هذه الأساليب إلى أربع مجموعات بيانات مختلفة للغة المسيئة.يدعم نهجنا المقترح عمليات التوضيحية لهذه مجموعات البيانات والبحوث المستقبلية التي تتناول وجهات نظر مختلفة حول تصور اللغة المسيئة.

abusive language datasets language datasets مجموعات بيانات اللغة المسيئة مجموعات البيانات اللغة صناعة حمض الفوسفور

خبراء DataSet واحد للحصول على سؤال متعدد البيانات

344 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تم إنشاء العديد من مجموعات البيانات لتدريب نماذج الفهم في القراءة، والسؤال الطبيعي هو ما إذا كان يمكننا دمجها لبناء النماذج التي (1) أداء أفضل على جميع مجموعات بيانات التدريب و (2) تعميم وتحويل أفضل بيانات جديدة إلى مجموعات البيانات الجديدة. عالج الع مل المسبق هذا الهدف من خلال تدريب شبكة واحدة في وقت واحد على مجموعات بيانات متعددة، والتي تعمل بشكل جيد في المتوسط ولكنها عرضة للتوزيعات الفرعية المختلفة أو غير الضرورية ويمكن نقلها أسوأ مقارنة بالنماذج المصدر بأكثر تداخل مع DataSet المستهدف. يتمثل نهجنا في نموذج سؤال متعدد البيانات مستجيب مع مجموعة من خبراء DataSet واحد، من خلال تدريب مجموعة من وحدات محول محول خفيفة الوزن وخفيفة الوزن (Houlsby et al.، 2019) التي تشترك في نموذج محول أساسي. نجد أن خبراء مجموعة البيانات متعددة المحولات (صنع) تفوقوا جميع خطوط الأساس لدينا من حيث دقة التوزيع، والأساليب البسيطة القائمة على متوسط المعلمة تؤدي إلى تحسين التعميم الصفرية وأداء قليل من الرصاص، مما يوفر قويا و نقطة انطلاق متعددة الاستخدامات لبناء أنظمة مفهوم القراءة الجديدة.

multi-dataset question answering multi-dataset question استجابة سؤال متعددة البيانات سؤال متعدد البيانات صناعة حمض الفوسفور

تقنيات ضغط البيانات

4876 - جامعة تشرين 2013 مشروع تخرج

خلال العقد الأخير من القرن العشرين ظهرت مجموعة من المتغيرات التكنولوجية المتقدمة في مجالات نظم المعلومات المرتبطة بالحاسبات الآلية و وسائل الاتصال و ضغط البيانات و نقلها عبر شبكات الحاسب الآلي. حيث انتقلت نظم المعلومات من اعتمادها على النص و بعض الرس ومات البيانية البسيطة إلى اعتمادها على استخدام الوسائط المتعددة التي تعمل على توصيل المعلومات في أشكال مختلفة من خلال ترابط و تكامل مجموعة متباينة من التكنولوجيات المختلفة (الصوت, الصور, النص, الفيديو, ..الخ). و قد كان تطور تلك النظم في البداية مقصوراً على الاستخدام المنفرد, و لكن نظراً لأهمية نظم الاتصالات و تطور شبكة الانترنت و استخدام نظم الوسائط المتعددة من قبل مستخدمين متعددين في أماكن مختلفة من حيث الموقع الجغرافي, ظهرت أهمية المشاركة في بيانات الوسائط المتعددة, و بالتالي حتمية تداولها من خلال شبكات الحاسب الآلي. و من هنا ظهرت الحاجة إلى ظهور شبكات ذات مواصفات خاصة يمكنها التعامل مع عناصر الوسائط المتعددة بكفاءة عالية. و من جانب آخر ظهرت أهمية وجود نظم وسائط متعددة لديها القدرة على التعامل مع شبكات الحاسب الآلي. من ذلك نرى بأن هذه النظم سوف تتسم بكبر حجم بياناتها إضافة إلى الصعوبة الحقيقية في نقل هذه البيانات و خاصة عبر شبكات الحاسب. لذلك فقد دعت مشاكل تخزين أحجام كبيرة من البيانات مقارنة مع صغر سعة الأجهزة التخزينية و مشاكل نقل كميات كبيرة منها عبر الشبكات إلى تطوير تقنيات لتخفيض (اختصار) أحجام البيانات قدر الإمكان مما يساعد على توفير في المساحات التخزينية من جهة و توفير الوقت عند إرسال البيانات من جهة ثانية

ضغط البيانات هوفمان خوارزميات الضغط الساكنة خوارزميات الضغط الديناميكية LZW LZ77

الأسئلة المقترحة

شرح تقنية التعرف على الصوت Voice Recognition

1417 - 0 - - تم طرحه بمساحة (الذكاء الاصناعي)

التعرف على الصوت التعرف على الكلام التعرف على الكلام التلقائي

سجل دخول لتتمكن من نشر تعليقات

التعليقات

جاري جلب التعليقات

سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها

جامعة بابل

تفاصيل إضافية المزيد من الجامعات

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد

لا تجاهل جميع الحالات المتحيزة: التحقيق في الافتراض الأساسي في تقنيات تخفيف البيانات DataSet

Don't Discard All the Biased Instances: Investigating a Core Assumption in Dataset Bias Mitigation Techniques

اسأل ChatGPT حول البحث

اقرأ أيضاً

الأسئلة المقترحة