ترغب بنشر مسار تعليمي؟ اضغط هنا

أدت نماذج اللغة الكبيرة إلى إحراز تقدم ملحوظ في العديد من مهام NLP، ويتحول الباحثون إلى نصائح نصية أكبر من أي وقت مضى لتدريبهم. يتم تقديم بعض أكبر الشركات المتاحة من خلال تجريف أجزاء مهمة من الإنترنت، ويتم إدخالها بشكل متكرر مع الحد الأدنى فقط من الو ثائق. في هذا العمل، نقدم بعض الوثائق الأولى لجور الزحف النظيف الهائل (C4؛ Raffel et al.، 2020)، مجموعة بيانات تم إنشاؤها عن طريق تطبيق مجموعة من المرشحات إلى لقطة واحدة من الزحف المشترك. نبدأ بالتحقيق في المكان الذي جاءت فيه البيانات، وإيجاد كمية كبيرة من النص من مصادر غير متوقعة مثل براءات الاختراع ومواقع الويب العسكرية الأمريكية. ثم نستكشف محتوى النص نفسه، وإيجاد نص تم إنشاؤه بواسطة الجهاز (E.G.، من أنظمة الترجمة الآلية) وأمثلة التقييم من مجموعات بيانات NLP القياسية الأخرى. لفهم تأثير المرشحات المطبقة على إنشاء هذه البيانات، نقوم بتقييم النص الذي تمت إزالته، وإظهار أن تصفية Blocklist تزيل النص غير متناسب من الأفراد وأصحاب الأقليات. أخيرا، نستنتج بعض التوصيات حول كيفية إنشاء وتوثيق مجموعات بيانات الويب من كشط الإنترنت.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا