نستخدم مجموعة بيانات من الأسماء الأولى الأمريكية مع ملصقات تستند إلى النوع الاجتماعي السائد والمجموعة العرقية لفحص تأثير تواتر Corpus على التقييم والسياق والتشابه إلى التمثيل الأولي والتحيز في Bert و GPT-2 و T5 و XLNet. نظهر أن الأسماء الأكثر في الغا
لب والأسماء غير البيضاء أقل تواترا في شركة التدريب لهذه النماذج الأربع هذه. نجد أن الأسماء النادرة هي أكثر مماثلة ذاتيا عبر السياقات، مع Rho Spearman بين التردد والتشابه الذاتي بنسبة منخفضة تصل إلى 763. الأسماء النادرة هي أيضا أقل تشبه التمثيل الأولي، مع تشابه RHO ل Spearman بين التردد ومحاذاة النواة الخطية (CKA) للتمثيل الأولي بما يصل إلى .702. علاوة على ذلك، نجد Rho Spearman بين التحيز العنصري وتكرار الاسم في Bert of .492، مما يشير إلى أن أسماء مجموعات الأقليات ذات التردد الأدنى مرتبطون ببراعة. تخضع تمثيل الأسماء النادرة لمعالجة المزيد من المعالجة، ولكنها أكثر مماثلة ذاتيا، مما يشير إلى أن النماذج تعتمد على تمثيل أقل مستنيرة في السياق بأسماء غير شائعة وأسماء الأقليات التي يتم إجاءاتها على عدد أقل من السياقات الملحوظة.
غالبا ما يتم تقييم نماذج اللغة المستخدمة في التعرف على الكلام بشكل جوهري باستخدام حيرة في بيانات الاختبار أو غير مسبوق مع نظام التعرف على الكلام التلقائي (ASR). لا يرتبط التقييم السابق دائما بشكل جيد مع أداء ASR، في حين أن الأخير يمكن أن يكون محددا ل
أنظمة ASR معينة. اقترح العمل الحديث لتقييم نماذج اللغة باستخدامها لتصنيف جمل الحقيقة الأرضية بين جمل مماثلة للالعناد الصوتي الناتج عن محول الدولة الدقيقة. مثل هذا التقييم هو افتراض أن الجمل التي تم إنشاؤها غير صحيحة لغويا. في هذه الورقة، وضعنا أولا هذا الافتراض موضع السؤال، ومراقبة أن الجمل التي تم إنشاؤها بدلا من ذلك قد تكون صحيحة في كثير من الأحيان لغويا عندما تختلف عن الحقيقة الأرضية بواسطة تحرير واحد فقط. ثانيا، أظهرنا أنه باستخدام بيرت متعددة اللغات، يمكننا تحقيق أداء أفضل من العمل السابق على مجموعات بيانات تبديل التعليمات البرمجية. تطبيقنا متاح علنا على Github في https://github.com/sikfeng/language-modelling-for-code-Switching.
تولد نماذج اللغة الكبيرة (LM) نص بطلاقة بشكل ملحوظ ويمكن تكييفها بكفاءة عبر مهام NLP. قياس وضمان جودة النص الذي تم إنشاؤه من حيث السلامة أمر ضروري لنشر LMS في العالم الحقيقي؛ تحقيقا لهذه الغاية، غالبا ما يعتمد العمل السابق على التقييم التلقائي لسمية
LM. نناقش هذا النهج بشكل خطير، وتقييم العديد من استراتيجيات تخفيف السمية فيما يتعلق بالتقييم التلقائي والبشري، وتحليل عواقب التخفيف من السمية من حيث التحيز النموذجي وجودة LM. نوضح أنه في حين أن استراتيجيات التدخل الأساسية يمكن أن تتحسن بشكل فعال مقاييس تلقائية تم تأسيسها مسبقا على مجموعة بيانات Realtoxicyprompts، فإن هذا يأتي عند تكلفة انخفاض تغطية LM لكلا النصوص حول، ولهجات المجموعات المهمشة. بالإضافة إلى ذلك، نجد أن التصدير البشري غالبا ما يختلفون في درجات سمية تلقائية عالية بعد تدخلات تخفيض السمية القوي --- تسليط الضوء على مزيد من الفروق الدقيقة المشاركة في التقييم الدقيق لسامة LM.
تم إثبات التحسينات الأخيرة المثيرة للإعجاب في NLP، على أساس نجاح نماذج اللغة العصبية السياقية، في معظمها على معظم زوجين من اللغات عالية الموارد. بناء لغة البناء، وبشكل أعم، لا تزال أنظمة NLP للغات غير الموحدة والموارد منخفضة مهمة صعبة. في هذا العمل،
نحن fo- cus على اللغة العربية العامية من الشمال الأفريقي العربية المكتوبة باستخدام امتداد من البرنامج النصي اللاتيني، يسمى Narabizi، في الغالب على وسائل التواصل الاجتماعي والرسائل. في هذا السيناريو المنخفض للموارد مع عرض البيانات مستوى كبير من التباين، نقوم بمقارنة أداء المصب لنموذج لغة قائمة على الطابع على وضع علامات جزء من الكلام والاعتماد على نماذج أحادية اللغات وغير اللغوية. نظرا لأن نموذجا مقرا له على الطابع المدرب على جمل 99 ألفا فقط من Narabizi ويتم تغريمه على خرق صغير من هذه اللغة يؤدي إلى أداء قريبة من تلك التي تم الحصول عليها مع نفس الهندسة المعمارية المدربة مسبقا على نماذج كبيرة متعددة اللغات وأنتجة. تؤكد هذه النتائج على مجموعة بيانات أكبر بكثير من المحتوى الناتج عن المستخدم الفرنسي الصاخب، نجح بأن هذه النماذج اللغوية القائمة على الأحرف يمكن أن تكون أصول ل NLP في مجموعة التباين المنخفضة واللغة العالية.
كان التقييم البشري مكلفا دائما بينما يكافح الباحثون من أجل الثقة في المقاييس التلقائية. لمعالجة هذا، نقترح تخصيص المقاييس التقليدية من خلال أخذ مزايا نماذج اللغة المدربة مسبقا (PLMS) وعشرات المحدودة المسمى الإنسان المسمى. نقدم أولا عوامل HLEPOR متري،
تليها نسخة بيثون التي طورناها (استدارها) التي حققت الضبط التلقائي لمعلمات الترجيح في هلكور متري. ثم نقدم HLEPOR (Cushlepor) المخصص الذي يستخدم إطار عمل تحسين المعلمات Optuna إلى معلمات HLEOR Tune-Tune Tune نحو اتفاق أفضل لاتفاق أفضل على نماذج اللغة المدربة مسبقا (باستخدام LAST) فيما يتعلق بأزواج لغة MT الدقيقة التي يتم نشرها. نحن أيضا تحسين cushlepor تجاه بيانات التقييم البشرية المهنية بناء على إطار إدارة الموارد البشرية و PSQM على أزواج اللغة الإنجليزية والألمانية والإنجليزية. تظهر التحقيقات التجريبية Cushlepor يعزز عروض هيلور بورز نحو اتفاقات أفضل للمتمرنات مثل LAST مع تكلفة أقل بكثير، واتفاقيات أفضل للتقييمات البشرية بما في ذلك درجات MQM و PSQM، وتوجز أداء أفضل بكثير من بلو. تظهر النتائج الرسمية أن عروضنا تفوز بثلاث أزواج لغوية بما في ذلك اللغة الإنجليزية والألمانية والصينية الإنجليزية على نطاق الأخبار عبر Cushlepor (LM) والإنجليزية-الروسية على نطاق TED عبر HLEPOR. (البيانات المتاحة في https://github.com/poethan/cushlepor)
تدابير التشابه هي أداة حيوية لفهم كيف تمثل النماذج اللغوية ولغة العملية. تم استخدام تدابير التشابه التمثيلية القياسية مثل تشابه التموين وجيب التغليح ومسافة Euclidean بنجاح في نماذج تضمين كلمة ثابتة لفهم كيفية الكتلة الكلمات في الفضاء الدلالي. في الآو
نة الأخيرة، تم تطبيق هذه التدابير على المدينات من النماذج السياقية مثل بيرت و GPT-2. في هذا العمل، ندعو إلى السؤال عن المعلوماتية لهذه التدابير لنماذج اللغة السياقية. نجد أن عددا صغيرا من الأبعاد المارقة، في كثير من الأحيان 1-3، يهيمن على هذه التدابير. علاوة على ذلك، نجد عدم تطابق مذهل بين الأبعاد التي تهيمن على تدابير التشابه والذين مهمون سلوك النموذج. نظهر أن تقنيات PostProcessing البسيطة مثل التقييس قادرة على تصحيح الأبعاد المارقة وكشف عن الجودة التمثيلية الكامنة. نقول أن المحاسبة للأبعاد المارقة أمر ضروري لأي تحليل مقرها في التشابه لنماذج اللغة السياقية.
نستكشف استخدام نماذج لغة كبيرة مسببة الاحتراج كحلل دلالي أقل بالرصاص.الهدف في التحليل الدلالي هو توليد تمثيل معنى منظم بالنظر إلى إدخال لغة طبيعية.ومع ذلك، يتم تدريب نماذج اللغة لتوليد اللغة الطبيعية.لسد الفجوة، نستخدم نماذج اللغة لإعادة صياغة المدخل
ات في Sublanguage تسيطر يشبه اللغة الإنجليزية التي يمكن تعيينها تلقائيا إلى تمثيل معنى الهدف.توضح نتائجنا أنه مع كمية صغيرة فقط من البيانات والكود القليل جدا لتحويلها إلى تمثيلات تشبه اللغة الإنجليزية، يؤدي مخططنا لتحقيق البث الدلالي السريع إلى أداء فعال بشكل مدهش على مهام مجتمع متعددة، يتجاوز بشكل كبير أساليب خط الأساس المدربة أيضا على نفس المحدودةبيانات.
تعلم نماذج اللغة العصبية غير المعلمة (NLMS) التوزيعات التنبؤية للنص باستخدام مصدر بيانات خارجي، والذي يسمح لهم بالتعلم من خلال حفظ مخطط Datapooints التدريبي بشكل صريح.في حين أن هذه النماذج فعالة، فإن هذه النماذج غالبا ما تتطلب استرجاع من مؤشرات بيانا
ت كبيرة في وقت الاختبار، مما يزيد بشكل كبير من تسليم الاستدلال، وبالتالي يحد من نشر NLMS غير المعلم في التطبيقات العملية.في هذه الورقة، نأخذ نموذج لغة Geature K-Neave المقترح مؤخرا كمثال، استكشاف الطرق لتحسين كفاءتها على طول الأبعاد المختلفة.تبين التجارب في معيار Wikitext-103 القياسي ومجموعات بيانات التكيف عن المجال أن أساليبنا قادرة على تحقيق ما يصل إلى سرعة 6X في سرعة الاستدلال مع الاحتفاظ بأداء مماثل.قد يوفر التحليل التجريبي الذي نقدمه مبادئ توجيهية للبحث في المستقبل يسعى إلى تطوير أو نشر أكثر كفاءة غير رسمية غير رسمية.
في هذه الورقة، يمكننا التحقيق في أنواع المعلومات النمطية التي يتم التقاطها عن طريق نماذج اللغة المحددة مسبقا.نقدم بيانات البيانات الأولى التي تشمل السمات النمطية لمجموعة من المجموعات الاجتماعية واقتراح طريقة لاستزاز الصور النمطية المشفرة من قبل نماذج
اللغة المحددة في أزياء غير منشأة.علاوة على ذلك، نربط النمط النمطية الناشئة على مظاهرهم كعاطرات أساسية كوسيلة لدراسة آثارهم العاطفية بطريقة أكثر تعميم.لإظهار كيف يمكن استخدام أساليبنا لتحليل نوبات المشاعر والنمطية بسبب التجربة اللغوية، نستخدم ضبطها بشكل جيد على مصادر الأخبار كدراسة حالة.تعرض تجاربنا كيف تختلف المواقف تجاه مجموعات اجتماعية مختلفة عبر النماذج وكيف يمكن أن تحول العواطف والقوالب النمطية بسرعة في مرحلة ضبط الدقيقة.
تعرض GPT-3 قدرة تعليمية ملحوظة في السياق من نماذج اللغة واسعة النطاق (LMS) المدربين على مئات البيانات بمليارات النطاق. نحن هنا تعالج بعض المشكلات المتبقية أقل إبلاغ عن ورق GPT-3، مثل LM غير الإنجليزية، وعروض النماذج المختلفة الحجم، وتأثير التحسين الف
وري الذي قدم مؤخرا على التعلم في السياق. لتحقيق ذلك، نقدم Hyperclova، وهو متنقل كوري من 82B GPT-3 المدربين على كوربوس كوري مرئد من الرموز 560B. يعرض HyperClova المعزز من خلال رفيعنا الكوري الخاص بنا، ويعزز HyperClova مع تكوين التدريب لدينا أحدث أداء التعلم الصفرية في السياق وعدد قليل من الأداء في مهام المصب المختلفة في الكورية. أيضا، نعرض فوائد أداء التعلم الفوري وإظهار كيفية دمجه في خط أنابيب الهندسة السريعة. ثم نناقش إمكانية تحقيق نموذج لا يوجد رمز من خلال توفير قدرات النماذج الأولية ل AI لغير خبراء ML عن طريق إدخال ستوديو HyperClova، وهي واجهة هندسة سريعة التفاعلية. أخيرا، نوضح إمكانات أساليبنا بثلاث تطبيقات ناجحة في المنزل.