ترغب بنشر مسار تعليمي؟ اضغط هنا

نماذج اللغة التوليدية المدربة على كبيرة، يمكن لشركة Corga الإجابة على الأسئلة حول مرور عن طريق توليد استمرار المرجح للمقطع الذي يتبعه زوج سؤال / إجابة.ومع ذلك، تختلف معدلات الدقة اعتمادا على نوع السؤال المطروح.في هذه الورقة، نحتفظ بالمرور الثابت، واخ تبار مجموعة واسعة من أنواع الأسئلة، واستكشاف نقاط القوة والضعف في نموذج لغة GPT-3.نحن نقدم أسئلة المرور واختبارها كتحدي محدد لنماذج لغات أخرى.
أظهرت نماذج اللغة الموجودة مسبقا مسبقا (PLMS) فعالية التعلم الإشراف على الذات لمجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، فإن معظمهم لا يدركون بشكل صريح المعرفة الخاصة بالمجال، وهو أمر ضروري لمهام المصب في العديد من المجالات، مثل المه ام في سيناريوهات التجارة الإلكترونية. في هذه الورقة، نقترح K- المكونات، نموذج لغة محقوم المعرفة مسبقا بناء على محول تشفير التشفير التي يمكن تحويلها إلى كل من فهم اللغة الطبيعية ومهام الجيل. على وجه التحديد، نقترح خمسة أهداف مسبقة الإشراف على علم المعرفة على المعرفة في تصميم تعلم المعرفة الخاصة بالمجال، بما في ذلك قواعد المعرفة الخاصة بالمجال التجاري، وجوانب كيانات المنتج، وفئات من كيانات المنتجات، ومقترحات البيع الفريدة من كيانات المنتج. نتحقق من طريقتنا في مجموعة متنوعة من سيناريوهات التجارة الإلكترونية التي تتطلب معرفة خاصة بالمجال، بما في ذلك إكمال قاعدة معارف المنتج، وخصم منتج مبيعات، والحوار متعدد الدوران. تتفوق K- التوصيل بشكل كبير على خطوط الأساس في جميع المجالات، والتي توضح أن الطريقة المقترحة تتعلم بفعالية مجموعة متنوعة متنوعة من المعرفة الخاصة بالمجال لكل من مهام الفم والجيل اللغوي. رمز لدينا متاح.
تكمن الشبكة العصبية الباهظة الثمنية والذاكرة الكثيفة وراء النجاح الأخير لتعلم تمثيل اللغة. نقل المعرفة، وهي تقنية رئيسية لنشر مثل هذا النموذج اللغوي الواسع في البيئات النادرة من الموارد، ينقل المعرفة المتعلقة بتمثيلات الكلمات الفردية المستفادة دون قي ود. في هذه الورقة، مستوحاة من الملاحظات الأخيرة أن تمثيلات اللغة في وضع معرفة نسبيا ولديها معرفة أكثر دلالة ككل، نقدم هدف تقطير معارف جديد لتعلم تمثيل اللغة الذي ينقل المعرفة السياقية عبر نوعين من العلاقات عبر الإنترنت: علاقة كلمة وطبقة تحول العلاقة. على عكس تقنيات التقطير الأخيرة الأخرى لنماذج اللغة، فإن تقطيرنا السياقي ليس لديه أي قيود على التغييرات المعمارية بين المعلم والطالب. نحن نقوم بالتحقق من فعالية طريقتنا حول المعايير الصعبة لمهام فهم اللغة، ليس فقط في بنية الأحجام المختلفة ولكن أيضا بالاشتراك مع Dynabert، طريقة تشذيب الحجم التكيفي المقترح مؤخرا.
في هذه الدراسة، نقترح طريقة تعلم الإشراف على الذات التي تطبق تمثيلات معنى الكلمات في السياق من نموذج لغة ملثم مسبقا مسبقا. تعد تمثيلات الكلمات هي الأساس للدلالات المعجمية في السياق وتقديرات التشابه المنصوصية الدلالية غير المرفوعة (STS). تقوم الدراسة السابقة بتحويل التمثيلات السياقية التي تستخدم تضمين كلمة ثابتة لإضعاف الآثار المفرطة لمعلومات السياقية. على النقيض من ذلك، تستمد الأسلوب المقترح على تمثيلات كلمة معنى في السياق مع الحفاظ على معلومات السياق المفيدة سليمة. على وجه التحديد، تتعلم طريقةنا الجمع بين مخرجات الطبقات المخفية المختلفة التي تستخدم الانتباه عن الذات من خلال التعلم الذاتي الخاضع للإشراف مع كائن تدريب تلقائيا تلقائيا. لتقييم أداء النهج المقترح، أجرينا تجارب مقارنة باستخدام مجموعة من المهام القياسية. تؤكد النتائج أن تمثيلاتنا أظهرت أداء تنافسي مقارنة بسلطة حديثة من الأسلوب لتحويل التمثيلات السياقية للمهام الدلالية المعجمية السياقة وتفوقها على تقدير STS.
التدريب نماذج لغة كبيرة يمكن أن تستهلك كمية كبيرة من الطاقة.نفترض أن تكوين نموذج اللغة يؤثر على استهلاكها في مجال الطاقة، وأن هناك مجالا لتحسين استهلاك الطاقة في نماذج اللغة الكبيرة الحديثة.للتحقيق في هذه المطالبات، نقدم عامل استهلاك الطاقة في الوظيف ة الموضوعية، واستكشاف مجموعة النماذج وتكوينات HyperParameter التي تؤثر على الطاقة.نحدد عوامل تكوين متعددة يمكن أن تقلل من استهلاك الطاقة أثناء التدريب على نموذج اللغة مع الحفاظ على جودة النموذج.
تجزئة خطاب وقطع الخطاب على مستوى الجملة تلعب أدوارا مهمة لمختلف مهام NLP للنظر في التماسك النصي.على الرغم من الإنجازات الأخيرة في كلا المهام، لا يزال هناك مجال للتحسين بسبب ندرة البيانات المسمى.لحل المشكلة، نقترح مصنف إنتاج نموذجي في اللغة (LMGC) لاس تخدام مزيد من المعلومات من الملصقات عن طريق معالجة الملصقات كمدخلات أثناء تعزيز تمثيلات التسمية من خلال تضمين أوصاف لكل ملصق.علاوة على ذلك، نظرا لأن هذا يتيح LMGC من إعداد تمثيلات الملصقات، غير المرئي في خطوة ما قبل التدريب، يمكننا استخدام نموذج لغة مدرب مسبقا في LMGC.تظهر النتائج التجريبية على DTSET RST-DT أن LMGC حققت النتيجة F1 من أصل 96.72 في تجزئة الخطاب.وقد حقق المزيد من درجات الولاية F1 عشرات من 84.69 مع حدود الذهب EDU و 81.18 مع حدود مجزأة تلقائيا، على التوالي، في تحليل خطاب على مستوى الجملة.
أصبح استخدام نماذج اللغة المحددة مسبقا، التي تم ضبطها بشكل جيد لأداء مهمة محددة من النهر، على نطاق واسع في NLP.ومع ذلك، قد يكون استخدام نموذج لغة عامة في المجالات المتخصصة، دون المستوى شبه الأمثل بسبب الاختلافات في استخدام اللغة والمفردات.في هذه الور قة، يتم التحقيق في ما إذا كان يمكن تحسين نموذج لغة قائم على اللغة السويدية للمجال السريري من خلال استمرار الاحتجاج بالنص السريري.يتم ضبط نماذج اللغة العامة ومجموعة من المجال بشكل جيد وتقييمها على ثلاثة مهام NLP السريرية الممثلة: (1) تحديد المعلومات الصحية المحمية، (2) تعيين رموز تشخيص ICD-10 إلى الملخصات التفريغ، و (3) عدم اليقين على مستوى الجملةتنبؤ.تظهر النتائج أن الاحيلية المستمرة على البيانات داخل المجال تؤدي إلى تحسين الأداء على جميع المهام الثلاثة المصب، مما يشير إلى وجود قيمة مضافة محتملة لنماذج اللغة الخاصة بالمجال ل NLP السريري.
يمكن أن نطاقات اللغة العصبية التي تدركها القبض على العلاقة بين الكلمات من خلال استغلال معلومات مستوى الطابع وهي فعالة بشكل خاص للغات مع التشكل الغني.ومع ذلك، عادة ما تكون هذه النماذج متحيزة باتجاه المعلومات من أشكال السطح.لتخفيف هذه المشكلة، نقترح طر يقة بسيطة وفعالة لتحسين نموذج اللغة العصبي على الحرف من خلال إجبار ترميز الأحرف لإنتاج شرائح قائمة على الكلمات تحت بنية Skip-Gram في خطوة الاحماء دون بيانات تدريب إضافية.نظرا لإيبربريكيا أن نموذج اللغة العصبي الإدراك على الطابع الناتج يحقق تحسينات واضحة لدرجات الحيرة على لغات متنوعة من النطبية، والتي تحتوي على العديد من الكلمات منخفضة التردد أو غير المرئي.
نحن نحلل كيف يتعلم نموذج اللغة القائم على المحولات قواعد الشطرنج من البيانات النصية للألعاب المسجلة.نوضح كيف يمكن البحث عن كيفية القدرة النموذجية والعدد المتاح لبيانات التدريب التي تؤثر على نجاح تعلم نموذج اللغة بمساعدة مقاييس الشطرنج الخاصة.مع هذه ا لمقاييس، نوضح أن المزيد من الألعاب المستخدمة للتدريب في النطاق المستخدمة تقدم نتائج أفضل بكثير لنفس وقت التدريب.ومع ذلك، فإن حجم النموذج لا يظهر مثل هذا التأثير الواضح.من المثير للاهتمام أيضا أن نلاحظ أن مقاييس التقييم المعتادة لنماذج اللغة، ودقة التنبؤية والحيرة، لا تعطي أي إشارة إلى هذا هنا.يكشف فحص المزيد من النماذج المدربة عن كيفية تخزين المعلومات حول حالة المجلس في تفعيلات مجموعات الخلايا العصبية، وكيف تؤثر التسلسل العام للحركات السابقة على التحركات التي تم إنشاؤها حديثا.
نحن نتطلع إلى مشكلة تخصيص نموذج اللغة في التطبيقات التي يحتاجها مكون ASR إلى إدارة المصطلحات الخاصة بالمجال؛ على الرغم من أن تقنية التعرف على الكلام الحالية من أحدث توفر نتائج ممتازة للمجالات العامة، فإن التكيف مع القواميس أو المعانلات المتخصصة لا تز ال مسألة مفتوحة. في هذا العمل، نقدم نهجا لتحسين الجمل تلقائيا، من كوربوس النص، والتي تطابق، كلاهما دلالة ومورفولوجية، مسرد المصطلحات (الكلمات أو الكلمات المركبة) المقدمة من قبل المستخدم. الهدف النهائي هو التكيف بسرعة نموذج اللغة لنظام ASR الهجين مع كمية محدودة من البيانات النصية داخل المجال من أجل التعامل بنجاح مع المجال اللغوي في متناول اليد؛ يتم توسيع مفردات النموذج الأساسي ومصممة خصيصا، مما يقلل من معدل OOV الناتج. يتم تقديم استراتيجيات اختيار البيانات القائمة على البذور المورفولوجية الضحلة والتوجيه الدلالي عبر Word2VEC ومناقشتها؛ يتكون الإعداد التجريبي في سيناريو تفسير في وقت واحد، حيث تم تصميم ASRS في ثلاث لغات للتعرف على شروط DomainSpecific (I.E. DENTITY). تظهر النتائج باستخدام مقاييس مختلفة (معدل OOV، WER، الدقة والتذكر) فعالية التقنيات المقترحة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا