ترغب بنشر مسار تعليمي؟ اضغط هنا

تطوير نموذج لغة سريري للسويدية: استمرار الاحتجاج من بيرت عام مع بيانات داخل المجال

Developing a Clinical Language Model for Swedish: Continued Pretraining of Generic BERT with In-Domain Data

389   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أصبح استخدام نماذج اللغة المحددة مسبقا، التي تم ضبطها بشكل جيد لأداء مهمة محددة من النهر، على نطاق واسع في NLP.ومع ذلك، قد يكون استخدام نموذج لغة عامة في المجالات المتخصصة، دون المستوى شبه الأمثل بسبب الاختلافات في استخدام اللغة والمفردات.في هذه الورقة، يتم التحقيق في ما إذا كان يمكن تحسين نموذج لغة قائم على اللغة السويدية للمجال السريري من خلال استمرار الاحتجاج بالنص السريري.يتم ضبط نماذج اللغة العامة ومجموعة من المجال بشكل جيد وتقييمها على ثلاثة مهام NLP السريرية الممثلة: (1) تحديد المعلومات الصحية المحمية، (2) تعيين رموز تشخيص ICD-10 إلى الملخصات التفريغ، و (3) عدم اليقين على مستوى الجملةتنبؤ.تظهر النتائج أن الاحيلية المستمرة على البيانات داخل المجال تؤدي إلى تحسين الأداء على جميع المهام الثلاثة المصب، مما يشير إلى وجود قيمة مضافة محتملة لنماذج اللغة الخاصة بالمجال ل NLP السريري.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم العمل الجاري لتقييم، لمعرفتنا، أول نموذج لغز إذن كبير تم تدريبه على التحدث باللغة السويدية، باستخدام البيانات من Flashback من مناقشة النقاش عبر الإنترنت.نقوم بإجراء دراسة تجريبية للتقييم البشري تشير إلى أن النموذج غالبا ما يكون في الغالب من الاس تجابة للمحادثات بطريقة تشبه الإنسان والمعلومات، على مجموعة متنوعة من الموضوعات.في حين أن البيانات من المنتديات عبر الإنترنت يمكن أن تكون مفيدة لبناء أنظمة محادثة، فإننا نفكر في العواقب السلبية التي قد يكون لها تطبيق غير حكيم، والحاجة إلى اتخاذ تدابير فعالة لحماية ضدهم.
طبقات محول خفيفة الوزن، وحدات يمكن إدراجها بين طبقات المحولات. يستكشف العمل الأخير باستخدام مثل هذه الطبقات للترجمة الآلية العصبية (NMT)، لتكييف النماذج المدربة مسبقا إلى مجالات جديدة أو أزواج لغة، والتدريب فقط مجموعة صغيرة من المعلمات لكل إعداد جديد (زوج لغة أو مجال). في هذا العمل، ندرس تكوين محولات اللغة والمجال في سياق الترجمة الآلية. نحن نهدف إلى الدراسة، 1) التكيف الفعال مع المعلمة إلى مجالات متعددة ولغات في وقت واحد (سيناريو الموارد الكاملة) و 2) نقل عبر اللغات في المجالات حيث تكون البيانات الموازية غير متوفرة لأزواج لغة معينة (سيناريو الموارد الجزئية). نجد أنه في سيناريو الموارد الجزئي مزيجا ساذجا من محولات محولات خاصة بالمجال وغالبا ما ينتج عن النسيان الكارثي باللغات المفقودة. ندرس طرق أخرى للجمع بين المحولات لتخفيف هذه المشكلة وتعظيم التحويل عبر اللغات. من خلال أفضل مجموعات محول لدينا، نحصل على تحسينات من 3-4 بلو في المتوسط ​​لغات المصدر التي لا تملك بيانات داخل المجال. بالنسبة للغات المستهدفة دون بيانات داخل المجال، نحقق تحسن مماثل عن طريق الجمع بين المحولات بالترجمة الخلفي. تتوفر مواد تكميلية في https://tinyurl.com/r66stbxj.
شاركت في WMT مشاركتها الأخبار مهمة الترجمة والتركيز على زوج واحد في لغة الموارد عالية: الإنجليزية والصينية (اتجاهين، صينيين إلى اللغة الإنجليزية والإنجليزية إلى الصينية).تركز الأنظمة المقدمة (Zenghuimt) على تنظيف البيانات، واختيار البيانات، والترجمة مرة أخرى ونموذج النموذج.تتضمن التقنيات التي استخدمتها لتصفية البيانات والاختيار التصفية حسب القواعد ونموذج اللغة ومحاذاة Word.لقد استخدمت نموذجا أساسا للترجمة المدربين على Corpus الأولي للحصول على الإصدارات المستهدفة من مجموعات اختبار WMT21، ثم استخدمت نماذج اللغة لمعرفة البيانات أحادية الأبدية التي تشبه الإصدار المستهدف من مجموعة الاختبار، ثم تم استخدام هذه البيانات الأحاديةللقيام الترجمة مرة أخرى.في مجموعة الاختبار، تحقيق أفضل أنظمة بلدي المقدمة 35.9 و 32.2 بلو للإنجليزية إلى اتجاهات اللغة الإنجليزية والصينية إلى الإنجليزية على التوالي، وهي مرتفعة للغاية بالنسبة لطراز صغير.
مع التقدم في نماذج اللغة العصبية، تحول تركيز إجراءات الاختاذ اللغوية من النهج القائمة على الأجيال القائمة على الأجيال.في حين أن قدرة الحمولة الأخيرة في الحمولة مثيرة للإعجاب، تظل توليد النصوص الحقيقية مظاهرة تحديا.في هذه الورقة، نقوم بإعادة النظر في إجراء إخفاء التشريطات اللغوي المستندة إلى التحرير، مع فكرة أن نموذج لغة مانع يوفر حل خارج الرف.الطريقة المقترحة تلغي بناء القاعدة المضنية ولديها قدرة حمولة عالية للنموذج المستند إلى التحرير.يظهر أيضا أنه أكثر أمانا ضد الكشف التلقائي من الأسلوب القائم على الجيل أثناء تقديم سيطرة أفضل على إيقاف تشغيل سعة الحمولة / الحمولة الأمنية.
نحن ندرس مشكلة تكيف المجال في الترجمة الآلية العصبية (NMT) عند مشاركة البيانات الخاصة بالمجال بسبب سرية أو مشكلات حقوق النشر.كخطوة أولى، نقترح بيانات الشظية في أزواج العبارة واستخدام عينة عشوائية لحن نموذج NMT عام بدلا من الجمل الكاملة.على الرغم من ف قدان شرائح طويلة من أجل حماية السرية، نجد أن جودة NMT يمكن أن تستفيد كثيرا من هذا التكيف، وأنه يمكن الحصول على مزيد من المكاسب مع تقنية علامات بسيطة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا