ترغب بنشر مسار تعليمي؟ اضغط هنا

أحد الجوانب المركزية لنماذج اللغة السياقية هو أنه ينبغي أن يكون قادرا على التمييز بين معنى الكلمات الغامضة من قبل سياقاتهم. في هذه الورقة، نقوم بالتحقيق في مدى تشكيلات الكلمات السياقية التي تشكل تعدد التعدد المعني بالضمان التقليدي من Polysemy ومجهلي. تحقيقا لهذه الغاية، نقدم مجموعة بيانات ممتدة ومشروحة للإنسان من التشابه بين الكلمة المعززة ومقبولية التعاونية، وتقييم مدى جودة تشابه المضبوط يتوقع التشابه في المعنى. تشير كلا النوعين من الأحكام البشرية إلى أن تشابه تفسيرات البلاثي يسقط في متواصل بين هوية المعنى والمجانسة. ومع ذلك، نلاحظ أيضا اختلافات كبيرة في تصنيفات التشابه من PolySemes، وتشكيل أنماط ثابتة لأنواع مختلفة من بديل الشعور بالسلاسة. وهكذا يبدو أن مجموعة البيانات الخاصة بنا هي التقاط جزء كبير من تعقيد الغموض المعجمي، ويمكن أن توفر سرير اختبار واقعي للمشروعات السياقية. من بين النماذج التي تم اختبارها، تظهر بيرت كبيرة أقوى ارتباطا مع تصنيفات تشابه تشابه الكلمة المجمعة، ولكن النضالات لتكرار أنماط التشابه الملاحظة باستمرار. عند تجميع نماذج كلمات غامضة تستند إلى ادباتهم، يعرض النموذج ثقة عالية في تماثيل متفائل وبعض أنواع بدائل البلاستيك، ولكن يفشل باستمرار للآخرين.
نقدم نهجا جديدا محاطا جديدا موجه للنمذجة اللغوية متعددة الوثائق، حيث تتضمن أفكيرا رئيسيتين في النمذجة اللغوية المشنقة بالهدف الإشراف على الذات.أولا، بدلا من النظر في الوثائق في العزلة، نحن نتفق مع مجموعات من المستندات المتعددة المتعددة، تشجيع النموذج على تعلم العلاقات عبر الوثائق.ثانيا، نحسن أكثر من المحولات الطويلة المدى حديثا عن طريق إدخال اهتمام عالمي ديناميكي يتمكن من الوصول إلى الإدخال بأكمله للتنبؤ بالرموز الملثم.نقوم بإصدار CDLM (نموذج اللغة عبر المستندات)، وهو نموذج لغة عام جديد لإعداد متعدد الوثائق يمكن تطبيقه بسهولة على مهام المصب.يوضح تحليلنا الواسع أن كلا الأفكار ضرورية لنجاح CDLM، والعمل في تآزر لتعيين نتائج جديدة من الفنون الجديدة لعدة مهام متعددة النص.
مع الانفراج الأخير لتكنولوجيات التعلم العميق، اجتذبت البحث عن الفهم في قراءة الآلة (MRC) اهتماما كبيرا ووجدت تطبيقاتها متعددة الاستخدامات في العديد من حالات الاستخدام. MRC هي مهمة مهمة لمعالجة اللغة الطبيعية (NLP) تهدف إلى تقييم قدرة الجهاز لفهم تعبي رات اللغة الطبيعية، والتي يتم تشغيلها عادة عن طريق طرح الأسئلة أولا بناء على فقرة نصية معينة ثم تلقي الإجابات التي تم إنشاؤها بواسطة الجهاز وفقا ل إعطاء الفقرة والأسئلة السياق. في هذه الورقة، نستفيد نماذج لغة رواية روبيتين تم بناؤها على رأس تمثيلات التشفير الثنائية من المحولات (بيرت)، وهي بيرت WWM و Macbert، لتطوير أساليب MRC الفعالة. بالإضافة إلى ذلك، نسعى أيضا إلى التحقيق في ما إذا كان قد يستفيد التأسيس الإضافي للمعلومات الفئوية حول فقرة السياق MRC أم لا، والتي تحققت، على أساس تجميع الفقرة السياق على مجموعة بيانات التدريب. من ناحية أخرى، يقترح نهج التعلم الفرعي تسخير القوة التآزرية للنماذج التي تعتمد على برت المذكور أعلاه من أجل زيادة تعزيز أداء MRC.
جعلت النماذج المدربة مسبقا مثل تمثيل التشفير ثنائي الاتجاه من المحولات (بيرت)، قفزة كبيرة إلى الأمام في مهام معالجة اللغة الطبيعية (NLP).ومع ذلك، لا تزال هناك بعض أوجه القصور في مهمة نمذجة اللغة المعقدة (MLM) التي يؤديها هذه النماذج.في هذه الورقة، نق دم أول رسم بياني متعدد الأنواع بما في ذلك أنواع مختلفة من العلاقات بين الكلمات.بعد ذلك، نقترح النموذج متعدد الرسوم البياني المعزز (MG-BERT) نموذجا يعتمد على بيرتف.تضمين MG-BERT تضمين الرموز الرموز أثناء الاستفادة من الرسم البياني الثابت متعدد الرسوم البيانية التي تحتوي على حوادث مشتركة عالمية في نصوص النص بجانب الحقائق العالمية الحقيقية العالمية حول الكلمات الموجودة في رسوم المعرفة.يستخدم النموذج المقترح أيضا رسم بياني جملة ديناميكية لالتقاط السياق المحلي بشكل فعال.تظهر النتائج التجريبية أن طرازنا يمكن أن يعزز بشكل كبير الأداء في مهمة الامتيازات.
تقدم هذه الورقة أول دراسة حول استخدام نماذج اللغة المدربة مسبقا على نطاق واسع للجيل الآلي من الرسم البياني الصخم على مستوى الحدث للحصول على مستند. على الرغم من النجاح الهائل لأساليب ما قبل التدريب العصبي في مهام NLP، لم يتم استكشاف إمكاناتها للمنطق ا لزمني على الرسوم البيانية في الأحداث بما فيه الكفاية. جزء من السبب هو صعوبة في الحصول على شركة تدريبية كبيرة مع أحداث مشروح بين الإنسان والروابط الزمنية. نحن نتطلع إلى هذا التحدي باستخدام أدوات IE / NLP الحالية لتوليد كمية كبيرة تلقائيا (89،000) من أزواج المستند المستندات المنتجة للنظام، واقتراح صياغة رواية لمشكلة جيل الرسم البياني للسياق كقوة تعيين تسلسل إلى تسلسل. تمكننا هذه الاستراتيجيات من الاستفادة من النماذج اللغوية التي تم تدريبها مسبقا على بيانات التدريب التي يسببها النظام المهمة لتوليد الرسم البياني. تظهر تجاربنا أن نهجنا فعال للغاية في توليد رسوم بيانية صحيحة هيكليا وذات رأسيا. علاوة على ذلك، يوضح التقييم على Corpus تحديا يدويا عن طريق اليد، أن أسلوبنا تتفوق على أقرب طريقة موجودة من خلال هامش كبير على عدة مقاييس. نعرض أيضا تطبيقا نهرما لنهجنا من خلال تكييفه للإجابة على الأسئلة الزمنية المفتوحة في إعداد فهم القراءة.
تظهر الأعمال الحديثة أن هيكل الرسم البياني للجملات، التي تم إنشاؤها من محلل التبعية، لديها إمكانات لتحسين اكتشاف الحدث.ومع ذلك، فإنهم غالبا ما يستفيدون فقط من الحواف (التبعيات) بين الكلمات، وتجاهل ملصقات التبعية (على سبيل المثال، الموضوع الاسمي)، معا ملة حواف الرسم البياني الأساسي على أنها متجانسة.في هذا العمل، نقترح إطارا جديدا لإدماج كل من التبعيات والملصقات الخاصة بهم باستخدام تقنية اقترح مؤخرا تسمى شبكة محول الرسم البياني (GTN).نحن ندمج GTN للاستفادة من علاقات التبعية على نماذج مستقلة من الرسوم البيانية الحالية وتظهر تحسن في درجة F1 على مجموعة بيانات ACE.
مجرر أن نقدم نمذجة اللغة المنطوقة الإندنية، ومهمة تعلم الخصائص الصوتية واللغوية للغة من الصوت الخام (لا توجد نص، لا ملصقات)، ومجموعة من المقاييس لتقييم التمثيلات المستفادة تلقائيا على المستويات الصوتية واللغوية لكلا الترميزوالجيل.أنشأنا أنظمة أساسية تتكون من تشفير خطاب منفصل (وحدات النص الزائفة العائدين)، وهي نموذج لغة تابعة له (تدرب على النص الزائف)، وحديد فك الكلام (توليد موجة موجلة من النص الزائف) جميعها مدربة دون إشراف والتحقق من صحةالمقاييس المقترحة مع التقييم البشري.عبر 3 تشفير الكلام (CPC، WAV2VEC 2.0، HUBERT)، نجد أن عدد الوحدات المنفصلة (50 أو 100 أو أو 200) مسائل في طريقة تعتمد على المهام والتشييد، وأن بعض المجموعات نهج النظم القائمة على النصوص.1.
دراسات مسبقة مجردة في النمذجة اللغوية متعددة اللغات (على سبيل المثال، كوتريل وآخرون، 2018؛ Mielke et al.، 2019) لا أوافق على ما إذا كانت مورفولوجيا الانهيار أو لا تجعل اللغات أكثر صعوبة في النموذج.نحاول حل الخلاف وتوسيع تلك الدراسات.نقوم بتجميع أكبر من كائن أكبر من 145 ترجمة للكتاب المقدس في 92 لغة وعدد أكبر من الميزات النموذجية .1 نقوم بملء البيانات النموذجية المفقودة لعدة لغات والنظر في تدابير تعتمد على Corpus من التعقيد المورفولوجي بالإضافة إلى الميزات النموذجية التي يتم إنتاجها من الخبراء.نجد أن العديد من التدابير المورفولوجية مرتبطة بشكل كبير بزيادة مفاجأة عندما يتم تدريب نماذج LSTM مع بيانات مجزأة BPE.نحقق أيضا استراتيجيات تجزئة الكلمات الفرعية ذات الدوافع اللغوية مثل مورفيسور ومحولات محولات الحالة المحدودة (FSTS) وتجد أن هذه استراتيجيات التجزئة تسفر عن أداء أفضل وتقليل تأثير مورفولوجيا اللغة على نمذجة اللغة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا