ترغب بنشر مسار تعليمي؟ اضغط هنا

أظهرت نماذج الشبكة العصبية المستندة إلى ما يحقظ أن عروض حديثة (SOTA) على مهام معالجة اللغة الطبيعية (NLP). تعد تمثيل الجملة الأكثر استخداما لأساليب NLP ذات الاستخدام العصبي سلسلة من الكلمات الفرعية المختلفة عن تمثيل الجملة من الأساليب غير العصبية الت ي يتم إنشاؤها باستخدام تقنيات NLP الأساسية، مثل العلامات على جزء من الكلام (POS)، اسمه الكيان (NE) الاعتراف، والتحليل. تتلقى معظم نماذج NLP ذات القائمة العصبية فقط ناقلات ترميزها من سلسلة من الكلمات الفرعية التي تم الحصول عليها من نص الإدخال. ومع ذلك، لا يمكن الحصول على معلومات NLP الأساسية، مثل علامات نقاط البيع، ونتائج NES، وتحليل النتائج، إلخ، بشكل صريح من النص الكبير غير المستخديم المستخدمة في النماذج المستندة إلى ما يحقظ. تستكشف هذه الورقة استخدام NES على مهمتين يابانيين؛ تصنيف المستندات والجيل الرئيسي باستخدام النماذج القائمة على المحولات، للكشف عن فعالية معلومات NLP الأساسية. تظهر النتائج التجريبية مع ثمانية NES أساسية وحوالي 200 نسمة موسعة أن NES يحسن الدقة على الرغم من استخدام نموذج كبير يستند إلى الاحتمالات المدربة باستخدام بيانات نصية 70 جيجابايت.
تحفز الوجود الواسع للغة الهجومية على وسائل التواصل الاجتماعي تطوير أنظمة قادرة على الاعتراف بهذا المحتوى تلقائيا.بصرف النظر عن بعض الاستثناءات البارزة، فإن معظم الأبحاث حول تحديد اللغة الهجومية التلقائية تعامل مع اللغة الإنجليزية.لمعالجة هذا القصور، نقدم العفن، مجموعة بيانات اللغة المهاراتية الهجومية.القالب هو أول مجموعة بيانات من نوعها مترجمة للأمراثي، مما يفتح مجالا جديدا للبحث في لغات Indo-Arian منخفضة الموارد.نقدم النتائج من العديد من تجارب التعلم الآلي على هذه البيانات، بما في ذلك تجارب التعلم الصفر القصيرة وغيرها من عمليات التعلم على المحولات عبر اللغات الحديثة من البيانات الحالية في البنغالية والإنجليزية والهندية.
يمكن أن نطاقات اللغة العصبية التي تدركها القبض على العلاقة بين الكلمات من خلال استغلال معلومات مستوى الطابع وهي فعالة بشكل خاص للغات مع التشكل الغني.ومع ذلك، عادة ما تكون هذه النماذج متحيزة باتجاه المعلومات من أشكال السطح.لتخفيف هذه المشكلة، نقترح طر يقة بسيطة وفعالة لتحسين نموذج اللغة العصبي على الحرف من خلال إجبار ترميز الأحرف لإنتاج شرائح قائمة على الكلمات تحت بنية Skip-Gram في خطوة الاحماء دون بيانات تدريب إضافية.نظرا لإيبربريكيا أن نموذج اللغة العصبي الإدراك على الطابع الناتج يحقق تحسينات واضحة لدرجات الحيرة على لغات متنوعة من النطبية، والتي تحتوي على العديد من الكلمات منخفضة التردد أو غير المرئي.
حدد اللغويين التاريخيون منتظمين في عملية تغيير الصوت التاريخي.تستخدم الطريقة المقارنة تلك الأوستانتيات لإعادة بناء الكلمات البروتو بناء على النماذج الملحوظة بلغات الابنة.هل يمكن أن تتألف هذه العملية بكفاءة؟نحن نبذة عن مهمة إعادة إعمار بروتو كلمة، وال تي يتعرض فيها النموذج للدراجات في لغات ابنة المعاصرة، ويتعين عليها التنبؤ بكلمة البروتو في لغة الجد.نحن نقدم مجموعة بيانات جديدة لهذه المهمة، والتي تشمل أكثر من 8000 مداخل مقارنة، وإظهار أن نماذج التسلسل العصبي تفوق الطرق التقليدية المطبقة على هذه المهمة حتى الآن.يكشف تحليل الأخطاء عن تقلب في قدرة النموذج العصبي لالتقاط تغييرات صوتية مختلفة، وارتباطا بعقد التغييرات.يكشف تحليل المدينات المستفادة أن نماذج تتعلم التعميمات ذات مغزى لفونيا، مما يتوافق مع التحولات الصوتيات المصادفة جيدا وثقنها اللغويات التاريخية.
تتميز خطاب متماسك من مجرد مجموعة من الكلام من خلال إرضاء مجموعة متنوعة من القيود، على سبيل المثال اختيار التعبير والعلاقة المنطقية بين الأحداث المعلقة والتوافق الضمني مع المعرفة العالمية.هل ترمز نماذج اللغة العصبية هذه القيود؟نقوم بتصميم مجموعة قابلة للتمديد من أجنحة الاختبار التي تتناول جوانب مختلفة من الخطاب والتماسك الحوار.على عكس معظم دراسات تقييم التماسك السابق، فإننا نتعامل مع الأجهزة اللغوية المحددة وراء اضطرابات أمر الجملة، والتي تسمح بتحليل أكثر غرامة لما يشكل الاتساق وما هي النماذج العصبية المدربة على هدف نمذجة اللغة قادرة على الترميز.تمديد نموذج التقييم المستهدف لنماذج اللغة العصبية (مارفين ولينزن، 2018) إلى الظواهر بعد بناء الجملة، نظين على أن هذا النموذج مناسب بنفس القدر لتقييم الصفات اللغوية التي تسهم في مفهوم التماسك.
تقدم هذه الورقة أول دراسة حول استخدام نماذج اللغة المدربة مسبقا على نطاق واسع للجيل الآلي من الرسم البياني الصخم على مستوى الحدث للحصول على مستند. على الرغم من النجاح الهائل لأساليب ما قبل التدريب العصبي في مهام NLP، لم يتم استكشاف إمكاناتها للمنطق ا لزمني على الرسوم البيانية في الأحداث بما فيه الكفاية. جزء من السبب هو صعوبة في الحصول على شركة تدريبية كبيرة مع أحداث مشروح بين الإنسان والروابط الزمنية. نحن نتطلع إلى هذا التحدي باستخدام أدوات IE / NLP الحالية لتوليد كمية كبيرة تلقائيا (89،000) من أزواج المستند المستندات المنتجة للنظام، واقتراح صياغة رواية لمشكلة جيل الرسم البياني للسياق كقوة تعيين تسلسل إلى تسلسل. تمكننا هذه الاستراتيجيات من الاستفادة من النماذج اللغوية التي تم تدريبها مسبقا على بيانات التدريب التي يسببها النظام المهمة لتوليد الرسم البياني. تظهر تجاربنا أن نهجنا فعال للغاية في توليد رسوم بيانية صحيحة هيكليا وذات رأسيا. علاوة على ذلك، يوضح التقييم على Corpus تحديا يدويا عن طريق اليد، أن أسلوبنا تتفوق على أقرب طريقة موجودة من خلال هامش كبير على عدة مقاييس. نعرض أيضا تطبيقا نهرما لنهجنا من خلال تكييفه للإجابة على الأسئلة الزمنية المفتوحة في إعداد فهم القراءة.
أصبحت نماذج لغة كبيرة مسببة الاحترام باستخدام بنية الشبكة العصبية المحولات هي منهجية مهيمنة للعديد من مهام معالجة اللغة الطبيعية، مثل الإجابة على الأسئلة، تصنيف النص، غموض معنى الكلمة، إكمال النص والترجمة الآلية. عادة ما تضم ​​مئات الملايين من المعلم ات، فإن هذه النماذج تقدم أداء حديثة، ولكن على حساب قابلية الترجمة الشفوية. آلية الاهتمام هي العنصر الرئيسي لشبكات المحولات. نقوم بتقديم Attviz، وهي طريقة لاستكشاف اهتمام الذات في شبكات المحولات، والتي يمكن أن تساعد في تفسير وتصحيح الأخطاء من النماذج المدربة من خلال إظهار الجمعيات بين الرموز النصية في تسلسل الإدخال. نظهر أن خطوط أنابيب التعلم العميق الحالية يمكن استكشافها مع Attviz، والذي يوفر تصورات رواية لرؤوس الانتباه وتجميعها. نفذنا الأساليب المقترحة في مجموعة أدوات عبر الإنترنت ومكتبة دون اتصال. باستخدام أمثلة من تحليل الأخبار، نوضح كيف يمكن استخدام ATVIZ للتفتيش والحدوث على فهم أفضل ما تعلمه النموذج.
تتيح أقسام التعليقات للمستخدمين مشاركة تجاربهم الشخصية، ومناقش آراء مختلفة وتشكيلها، وبناء مجتمعات خارج المحادثات العضوية.ومع ذلك، فإن العديد من أقسام التعليقات تقدم ترتيب زمني لجميع المستخدمين.في هذه الورقة، أقوم بمناقشة نهج التخصيص في أقسام التعليق بناء على أهداف مختلفة لرفاعة غرف الأخبار والباحثين.أقترح تصاميم الخوارزميات والواجهة عند تخصيص عرض التعليقات بناء على أهداف مختلفة بما في ذلك الأهمية والتنوع والتعليم / المعلومات الأساسية.اشرح كيف يمكن أن تساعد الشفافية والتحكم في المستخدم ونوع التعليق المستخدمين في الاستفادة من تجربة التتفاعل الشخصية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا