ترغب بنشر مسار تعليمي؟ اضغط هنا

التحقيق نماذج اللغة المدربة مسبقا للسمات الدلالية وقيمها

Probing Pre-trained Language Models for Semantic Attributes and their Values

203   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نماذج اللغة المحددة مسبقا (PTLMS) تسفر عن الأداء الحديث في العديد من مهام معالجة اللغة الطبيعية، بما في ذلك بناء الجملة والدلالات والعموم.في هذه الورقة، نركز على التعرف على أي مدى تلتقط PTLMS السمات الدلالية وقيمها، على سبيل المثال، الارتباط بين القيمة الغنية والعالية الصافية.نستخدم ptlms للتنبؤ الرموز الملثمين باستخدام أنماط وقوائم العناصر من Wikidata من أجل التحقق من مدى احتمال ترميز PTLMS السمات الدلالية جنبا إلى جنب مع قيمها.مثل هذه الاستنتاجات القائمة على دلالات بديهية للبشر كجزء من فهم لغتنا.نظرا لأن PTLMS يتم تدريبها على كمية كبيرة من بيانات ويكيبيديا، فسوف نفترض أنها يمكن أن تولد تنبؤات مماثلة، ومع ذلك تكشف نتائجنا أن PTLMS لا تزال أسوأ بكثير من البشر في هذه المهمة.نوضح الأدلة والتحليل في شرح كيفية استغلال منهجيةنا لدمج سياق ودواني أفضل في PTLMS باستخدام قواعد المعرفة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تحدث نماذج اللغات القائمة على المحولات الحديثة ثورة في NLP. ومع ذلك، كانت الدراسات الحالية في النمذجة اللغوية مع بيرت تقتصر في الغالب على المواد باللغة الإنجليزية ولا تدفع اهتماما كافيا لمعرفة اللغة الضمنية باللغة، مثل الأدوار الدلالية والتفترض واللب ن، والتي يمكن الحصول عليها من قبل النموذج أثناء التدريب. وبالتالي، فإن الهدف من هذه الدراسة هو فحص السلوك لنموذج الموديل في مهمة النمذجة اللغوية الملثمين ولتقديم التفسير اللغوي إلى الآثار والأخطاء غير المتوقعة التي ينتجها النموذج. لهذا الغرض، استخدمنا مجموعة بيانات جديدة باللغة الروسية بناء على النصوص التعليمية للمتعلمين باللغة الروسية والمصفحة بمساعدة الشقوق الوطنية للغة الروسية. من حيث مقاييس الجودة (نسبة الكلمات، ذات الصلة دلالة الكلمة المستهدفة)، يتم التعرف على بيرت متعددة اللغات كأفضل نموذج. بشكل عام، كل طراز لديه نقاط قوة متميزة فيما يتعلق بظاهرة لغوية معينة. هذه الملاحظات لها آثار ذات مغزى على البحث في اللغويات المطبقة والبيتاجوجية، والمساهمة في تطوير نظام الحوار، وجعل التمارين التلقائية، وتجول النص، ويمكن أن يحتمل أن يحسن جودة التقنيات اللغوية الحالية
يتعين على نماذج اللغة المدربة مسبقا (PRLM) لإدارة وحدات الإدخال بعناية عند التدريب على نص كبير جدا مع مفردات تتكون من ملايين الكلمات. أظهرت الأعمال السابقة أن دمج معلومات المسيح على مستوى الأمان بشأن الكلمات المتتالية في التدريب المسبق يمكن أن تحسن أ داء PRLMS. ومع ذلك، بالنظر إلى أن أدلة المسكنات المستفادة مقدمة وإثباتها في التدريب المسبق، فإن الطرق السابقة تستغرق وقتا طويلا ونقص المرونة. لتخفيف الإزعاج، تقدم هذه الورقة طريقة رواية تمتد دقيقة لضبط PRLMS، مما يسهل إعداد SPES يتم تحديده على تكيفه بواسطة مهام معينة من المصب أثناء مرحلة الضبط الجميلة. بالتفصيل، سيتم تجزئة أي جمل تتم معالجتها من قبل PRLM في تمديدات متعددة وفقا لقاموس ما قبل العينات. ثم سيتم إرسال معلومات التجزئة من خلال وحدة CNN الهرمية مع مخرجات التمثيل من PRLM وتولد في نهاية المطاف تمثيلا محسن. تشير التجارب على معيار الغراء إلى أن طريقة ضبط الدقيقة المقترحة تعزز بشكل كبير PRLM، وفي الوقت نفسه، تقدم المزيد من المرونة بطريقة فعالة.
تركز العمل الحالي على التحقيق في نماذج اللغة المحددة مسبقا (LMS) في الغالب على المهام الأساسية على مستوى الجملة.في هذه الورقة، نقدم إجراء خطاب على مستوى المستندات لتقييم قدرة LMS المسبقة على التقاط العلاقات على مستوى المستندات.نقوم بتجربة 7 LMS محددة مسبقا، 4 لغات، و 7 مهام قيد الخطاب، والعثور على بارت ليكون بشكل عام أفضل نموذج في التقاط الخطاب - - ولكن فقط في تشفيرها، مع بيرت أداء بشكل مفاجئ نموذج الأساس.عبر النماذج المختلفة، هناك اختلافات كبيرة في أفضل طبقات في التقاط معلومات خطاب، والتفاوتات الكبيرة بين النماذج.
في هذه الدراسة، نقترح طريقة تعلم الإشراف على الذات التي تطبق تمثيلات معنى الكلمات في السياق من نموذج لغة ملثم مسبقا مسبقا. تعد تمثيلات الكلمات هي الأساس للدلالات المعجمية في السياق وتقديرات التشابه المنصوصية الدلالية غير المرفوعة (STS). تقوم الدراسة السابقة بتحويل التمثيلات السياقية التي تستخدم تضمين كلمة ثابتة لإضعاف الآثار المفرطة لمعلومات السياقية. على النقيض من ذلك، تستمد الأسلوب المقترح على تمثيلات كلمة معنى في السياق مع الحفاظ على معلومات السياق المفيدة سليمة. على وجه التحديد، تتعلم طريقةنا الجمع بين مخرجات الطبقات المخفية المختلفة التي تستخدم الانتباه عن الذات من خلال التعلم الذاتي الخاضع للإشراف مع كائن تدريب تلقائيا تلقائيا. لتقييم أداء النهج المقترح، أجرينا تجارب مقارنة باستخدام مجموعة من المهام القياسية. تؤكد النتائج أن تمثيلاتنا أظهرت أداء تنافسي مقارنة بسلطة حديثة من الأسلوب لتحويل التمثيلات السياقية للمهام الدلالية المعجمية السياقة وتفوقها على تقدير STS.
حققت نماذج اللغة المدربة مسبقا نجاحا كبيرا على مجموعة واسعة من مهام NLP. ومع ذلك، فإن التمثيلات السياقية من النماذج المدربة مسبقا تحتوي على معلومات دلالية ومتنامية متشابكة، وبالتالي لا يمكن استخدامها مباشرة لاستخلاص مدينات جملة دلالية مفيدة لبعض المه ام. تقدم أزواج إعادة صياغة طريقة فعالة لتعلم التمييز بين الدلالات وبناء الجملة، حيث أنهم يشاركون بشكل طبيعي دلالات وغالبا ما يختلف في بناء جملة. في هذا العمل، نقدم Parabart، وهي جملة دلالية تضمين نموذج يتعلم تكديح دلالات ودليل بناء الجملة في مذكرات الجملة التي تم الحصول عليها بواسطة نماذج اللغة المدربة مسبقا. يتم تدريب PARABART على إجراء إعادة صياغة موجهة إلى بناء الجملة، استنادا إلى جملة مصدر تشترك في الدلالات مع إعادة صياغة الهدف، وشجرة تحليل تحدد بناء الجملة المستهدف. وبهذه الطريقة، يتعلم بارابارت تعليم التمثيل الدلالي والمنظمات النحوية من مدخلاتها مع تشفير منفصلة. تبين التجارب باللغة الإنجليزية أن بارابارت تتفوق على الأحكام التي تضم نماذج تضمينها على مهام التشابه الدلالي غير المعدل. بالإضافة إلى ذلك، نظير على أن نهجنا يمكن أن يؤدي إلى إزالة المعلومات النحوية بشكل فعال من تضمين الجملة الدلالية، مما يؤدي إلى متانة أفضل ضد الاختلاف النحوي على المهام الدلالية المصب.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا