ترغب بنشر مسار تعليمي؟ اضغط هنا

اشتقاق ناقلات الكلمات من نماذج اللغة السياقية باستخدام تحديد الموضوع

Deriving Word Vectors from Contextualized Language Models using Topic-Aware Mention Selection

252   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أحد التحديات الطويلة الأمد في الدلالات المعجمية يتكون في تعلم تمثيلات الكلمات التي تعكس خصائصها الدلالية. يشير النجاح الرائع لمشروع Word لهذا الغرض إلى أنه يمكن الحصول على تمثيلات عالية الجودة من خلال تلخيص سياقات الجملة الخاصة بذكر Word. في هذه الورقة، نقترح طريقة لتعلم تمثيلات الكلمات التي تتبع هذه الاستراتيجية الأساسية، ولكنها تختلف عن تضمين الكلمة القياسية بطريقتين مهمتين. أولا، نستفصل من نماذج اللغة السياقية (CLMS) بدلا من أكياس من مجاهد Word لتشفير السياقات. ثانيا، بدلا من تعلم كلمة متجه كلمة مباشرة، نستخدم نموذجا موضوعا لتقسيم السياقات التي تظهر الكلمات التي تظهر فيها الكلمات، ثم تعلم ناقلات موضوعية مختلفة لكل كلمة. أخيرا، نستخدم إشارة إشراف خاصة بمهام مهمة لإجراء مجموعة ناعمة من المتجهات الناتجة. نظرا لأن هذه الاستراتيجية البسيطة تؤدي إلى ناقلات Word عالية الجودة، والتي تعد أكثر تنبؤا بالخصائص الدلالية أكثر من Adgeddings والاستراتيجيات القائمة على CLM.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

وضعت النماذج المستندة إلى بنية المحولات، مثل بيرت، خطوة حاسمة إلى الأمام في مجال معالجة اللغة الطبيعية. الأهم من ذلك، فإنها تسمح بإنشاء Adgeddings Word التي تلتقط معلومات دهالية مهمة حول الكلمات في السياق. ومع ذلك، ككيانات واحدة، من الصعب تفسير هذه ا لأشرطة وتفسير النماذج المستخدمة لإنشاءها بأنها غير مبتمة. اقترح الموثق والزملاء مساحة تضمين بديهية حيث يعتمد كل بعدا على واحدة من 65 من الميزات الدلالية الأساسية. لسوء الحظ، توجد المساحة فقط لمجموعة بيانات صغيرة من 535 كلمة، مما يحد من استخداماتها. العمل السابق (UTSUMI، 2018، 2020؛ Turton et al.، 2020)، أظهر أن ميزات الموثق يمكن استخلاصها من المدينات الثابتة واستقلاعها بنجاح لمفردات جديدة كبيرة. اتخاذ الخطوة التالية، توضح هذه الورقة أن ميزات الموثق يمكن أن تستمد من مساحة تضمين بيرت. هذا يوفر شيئين؛ (1) قيم ميزة الدلالية المستمدة من Adgeddings Word السياقي و (2) رؤى في كيفية تمثيل الميزات الدلالية عبر طبقات مختلفة من نموذج Bert.
في هذه الدراسة، نقترح طريقة تعلم الإشراف على الذات التي تطبق تمثيلات معنى الكلمات في السياق من نموذج لغة ملثم مسبقا مسبقا. تعد تمثيلات الكلمات هي الأساس للدلالات المعجمية في السياق وتقديرات التشابه المنصوصية الدلالية غير المرفوعة (STS). تقوم الدراسة السابقة بتحويل التمثيلات السياقية التي تستخدم تضمين كلمة ثابتة لإضعاف الآثار المفرطة لمعلومات السياقية. على النقيض من ذلك، تستمد الأسلوب المقترح على تمثيلات كلمة معنى في السياق مع الحفاظ على معلومات السياق المفيدة سليمة. على وجه التحديد، تتعلم طريقةنا الجمع بين مخرجات الطبقات المخفية المختلفة التي تستخدم الانتباه عن الذات من خلال التعلم الذاتي الخاضع للإشراف مع كائن تدريب تلقائيا تلقائيا. لتقييم أداء النهج المقترح، أجرينا تجارب مقارنة باستخدام مجموعة من المهام القياسية. تؤكد النتائج أن تمثيلاتنا أظهرت أداء تنافسي مقارنة بسلطة حديثة من الأسلوب لتحويل التمثيلات السياقية للمهام الدلالية المعجمية السياقة وتفوقها على تقدير STS.
أحد الجوانب المركزية لنماذج اللغة السياقية هو أنه ينبغي أن يكون قادرا على التمييز بين معنى الكلمات الغامضة من قبل سياقاتهم. في هذه الورقة، نقوم بالتحقيق في مدى تشكيلات الكلمات السياقية التي تشكل تعدد التعدد المعني بالضمان التقليدي من Polysemy ومجهلي. تحقيقا لهذه الغاية، نقدم مجموعة بيانات ممتدة ومشروحة للإنسان من التشابه بين الكلمة المعززة ومقبولية التعاونية، وتقييم مدى جودة تشابه المضبوط يتوقع التشابه في المعنى. تشير كلا النوعين من الأحكام البشرية إلى أن تشابه تفسيرات البلاثي يسقط في متواصل بين هوية المعنى والمجانسة. ومع ذلك، نلاحظ أيضا اختلافات كبيرة في تصنيفات التشابه من PolySemes، وتشكيل أنماط ثابتة لأنواع مختلفة من بديل الشعور بالسلاسة. وهكذا يبدو أن مجموعة البيانات الخاصة بنا هي التقاط جزء كبير من تعقيد الغموض المعجمي، ويمكن أن توفر سرير اختبار واقعي للمشروعات السياقية. من بين النماذج التي تم اختبارها، تظهر بيرت كبيرة أقوى ارتباطا مع تصنيفات تشابه تشابه الكلمة المجمعة، ولكن النضالات لتكرار أنماط التشابه الملاحظة باستمرار. عند تجميع نماذج كلمات غامضة تستند إلى ادباتهم، يعرض النموذج ثقة عالية في تماثيل متفائل وبعض أنواع بدائل البلاستيك، ولكن يفشل باستمرار للآخرين.
تم إلقاء اللوم على الاستقطاب المتزايد لوسائل الإعلام الإخبارية بسبب عدم الخلاف والجدل وحتى العنف. وبالتالي فإن التعرف المبكر للمواضيع المستقطبة هو مسألة عاجلة يمكن أن تساعد في تخفيف الصراع. ومع ذلك، لا يزال القياس الدقيق للاستقطاب الحكيم في الموضوع ت حديا للبحث المفتوح. لمعالجة هذه الفجوة، نقترح Eptisanship-Aware السياقي الموضوع (PACTE)، وهي طريقة للكشف تلقائيا عن الموضوعات المستقطبة من مصادر الأخبار الحزبية. على وجه التحديد، باستخدام نموذج لغة تم تصنيعه حول التعرف على حزب المقالات الإخبارية، نمثل أيديولوجية لجنة أخبار حول موضوع من خلال تضمين موضوع Corpus-contentralized وقياس الاستقطاب باستخدام مسافة جيبوز. نحن نطبق طريقنا إلى مجموعة بيانات من المقالات الإخبارية حول جائحة CovID-19. تظهر تجارب واسعة على مصادر وأخبار مختلفة ومواضيع فعالية طريقتنا لالتقاط الاستقطاب الموضعي، كما هو موضح بفعاليتها لاسترجاع أكثر الموضوعات المستقطبة.
اجتذبت نجاح نماذج اللغة السياقية واسعة النطاق اهتماما كبيرا بتحقيق ما يتم ترميزه في تمثيلاتهم.في هذا العمل، نعتبر سؤالا جديدا: إلى أي مدى يتم محاذاة تمثيل السياق للأسماء الخرسانية مع التمثيلات المرئية المقابلة؟نقوم بتصميم نموذج التحقيق الذي يقيم مدى فعالية تميز النصوص النصية فقط في التمييز بين مطابقة العروض المرئية غير المطابقة.تظهر النتائج الخاصة بنا أن تمثيلات اللغة وحدها توفر إشارة قوية لاسترداد تصحيحات الصورة من فئات الكائنات الصحيحة.علاوة على ذلك، فهي فعالة في استرداد حالات محددة من بقع الصور؛يلعب السياق النصي دورا مهما في هذه العملية.نماذج اللغة الترطفة بصريا تتفوق قليلا على نماذج اللغة النصية فقط في حالة استرجاع مثيل، ولكن تحت أداء البشر بشكل كبير.نأمل أن تلهم تحليلاتنا بالبحث في المستقبل في فهم وتحسين القدرات البصرية لنماذج اللغة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا