ترغب بنشر مسار تعليمي؟ اضغط هنا

التضمين الميداني: إطار موحد في الحبوب القائم على تمثيل Word

Field Embedding: A Unified Grain-Based Framework for Word Representation

592   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تم دراسة تمثيلات الكلمات المخولة بمعلومات لغوية إضافية وأثبت أنها تتفوق على المدينات التقليدية. تركز الأساليب الحالية بشكل رئيسي على تضمينات التعلم للكلمات أثناء تضمينها من المعلومات اللغوية (المشار إليها باسم تضمين الحبوب) بعد التعلم. يقترح هذا العمل تضمين ميداني إطار لإمكانية التعلم بشكل مشترك لكل من وظائف الكلمة والحبوب من خلال دمج المجالات اللغوية المورفولوجية والصوتية والخلوية. يزعم الإطار أن خط أنابيب مبتكرة غرامة يدمج الحقول اللغوية المتعددة وتنتج تسلسلات الحبوب عالية الجودة لتعلم تمثيلات الكلمات العليا. تم تصميم خوارزمية رواية أيضا لتعلم المدينات للكلمات والحبوب عن طريق التقاط المعلومات الواردة داخل كل مجال ويتم تقاسمها عبرها. النتائج التجريبية للمهام المعجمية ومهام معالجة اللغة الطبيعية المصب توضح أن إطار عملنا يمكن أن يتعلم أفضل تضمين الوزراء وشرح الحبوب. التقييمات النوعية تظهر تضييق الحبوب التقاط المعلومات الدلالية بشكل فعال.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

لا يمكن أن تلتقط نماذج تمثيل اللغة المدربة مسبقا مجردة مسبقا (PLMS) بشكل جيد معرفة واقعية من النص. في المقابل، يمكن أن تمثل طرق تضمين المعرفة (KE) بشكل فعال الحقائق العلائقية في الرسوم البيانية المعرفة (KGS) مع تضمينات كيانات مفيدة، لكن نماذج كيد الت قليدية لا يمكنها الاستفادة الكاملة من المعلومات النصية الوفيرة. في هذه الورقة، نقترح نموذجا موحدا لتضمين المعرفة و LanguagereTresentation المعرفي (Kepler)، والذي لا يمكن أن يدمج المعرفة الواقعية بشكل أفضل فقط في PLMS ولكنه ينتج أيضا كه معزز نصيا فعالا مع PLMS القوي. في Kepler، نقوم بتشفير أوصاف الكيان النصي مع PLM كأنبات، ثم قم بتحسين أهداف النمذجة Ke واللغة المشتركة. تظهر النتائج التجريبية أن Kepler يحقق أدائها الحديثة في مهام NLP المختلفة، ويعمل أيضا بشكل ملحوظ كنموذج كه حثي على التنبؤ بربط KG. علاوة على ذلك، بالنسبة إلى ما قبل التدريب وتقييم Kepler، فإننا نبني Wikidata5M1، ومجموعة بيانات KG واسعة النطاق مع أوصاف كيان محاذاة، وأساليب KE-the-the-the-the-the-the-benchmark على ذلك. يجب أن تكون بمثابة مرجع كيد جديد وتسهيل البحث في كجم كبير، حثي كه، و KG مع النص. يمكن الحصول على شفرة المصدر من https://github.com/thu-keg/kepler.
تم اقتراح نماذج إتمام المعرفة الزمنية المختلفة (KG) في الأدب الحديث. تحتوي النماذج عادة على جزأين، وهي طبقة تضمين زمنية ووظيفة نتيجة مشتقة من نهج النمذجة الثابتة الحالية. نظرا لأن النهج تختلف عدة أبعاد، بما في ذلك وظائف النتيجة المختلفة واستراتيجيات التدريب، فإن المساهمات الفردية في تقنيات التضمين الزمنية المختلفة لنموذج الأداء ليست واضحة دائما. في هذا العمل، ندرس بشكل منهجي ستة مناهج تضمين الزمنية وقياس أدائها تجريبيا عبر مجموعة واسعة من التكوينات مع حوالي 3000 تجربة و 13159 ساعة GPU. نقوم بتصنيف الأشرطة الزمنية إلى فئتين: (1) embeddings timestamp و (2) تضمين كيان تعتمد على الوقت. على الرغم من الاعتقاد المشترك بأن الأخير أكثر تعبيرية، تظهر دراسة تجريبية واسعة النطاق أن تضمين الطابع الزمني يمكن أن تحقق أداء على قدم المساواة أو أفضل مع المعلمات أقل بكثير. علاوة على ذلك، نجد أنه عند التدريب بشكل مناسب، غالبا ما تتقلص فروق الأداء النسبية بين مختلف الأشرطة الزمنية وأحيانا حتى عكسها عند مقارنتها بالنتائج السابقة. على سبيل المثال، يمكن أن تتفوق TTRANSE (CIRING)، واحدة من نماذج KG الزمنية الأولى، الفضلات الأخرى في مجال بيانات ICEWS. لتعزيز المزيد من الأبحاث، نحن نقدم أول إطار موحد مفتوح المصدر لنماذج إكمال KG الزمنية مع توصيف كامل، حيث يمكن الجمع بين المدينين الزمني ووظائف النتيجة ووظائف الخسائر والدعوانات والنمذجة الصريحة للعلاقات المتبادلة بشكل تعسفي.
يتم تعريف مهمة الكشف عن الفقاعات السامة (TSD) على أنها تسليط الضوء على يمتد يمتد النص السام.تم إجراء العديد من الأعمال لتصنيف تعليق أو وثيقة معينة على أنها سامة أو غير سامة.ومع ذلك، لا تعمل أي من هذه النماذج المقترحة على مستوى الرمز المميز.في هذه الو رقة، نقترح وحدة متكررة ثنائية الاهتمام بالانتباه (BIGRU) مع تمثيل متعدد التضمين للرموز.يثري نموذجنا المقترح التمثيل بمزيج من GPT-2، قفاز، و Aroperta Ageddings، مما أدى إلى نتائج واعدة.تظهر النتائج التجريبية أن نهجنا المقترح فعال للغاية في الكشف عن الرموز المميزة.
نماذج اللغة العصبية، بما في ذلك النماذج القائمة على المحولات، والتي تدرب مسبقا على كوربورا كبيرة جدا أصبحت وسيلة شائعة لتمثيل النص في مهام مختلفة، بما في ذلك الاعتراف بالعلاقات الدلالية النصية، على سبيل المثال نظرية هيكل الوثائق عبر المستندات. عادة م ا تكون النماذج المدربة مسبقا عادة ما يتم ضبطها على مهام المصب وتستخدم ناقلات تم الحصول عليها كمدخلات للصفين العصبي العميق. لا توجد معرفة لغوية تم الحصول عليها من الموارد والأدوات. في هذه الورقة، نقارن هذه النهج الشاملة بمجموعة من تمثيل الجملة الدوافع التي تعتمد على الرسم البياني الغني في الرسم البياني والشبكة العصبية النموذجية المطبقة على مهمة الاعتراف بعقود CST في البولندية. يصف التمثيل مستويات مختارة من هيكل الجملة بما في ذلك وصف المعاني المعجمية على أساس أجهزة WordNet (PLWOLNET) ومفاهيم Sumo المتصلة. تظهر النتائج التي تم الحصول عليها أنه في حالة العلاقات الصعبة والتدريب المتوسطة الحجم تمثيل النص المخصب من الناحية الدلوية يؤدي إلى نتائج أفضل بكثير.
في هذا العمل، نصف جهودنا في تحسين مجموعة متنوعة من اللغات الناتجة عن نظام NLG القائم على القواعد للصحافة الآلية.نقدم اقترابين: واحد استنادا إلى إدراج كلمات جديدة تماما في جمل تم إنشاؤها من القوالب، وآخر بناء على استبدال الكلمات بالمرادفات.تشير نتائجن ا الأولية من التقييم البشري الذي أجري باللغة الإنجليزية إلى أن هذه الأساليب تحسن بنجاح من مجموعة متنوعة من اللغة دون تعديل معنى الجملة.ونحن نقدم أيضا اختلافات في الأساليب المطبقة على لغات الموارد المنخفضة، محاكاة هنا باستخدام الفنلندية، حيث يتم تسخير شركات التفاوية المحاذاة عبر اللغات للاستفادة من الموارد اللغوية بلغة عالية الموارد.يشير التقييم البشري إلى أنه بينما تظهر الأساليب المقترحة إمكانية في حالة الموارد المنخفضة، هناك حاجة إلى عمل إضافي لتحسين أدائها.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا