يمكن أن تكون أنظمة NLP المستندة إلى التعلم العميق حساسة للرموز غير المرئية ويصعب التعلم مع المدخلات عالية الأبعاد التي تعيق التعلم بشكل خطير.نقدم نهجا من خلال تجميع كلمات الإدخال على أساس التنوع الدلالي الخاص بهم لتبسيط تمثيل لغة الإدخال مع غموض منخفض.نظرا لأن الكلمات المتنوعة الدلوية موجودة في سياقات مختلفة، فإننا قادرون على استبدال الكلمات مع مجموعاتهم وما زالت تميز معاني الكلمة التي تعتمد على سياقاتها.نقوم بتصميم العديد من الخوارزميات التي تحسب تجمعات متنوعة تستند إلى أخذ العينات العشوائية، مسافات هندسية، وتعظيم انتروبيا، ونثبت ضمانات رسمية للخوارزميات القائمة على الانتروبوي.تظهر النتائج التجريبية أن أساليبنا تعمم طرازات NLP وإظهار الدقة المعززة على وضع علامات نقاط البيع ومهام LM وتحسينات كبيرة على مهام الترجمة الآلية المتوسطة الحجم، ما يصل إلى +6.5 نقطة بلو.يتوفر شفرة المصدر لدينا في https://github.com/abdulrafae/dg.
Deep Learning-based NLP systems can be sensitive to unseen tokens and hard to learn with high-dimensional inputs, which critically hinder learning generalization. We introduce an approach by grouping input words based on their semantic diversity to simplify input language representation with low ambiguity. Since the semantically diverse words reside in different contexts, we are able to substitute words with their groups and still distinguish word meanings relying on their contexts. We design several algorithms that compute diverse groupings based on random sampling, geometric distances, and entropy maximization, and we prove formal guarantees for the entropy-based algorithms. Experimental results show that our methods generalize NLP models and demonstrate enhanced accuracy on POS tagging and LM tasks and significant improvements on medium-scale machine translation tasks, up to +6.5 BLEU points. Our source code is available at https://github.com/abdulrafae/dg.
المراجع المستخدمة
https://aclanthology.org/
تتمثل مهمة البحث في التعليمات البرمجية الدلالية في استرداد مقتطفات التعليمات البرمجية من Corpus التعليمات البرمجية المصدر بناء على حاجة المعلومات المعبر عنها باللغة الطبيعية.إن الفجوة الدلالية بين اللغات الطبيعية ولغات البرمجة قد تعتبر منذ فترة طويلة
تجزئة الكلمات، مشكلة إيجاد حدود الكلمات في الكلام، تهم مجموعة من المهام.اقترحت الأوراق السابقة أن نماذج تسلسل إلى تسلسل تدربت على مهام مثل ترجمة الكلام أو التعرف على الكلام، ويمكن استخدام الاهتمام لتحديد الكلمات والجزء.ومع ذلك، نوضح ذلك حتى على بيانا
إن أنظمة الحوار المحددة مع نماذج لغة كبيرة تولد ردود متماسكة محليا، ولكن تفتقر إلى السيطرة الجميلة على الردود اللازمة لتحقيق أهداف محددة.تتميز طريقة واعدة للسيطرة على جيل الاستجابة جيل يستند إلى Exemplar، حيث تحرير النماذج تحرير الردود المثالية التي
ارتفع الأداء القياسي لتحليل الدلالي عبر قاعدة البيانات بشكل مطرد في السنوات الأخيرة، وحفزه باعتماد النماذج اللغوية المدربة مسبقا.ومع ذلك، فقد أظهر العمل الحالي أن المحاورين الدلاليين في قاعدة البيانات عبر الإنترنت يكافحون للتعميم إلى كلمات المستخدمين
في هذه الورقة، اقترحنا محلل دلالي أبعاد بر فندقية، وهو مصمم من خلال دمج معلومات على مستوى Word.حقق نموذجنا ثلاثة من أفضل النتائج في أربعة مقاييس على rocling 2021 المهمة المشتركة: تحليل المعنويات الأبعاد للنصوص التعليمية ".أجرينا سلسلة من التجارب لمقا