ترغب بنشر مسار تعليمي؟ اضغط هنا

تجميع الكلمات مع التنوع الدلالي

Grouping Words with Semantic Diversity

360   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يمكن أن تكون أنظمة NLP المستندة إلى التعلم العميق حساسة للرموز غير المرئية ويصعب التعلم مع المدخلات عالية الأبعاد التي تعيق التعلم بشكل خطير.نقدم نهجا من خلال تجميع كلمات الإدخال على أساس التنوع الدلالي الخاص بهم لتبسيط تمثيل لغة الإدخال مع غموض منخفض.نظرا لأن الكلمات المتنوعة الدلوية موجودة في سياقات مختلفة، فإننا قادرون على استبدال الكلمات مع مجموعاتهم وما زالت تميز معاني الكلمة التي تعتمد على سياقاتها.نقوم بتصميم العديد من الخوارزميات التي تحسب تجمعات متنوعة تستند إلى أخذ العينات العشوائية، مسافات هندسية، وتعظيم انتروبيا، ونثبت ضمانات رسمية للخوارزميات القائمة على الانتروبوي.تظهر النتائج التجريبية أن أساليبنا تعمم طرازات NLP وإظهار الدقة المعززة على وضع علامات نقاط البيع ومهام LM وتحسينات كبيرة على مهام الترجمة الآلية المتوسطة الحجم، ما يصل إلى +6.5 نقطة بلو.يتوفر شفرة المصدر لدينا في https://github.com/abdulrafae/dg.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تتمثل مهمة البحث في التعليمات البرمجية الدلالية في استرداد مقتطفات التعليمات البرمجية من Corpus التعليمات البرمجية المصدر بناء على حاجة المعلومات المعبر عنها باللغة الطبيعية.إن الفجوة الدلالية بين اللغات الطبيعية ولغات البرمجة قد تعتبر منذ فترة طويلة واحدة من أهم العقبات التي تحول دون فعالية أساليب استرجاع المعلومات المستندة إلى الكلمة (IR).إنه افتراض شائع أن أساليب "كيس الأشعة تحت الحاجيات" التقليدية غير المناسبة ل Code Code البحث: إن عملنا يبحث بشكل تجريبي هذا الافتراض.على وجه التحديد، ندرس فعالية أساليب الأشعة تحت الحمراء التقليدية، وهي BM25 و RM3، على Codesearchnet Corpus، والتي تتكون من استفسارات اللغة الطبيعية مقترنة مقتطفات التعليمات البرمجية ذات الصلة.نجد أن الطرق القائمة على الكلمة الرئيسية تتفوق على العديد من النماذج العصبية المسبقة.قارننا أيضا العديد من استراتيجيات المعالجة المسبقة للبيانات التعليمات البرمجية والعثور على التوت التخصصي الذي يحسن الفعالية.
تجزئة الكلمات، مشكلة إيجاد حدود الكلمات في الكلام، تهم مجموعة من المهام.اقترحت الأوراق السابقة أن نماذج تسلسل إلى تسلسل تدربت على مهام مثل ترجمة الكلام أو التعرف على الكلام، ويمكن استخدام الاهتمام لتحديد الكلمات والجزء.ومع ذلك، نوضح ذلك حتى على بيانا ت أحادية النظرة هشة.في تجاربنا ذات أنواع المدخلات المختلفة، أحجام البيانات، وخوارزميات تجزئة، فقط النماذج المدربة على التنبؤ بالهواتف من الكلمات تنجح في المهمة.النماذج المدربة للتنبؤ بالكلف من الهواتف أو الكلام (أي، الاتجاه المعاكس الذي يحتاج إلى تعميم البيانات الجديدة)، يؤدي إلى نتائج أسوأ بكثير، مما يشير إلى أن التجزئة القائمة على الانتباه مفيد فقط في سيناريوهات محدودة.
إن أنظمة الحوار المحددة مع نماذج لغة كبيرة تولد ردود متماسكة محليا، ولكن تفتقر إلى السيطرة الجميلة على الردود اللازمة لتحقيق أهداف محددة.تتميز طريقة واعدة للسيطرة على جيل الاستجابة جيل يستند إلى Exemplar، حيث تحرير النماذج تحرير الردود المثالية التي يتم استرجاعها من بيانات التدريب، أو مكتوبة يدويا إلى أهداف مستوى الخطاب استراتيجيا، لتناسب سياقات حوار جديدة.نقدم نموذج توليد حوار يستند إلى Exemplar، EDGE، يستخدم الإطارات الدلالية الموجودة في ردود Exemplar لتوجيه جيل الاستجابة.نظير على أن السيطرة على توليد الحوار على أساس الإطارات الدلالية من النماذج يحسن تماسك الردود التي تم إنشاؤها، مع الحفاظ على المعنى الدلالي وأهداف المحادثة الموجودة في ردود مثالية.
ارتفع الأداء القياسي لتحليل الدلالي عبر قاعدة البيانات بشكل مطرد في السنوات الأخيرة، وحفزه باعتماد النماذج اللغوية المدربة مسبقا.ومع ذلك، فقد أظهر العمل الحالي أن المحاورين الدلاليين في قاعدة البيانات عبر الإنترنت يكافحون للتعميم إلى كلمات المستخدمين ، وقواعد البيانات وهياكل الاستعلام.للحصول على تفاصيل شفافة حول نقاط القوة والحد من هذه النماذج، نقترح نهج اختبار تشخيصي يعتمد على توليفات التحكم في اللغة الطبيعية الكنسية وأزواج SQL.مستوحاة من قائمة المراجعة، فإننا نميز مجموعة من القدرات الأساسية لنماذج تحليل الدلالية عبر قاعدة البيانات، وتفصيل الطريقة لتوليف بيانات الاختبار المقابلة.قمنا بتقييم مجموعة متنوعة من النماذج عالية الأداء باستخدام النهج المقترح، وحددت العديد من نقاط الضعف غير الواضحة عبر النماذج (E.G. غير قادر على تحديد العديد من الأعمدة بشكل صحيح).يتم إصدار بيانات DataSet و Code كجناح اختبار على http://github.com/hclent/behaviorchecksempar.
في هذه الورقة، اقترحنا محلل دلالي أبعاد بر فندقية، وهو مصمم من خلال دمج معلومات على مستوى Word.حقق نموذجنا ثلاثة من أفضل النتائج في أربعة مقاييس على rocling 2021 المهمة المشتركة: تحليل المعنويات الأبعاد للنصوص التعليمية ".أجرينا سلسلة من التجارب لمقا رنة فعالية مختلف الأساليب المدربة مسبقا.علاوة على ذلك، فإن النتائج تعاني أيضا على أن طريقتنا يمكن أن تحسن بشكل كبير من الأداء من الأساليب الكلاسيكية.استنادا إلى التجارب، ناقشنا أيضا تأثير هياكنات النموذج ومجموعات البيانات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا