ترغب بنشر مسار تعليمي؟ اضغط هنا

كيف (غير) الأمثل هو المعجم؟

How (Non-)Optimal is the Lexicon?

322   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يعد تعيين المعاني المعجمية إلى WordForms ميزة رئيسية للغات الطبيعية. في حين أن ضغوط الاستخدام قد تقوم بتعيين كلمات قصيرة معاني متكررة (قانون اختصار Zipf)، فإن الحاجة إلى مفردات إنتاجية ومفتوحة، وقيود محلية على تسلسل الرموز، وعوامل أخرى مختلفة جميعها تشكل طمئتي لغات العالم. على الرغم من أهميتها في تشكيل الهيكل المعجمي، لم يتم تحديد المساهمات النسبية لهذه العوامل بالكامل. أخذ رؤية نظرية ترميز من المعجم والاستفادة من نموذج إحصائي عام جديد، نحدد الحدود العليا لضغوط المعجم تحت قيود مختلفة. فحص كوربورا من 7 لغات متنوعة من 7، نستخدم تلك الحدود العليا لتحديد فائنة المعجم واستكشاف التكاليف النسبية للقيود الرئيسية على الرموز الطبيعية. نجد أن التورفولوجيا (التركيبية) والرسومات الحربية يمكن أن يمثل بما فيه الكفاية لمعظم تعقيد الرموز الطبيعية --- كما تقاس طول التعليمات البرمجية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يمكن أن تخفف المعلومات الدقيقة من حدود الكلمات مشكلة الغموض المعجمي لتحسين أداء مهام معالجة اللغة الطبيعية (NLP). وبالتالي، فإن تجزئة الكلمات الصينية (CWS) مهمة أساسية في NLP. نظرا لتطوير نماذج اللغة المدربة مسبقا (PLM)، فإن المعرفة المدربة مسبقا يمك ن أن تساعد الأساليب العصبية في حل المشكلات الرئيسية ل CWS في إجراء كبير. حققت الطرق الحالية بالفعل أداء عال في العديد من المعايير (على سبيل المثال، bakeoff-2005). ومع ذلك، فإن الدراسات البارزة الحديثة محدودة من قبل كوربوس المشروح على نطاق صغير. لزيادة تحسين أداء أساليب CWS بناء على ضبط PLMS، نقترح إطار عمل عصبي رواية، LBGCN، الذي يشتمل على شبكة اتصالية قائمة بذاتها في الترميز في ترميز المحولات. النتائج التجريبية على خمسة معايير وأربعة مجموعات بيانات عبر المجال تظهر أن شبكة اتصال الرسوم البيانية المستندة إلى المعجم تستغرق بنجاح معلومات الكلمات المرشحة وتساعد على تحسين الأداء على المعايير (BakeOFF-2005 و CTB6) ومجموعات البيانات عبر المجال (Sighan- 2010). توضح المزيد من التجارب والتحليلات أن إطار عملنا المقترح نماذج المعجم بفعالية لتعزيز قدرة الأطر العصبية الأساسية وتعزز المتانة في سيناريو المجال العابر.
تهدف Lemmatization إلى تقليل مشكلة البيانات المتناثرة عن طريق ربط الأشكال المصدرة للكلمة إلى شكل قاموسها. ركزت معظم الأعمال السابقة على Lemmatization ML القائمة على لغات الموارد عالية، حيث تتوفر مجموعات البيانات (نماذج Word) بسهولة. للحصول على اللغات التي ليس لديها عمل لغوي متاح، لا سيما على التشكل أو بلغات التحقيق الحسابي للقواعد اللغوية معقدة ومرهقة، Lemmatizers التعلم الآلي هي الطريقة توجو. في هذه الورقة، نكرس انتباهنا إلى Lemmatisation للموارد المنخفضة، واللغات الهندية الغنية بالمظورة التي تستخدم الأساليب العصبية. هنا، يعني الموارد المنخفضة فقط عدد قليل من أشكال الكلمة المتاحة فقط. نقوم بإجراء اختبارات لتحليل التباين في أداء نماذج أحادية الأونلينغ على تغيير حجم Corpus وحجم العلامات المورفولوجية السياقية للتدريب. نظرا لأن النهج أحادية الأنتجة مع تكبير البيانات يمكن أن يوفر دقة تنافسية حتى في إعداد الموارد المنخفضة، والذي يبشر جيدا ل NLP في إعداد مورد منخفض.
تقدم الورقة تجارب في الترجمة الآلية العصبية مع القيود المعجمية في لغة غنية مورمية.على وجه الخصوص، نقدم طريقة واستنادا إلى فك التشفير المقيد والتي تتعامل مع الأشكال المصدرة للإدخالات المعجمية ولا تتطلب أي تعديل بيانات التدريب أو الهندسة المعمارية النم وذجية.لتقييم فعاليتها ونقوم بإجراء تجارب في سيناريوهات مختلفة: عام ومخصص خاص.قارنا طريقنا مع ترجمة خط الأساس، وهي ترجمة بدون قيود معجمية ومن حيث سرعة الترجمة وجودة الترجمة.لتقييم مدى جودة معالجة القيود ونقترح مقاييس تقييم جديدة تأخذ في الاعتبار وجود وتنسيب وازدواجية وصحة الانهيار المصطلحات المعجمية في جملة الإخراج.
نظرا لأن النهج القائم على المعجم هو أكثر أناقة علميا، أوضح مكونات الحل وأسهل التعميم إلى التطبيقات الأخرى، توفر هذه الورقة نهجا جديدا للغة الهجومية والكشف عن الكلام على وسائل التواصل الاجتماعي، والتي تجسد معجم من الهجوم الضمني والبريثوإقتصار التعبيرا ت المشروح مع المعلومات السياقية.نظرا لشدة تعليقات وسائل التواصل الاجتماعي المسيئة في البرازيل، وعدم وجود أبحاث باللغة البرتغالية والبرتغالية البرازيلية هي اللغة المستخدمة للتحقق من صحة النماذج.ومع ذلك، قد يتم تطبيق طريقتنا على أي لغة أخرى.تظهر التجارب التي أجراها فعالية النهج المقترح، مما يتفوق على الأساليب الأساسية الحالية للغة البرتغالية.
محادثات طبيعية مليئة التدقيق.تحقق هذه الدراسة إذا وتفهم برت وكيفية التنقيس بثلاث تجارب: (1) دراسة سلوكية باستخدام مهمة نهرية، (2) تحليل ل Aregbeddings و (3) تحليل لآلية الاهتمام على التنقيس.توضح الدراسة السلوكية أنه بدون ضبط جيد على البيانات النظافة، لا يعاني بيرت خسارة كبيرة من الأداء عند تقديمها مقارنة بالمدخلات بطلاقة (EXP1).يكشف التحليل على أزواج الجملة الجماعية والجوزاء بطلاقة أن الطبقة الأعمق، كلما زاد مماثلة تمثيلها (EXP2).يشير هذا إلى أن الطبقات العميقة من بيرت تصبح ثابتا نسبيا للتنقيس.نحن نحدد الاهتمام كآلية محتملة يمكن أن تفسر هذه الظاهرة (EXP3).بشكل عام، تشير الدراسة إلى أن بيرت لديه معرفة بنية التنظير.نؤكد على إمكانية استخدام بيرت لفهم الكلام الطبيعي دون إزالة التنظير.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا