ترغب بنشر مسار تعليمي؟ اضغط هنا

يجب عليك تقييم نموذج لغتك على الاحتمال الهامشي فوق Tokenisations

You should evaluate your language model on marginal likelihood over tokenisations

169   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نماذج اللغة العصبية عادة ما تقوم بإدخال نص إدخال في وحدات فرعية لتحقيق مفردات مفتوحة. يتمثل النهج القياسي في استخدام التزعزيات الكنسي واحد في كل من القطار ووقت الاختبار. نقترح أن هذا النهج غير مرضي وقد يؤدي إلى اختناق تقييمنا لأداء نموذج اللغة. يتجاهل استخدام أفضل التزامات واحدا فقط عدم اليقين Tokeniser على التزامات البديلة، والتي قد تؤذي أداء نموذج خارج النطاق. في هذه الورقة، نجادل بأنه بدلا من ذلك، يجب تقييم نماذج اللغة على احتمال حدوثها الهامشي من التصعيش. قارن المقدرين المختلفة للحياة الهامشية بناء على أخذ العينات، وإظهار أنه من الممكن تقدير الاحتمال الهامشي لعدد يمكن التحكم فيه من العينات. ثم قمنا بتقييم نموذج لغة محدود مسبقا على كل من أفضل التزامات الواحدة والحيرة الهامشية، وإظهار أن الحيرة الهامشية يمكن أن تكون أفضل بكثير من الأفضل، خاصة على البيانات خارج المجال. نحن نربط هذا الاختلاف في الحيرة إلى عدم اليقين Tokeniser كما تقاس بواسطة Tokeniser Entropy. نناقش بعض الآثار المترتبة على نتائجنا لتدريب وتقييم نموذج اللغة، لا سيما فيما يتعلق بتروكيات القمامة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعتمد معظم دراسات معالجة اللغة الطبيعية الأخيرة (NLP) على النهج الضميني - PFA (PFA)، ولكن في المؤسسات أو الشركات الصغيرة والمتوسطة مع الأجهزة غير الكافية، هناك العديد من القيود لخدمة برنامج تطبيق NLP باستخدام هذه التكنولوجيا بسبب هذه التكنولوجيا سرعة بطيئة وذاكرة غير كافية. تتطلب أحدث تقنيات PFA كميات كبيرة من البيانات، خاصة لغات الموارد المنخفضة، مما يجعلها أكثر صعوبة في العمل معها. نقترح طريقة جديدة للتكامل، قطعة واحدة، لمعالجة هذا القيد الذي يجمع بين طريقة تشغيل الكلمات الفرعية التي تعتبر الكلمات الفرعية التي تعتبرها المورفولوجيا وطريقة المفردات المستخدمة بعد التحقيق في طريقة حالية لم تعتبر بعناية من قبل. يمكن أيضا استخدام طريقةنا المقترحة دون تعديل هيكل النموذج. نقوم بتجربة تطبيق قطعة واحدة إلى اللغة الكورية والغنية بالموراطية والموارد المنخفضة. ونحن نستمد نتيجة تكييف الكلمات الفرعية المثلى للترجمة الآلية الكورية والإنجليزية من خلال إجراء دراسة حالة تجمع بين طريقة تكتيح الكلمات الفرعية، والتجزئة المورفولوجية، وطريقة المفردات. من خلال التجارب المقارنة مع جميع أساليب التكامل المستخدمة حاليا في بحث NLP، تحقق قطعة واحدة أداء قابلة للمقارنة مع النموذج الحالي للترجمة الآلية الكورية والإنجليزية الحالية.
يتم تعريف حدود قابلية تطبيق نماذج الرؤية واللغة من خلال تغطية بياناتها التدريبية. تتطلب المهام مثل الرؤية الإجابة على الأسئلة (VQA) في كثير من الأحيان معلومات المنطقية والواقعية تتجاوز ما يمكن تعلمه من مجموعات البيانات الخاصة بمهام المهام. تحقق هذه ا لورقة في حقن المعرفة من قواعد المعرفة العامة للأغراض العامة (KBS) إلى محولات الرؤية واللغة. نحن نستخدم هدف تدريب إضافي يشجع التمثيلات المستفادة على محاذاة مع شرطة الرسم البياني للكيانات المطابقة في KB. ندرس تجريبيا أهمية مختلفة KBS إلى مهام ومعايير متعددة. توفر هذه التقنية فوائد واضحة لاستكشاف السؤال المطلقة على المعرفة (OK-VQA، FVQA) من خلال التقاط المعرفة الدلالية والعلدية غائبة عن النماذج القائمة. أكثر من المستغرب، فإن هذه التقنية تفيد أيضا مهام التفكير البصري (NLVR2، SNLI-VE). نقوم بإجراء تجارب التحقيق وإظهار أن حقن المعرفة الإضافية ينتقلان مساحة الشريات التي تحسن من تمثيل أوجه التشابه المعجمية والدلالية. تقنية النموذج الأذرع ويمكن أن توسع قابلية تطبيق أي محول للرؤية واللغة مع الحد الأدنى من النفقات الحاسوبية.
أصبحت تمثيلات ناقلات عنصر مركزي في نمذجة اللغة الدلالية، مما يؤدي إلى التداخل الرياضي مع العديد من الحقول بما في ذلك النظرية الكمومية. التركيز هو الهدف الأساسي لهذه التمثيل: تمثيل تمثيلات مع الرطب "والأسماك"، كيف ينبغي تمثيل مفهوم السمك الرطب؟ يستطلع ورقة الموضع هذه هذه السؤال من نقطتين من الرأي. الأول يعتبر أول سؤال حول ما إذا كان يمكن أن ينجح التمثيل الرياضي الصريح باستخدام الأدوات فقط من داخل الجبر الخطي، أو ما إذا كانت هناك حاجة إلى أدوات رياضية أخرى. والثاني تعتبر ما إذا كان ينبغي وصف تكوين ناقلات دلالي بصراحة رياضيا، أو ما إذا كان يمكن أن يكون تأثير جانبي نموذجي على تدريب شبكة عصبية. سؤال ثالث وأحدث هو ما إذا كان يمكن تنفيذ نموذج تركيبي على كمبيوتر Quantum. بالنظر إلى الطبيعة الخطية الجوهرية لميكانيكا الكم، نقترح أن هذه الأسئلة مرتبطة، وأن هذا الاستطلاع قد يساعد في تسليط الضوء على عمليات المرشحين لتنفيذ الكم في المستقبل.
سيحتاج الوكلاء الذكيون الذين يشترفون بمفاهيم جديدة في البيئات المحددة إلى طلب أسئلة زملائهم البشريين الذين يتعلمون عن العالم المادي.لفهم هذه المشكلة بشكل أفضل، نحتاج إلى بيانات حول طرح الأسئلة في التفاعلات القائمة على المهمة المحددة.تحقيقا لهذه الغاي ة، نقدم كوربوس لتعلم الحوار البشري الروبوت (HURDL) - وهو جوربوس حوار رواية تم جمعها في بيئة افتراضية تفاعلية عبر الإنترنت التي يلعب فيها المشاركين البشري دور الروبوت الذي يؤدي مهمة تنظيم أدوات تعاونية.نحن نصف بيانات Corpus ومخطط التوضيح المقابل لتقديم نظرة ثاقبة في شكل ومضمون الأسئلة التي يطلبها البشر تسهيل التعلم في بيئة داخلية.نحن نقدم كوربوس كمورد مضمون تجريبيا لتحسين توليد السؤال في الوكلاء الذكيين المحتملين.
يصنف البازلت وفقا لخواصه الميكانيكية بأنه صخر متجانس (Isotropic) أما بالنسبة للجص فيعتبر صخرا متجانس تناظريا (Isotropic transverse) و بالتالي فإن قيم البارامترات الميكانيكية تتعلق بشكل مباشر باتجاه قياس هذه البارامترات . يستطيع الشخص باستخدام ال طرق غير الإتلافية كتقنية الأمواج فوق الصوتية و التي تعتمد على فهم تأثير الخواص الميكانيكية على سرعة الأمواج فوق الصوتية ضمن الصخور , أن يتنبأ بالبارامترات الميكانيكية . تم تنفيذ التجارب على 35 عينة جص و 11 عينة بازلت جُمعت من السبور المنفذة من قبل المؤسسة العامة لاستصلاح الأراضي (حلبية-زلبية في دير الزور) بغية تحديد الخواص الجيوتقنية للصخور.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا