نماذج اللغة العصبية عادة ما تقوم بإدخال نص إدخال في وحدات فرعية لتحقيق مفردات مفتوحة. يتمثل النهج القياسي في استخدام التزعزيات الكنسي واحد في كل من القطار ووقت الاختبار. نقترح أن هذا النهج غير مرضي وقد يؤدي إلى اختناق تقييمنا لأداء نموذج اللغة. يتجاهل استخدام أفضل التزامات واحدا فقط عدم اليقين Tokeniser على التزامات البديلة، والتي قد تؤذي أداء نموذج خارج النطاق. في هذه الورقة، نجادل بأنه بدلا من ذلك، يجب تقييم نماذج اللغة على احتمال حدوثها الهامشي من التصعيش. قارن المقدرين المختلفة للحياة الهامشية بناء على أخذ العينات، وإظهار أنه من الممكن تقدير الاحتمال الهامشي لعدد يمكن التحكم فيه من العينات. ثم قمنا بتقييم نموذج لغة محدود مسبقا على كل من أفضل التزامات الواحدة والحيرة الهامشية، وإظهار أن الحيرة الهامشية يمكن أن تكون أفضل بكثير من الأفضل، خاصة على البيانات خارج المجال. نحن نربط هذا الاختلاف في الحيرة إلى عدم اليقين Tokeniser كما تقاس بواسطة Tokeniser Entropy. نناقش بعض الآثار المترتبة على نتائجنا لتدريب وتقييم نموذج اللغة، لا سيما فيما يتعلق بتروكيات القمامة.
Neural language models typically tokenise input text into sub-word units to achieve an open vocabulary. The standard approach is to use a single canonical tokenisation at both train and test time. We suggest that this approach is unsatisfactory and may bottleneck our evaluation of language model performance. Using only the one-best tokenisation ignores tokeniser uncertainty over alternative tokenisations, which may hurt model out-of-domain performance. In this paper, we argue that instead, language models should be evaluated on their marginal likelihood over tokenisations. We compare different estimators for the marginal likelihood based on sampling, and show that it is feasible to estimate the marginal likelihood with a manageable number of samples. We then evaluate a pretrained language model on both the one-best-tokenisation and marginal perplexities, and show that the marginal perplexity can be significantly better than the one best, especially on out-of-domain data. We link this difference in perplexity to the tokeniser uncertainty as measured by tokeniser entropy. We discuss some implications of our results for language model training and evaluation, particularly with regard to tokenisation robustness.
المراجع المستخدمة
https://aclanthology.org/
تعتمد معظم دراسات معالجة اللغة الطبيعية الأخيرة (NLP) على النهج الضميني - PFA (PFA)، ولكن في المؤسسات أو الشركات الصغيرة والمتوسطة مع الأجهزة غير الكافية، هناك العديد من القيود لخدمة برنامج تطبيق NLP باستخدام هذه التكنولوجيا بسبب هذه التكنولوجيا سرعة
يتم تعريف حدود قابلية تطبيق نماذج الرؤية واللغة من خلال تغطية بياناتها التدريبية. تتطلب المهام مثل الرؤية الإجابة على الأسئلة (VQA) في كثير من الأحيان معلومات المنطقية والواقعية تتجاوز ما يمكن تعلمه من مجموعات البيانات الخاصة بمهام المهام. تحقق هذه ا
أصبحت تمثيلات ناقلات عنصر مركزي في نمذجة اللغة الدلالية، مما يؤدي إلى التداخل الرياضي مع العديد من الحقول بما في ذلك النظرية الكمومية. التركيز هو الهدف الأساسي لهذه التمثيل: تمثيل تمثيلات مع الرطب "والأسماك"، كيف ينبغي تمثيل مفهوم السمك الرطب؟ يستطلع
سيحتاج الوكلاء الذكيون الذين يشترفون بمفاهيم جديدة في البيئات المحددة إلى طلب أسئلة زملائهم البشريين الذين يتعلمون عن العالم المادي.لفهم هذه المشكلة بشكل أفضل، نحتاج إلى بيانات حول طرح الأسئلة في التفاعلات القائمة على المهمة المحددة.تحقيقا لهذه الغاي
يصنف البازلت وفقا لخواصه الميكانيكية بأنه صخر متجانس (Isotropic) أما بالنسبة
للجص فيعتبر صخرا متجانس تناظريا (Isotropic transverse) و بالتالي فإن قيم
البارامترات الميكانيكية تتعلق بشكل مباشر باتجاه قياس هذه البارامترات .
يستطيع الشخص باستخدام ال