تعتبر Adgedding Word ضرورية لنماذج الشبكة العصبية لمختلف مهام معالجة اللغة الطبيعية. نظرا لأن كلمة تضمينها عادة ما يكون لها حجم كبير، من أجل نشر نموذج شبكة عصبي وجوده على أجهزة Edge، يجب ضغطه بشكل فعال. كانت هناك دراسة لاقتراح طريقة تقريبية منخفضة رتبة بلوك من أجل تضمين كلمة، تسمى GroupReduce. حتى لو كان هيكلهم فعالا، فإن الخصائص وراء مفهوم برنامج تضمين الكلمة الحكيمة غير الحكيمة لم يتم استكشافه بما فيه الكفاية. بدافع من هذا، نحن نحسن Grouppreduce من حيث ترجيح الكلمة والهيت. بالنسبة للتوزيع النصي، نقترح طريقة بسيطة ولكنها فعالة مستوحاة من مصطلح طريقة تردد المستندات العكسية في التردد وطريقة تامة بناء عليهم، نبني كلمة تمييزية تضمين خوارزمية ضغط. في التجارب، نوضح أن الخوارزمية المقترحة تجد بشكل أكثر فعالية أوزان الكلمات أكثر من المنافسين في معظم الحالات. بالإضافة إلى ذلك، نوضح أن الخوارزمية المقترحة يمكن أن تتصرف مثل إطار من خلال التعاون الناجح مع الكمي.
Word embedding is essential for neural network models for various natural language processing tasks. Since the word embedding usually has a considerable size, in order to deploy a neural network model having it on edge devices, it should be effectively compressed. There was a study for proposing a block-wise low-rank approximation method for word embedding, called GroupReduce. Even if their structure is effective, the properties behind the concept of the block-wise word embedding compression were not sufficiently explored. Motivated by this, we improve GroupReduce in terms of word weighting and structuring. For word weighting, we propose a simple yet effective method inspired by the term frequency-inverse document frequency method and a novel differentiable method. Based on them, we construct a discriminative word embedding compression algorithm. In the experiments, we demonstrate that the proposed algorithm more effectively finds word weights than competitors in most cases. In addition, we show that the proposed algorithm can act like a framework through successful cooperation with quantization.
المراجع المستخدمة
https://aclanthology.org/
حققت نماذج التسلسل العصبي (SEQ2SEQ) ونماذج بيرت تحسينات كبيرة في تلخيص وثائق المبادرة (الإعلانات) دون ومع مسبق التدريب، على التوالي.ومع ذلك، فإنهم يحضرون في بعض الأحيان مرارا وتكرارا عبارات المصدر غير مهم بينما يتجاهل عن طريق الخطأ تلك المهمة.نقدم آل
أدى اعتماد النماذج القائمة على المحولات في معالجة اللغة الطبيعية (NLP) إلى نجاح كبير باستخدام عدد ضخم من المعلمات. ومع ذلك، نظرا لقيود النشر في أجهزة الحافة، كان هناك اهتمام متزايد في ضغط هذه النماذج لتحسين وقت استئنافهم وبصمة الذاكرة. تعرض هذه الورق
تزيين الكلمات المتبقية كلمة (CLWES) ترميز الكلمات من لغتين أو أكثر في مساحة مشتركة عالية الأبعاد التي تمثل ناقلات تمثل الكلمات ذات معنى مماثل (بغض النظر عن اللغة) عن كثب. تعلم الأساليب الحالية لبناء تعيينات CLWES عالية الجودة التي تقلل من وظيفة خسارة
تعد Word Embeddings تمثيلات قوية تشكل أساس العديد من هياكنة معالجة اللغة الطبيعية، سواء باللغة الإنجليزية ولدا في لغات أخرى.للحصول على مزيد من البصائل في Adgeddings Word، نستكشف استقرارها (على سبيل المثال، تتداخل بين أقرب جيران من كلمة في مسافات مختل
الاكتشاف الساخرة ذات أهمية كبيرة في فهم المشاعر والآراء الحقيقية للناس.العديد من التقيمات عبر الإنترنت، مراجعات، تعليقات وسائل التواصل الاجتماعي، إلخ.لقد تم بالفعل إجراء العديد من الأبحاث بالفعل في هذا المجال، لكن معظم الباحثين درس تحليل الساركاز الإ