تعتمد تقنيات AdgeDDing Word بشدة على ترددات الكلمات في Corpus، وتتأثر سلبا بفشل في تقديم تمثيلات موثوقة للكلمات ذات التردد المنخفض أو الكلمات غير المرئية أثناء التدريب. لمعالجة هذه المشكلة، نقترح خوارزمية لتعلم Admeddings عن الكلمات النادرة على أساس محرك بحث الإنترنت وعلاقات الموقع المكاني. خوارزميتنا عائدات في خطوتين. نقوم أولا باسترجاع صفحات الويب المقابلة للكلمة النادرة من خلال محرك البحث وتحليل النتائج المرسلة لاستخراج مجموعة من أكثر الكلمات ذات الصلة. نحن متوسط ناقلات الكلمات ذات الصلة باعتبارها المتجه الأولي للكلمة النادرة. بعد ذلك، فإن موقع الكلمة النادرة في مساحة المتجه يتم ضبطه بشكل متكرر وفقا لترتيب ما له في الكلمات ذات الصلة. بالمقارنة مع النهج الأخرى، يمكن للخوارزمية لدينا معرفة تمثيلات أكثر دقة لمجموعة واسعة من المفردات. نقوم بتقييم شركاتنا النادرة المستفادة من الكلمات النادرة على مهمة كلمة متعلقة، وتظهر النتائج التجريبية أن خوارزميتنا تحقق الأداء الحديث من بين الفن.
Word embedding techniques depend heavily on the frequencies of words in the corpus, and are negatively impacted by failures in providing reliable representations for low-frequency words or unseen words during training. To address this problem, we propose an algorithm to learn embeddings for rare words based on an Internet search engine and the spatial location relationships. Our algorithm proceeds in two steps. We firstly retrieve webpages corresponding to the rare word through the search engine and parse the returned results to extract a set of most related words. We average the vectors of the related words as the initial vector of the rare word. Then, the location of the rare word in the vector space is iteratively fine-tuned according to the order of its relevances to the related words. Compared to other approaches, our algorithm can learn more accurate representations for a wider range of vocabulary. We evaluate our learned rare-word embeddings on the word relatedness task, and the experimental results show that our algorithm achieves state-of-the-art performance.
المراجع المستخدمة
https://aclanthology.org/
أساسيات محسن محركات البحث - انشاء عناوين صفحات فريدة ودقيقة - تحسين بنية الموقع - تحسين المحتوى - التعامل مع برامج الزحف - تحسين محركات البحث لهواتف الجوال - التحليلات وعمليات الترويج
على الرغم من وجود العديد من الدراسات حول توليد اللغة العصبية (NLG)، إلا أن القليل من التجارب يتم وضعها في العالم الحقيقي، وخاصة في مجال الإعلان.يمكن أن تساعد توليد الإعلانات مع نماذج NLG في تصفيات الأوجه في إنشائها.ومع ذلك، قامت دراسات قليلة بتقييم ت
في الآونة الأخيرة، أصبح البحث برعاية واحدة من أكثر القنوات المربحة للتسويق. كأساس أساسي للبحث المدعى عليه، اجتذبت النمذجة ذات الصلة الاهتمام المتزايد بسبب القيمة العملية الهائلة. معظم الطرق الحالية تعتمد فقط على أزواج الكلمات الرئيسية للاستعلام. ومع
الاعتراف بالكيانات المسماة في استفسارات محرك البحث القصيرة هي مهمة صعبة بسبب معلومات السياق الأضعف مقارنة بالجمل الطويلة.فشلت أنظمة التعرف على الكيان المسماة القياسية (NER) التي يتم تدريبها على الجمل الصحيحة والطويلة بشكل جيد على أداء هذه الاستفسارات
التعلم الإشرافه يفترض أن ملصق الحقيقة الأرض موجود.ومع ذلك، فإن موثوقية هذه الحقيقة الأرضية تعتمد على المنشآت البشرية، التي لا توافق في كثير من الأحيان.وقد أظهر العمل السابق أن هذا الخلاف يمكن أن يكون مفيدا في نماذج التدريب.نقترح طريقة جديدة لدمج هذا