تتطلب تضمين الوثائق الحالية شركة تدريبية كبيرة ولكنها تفشل في تعلم تمثيلات عالية الجودة عند مواجهة عدد صغير من المستندات الخاصة بالمجال والشروط النادرة. علاوة على ذلك، يقومون بتحويل كل وثيقة إلى متجه تضمين واحد، مما يجعل من الصعب التقاط مفاهيم مختلفة من تشابه الوثيقة أو شرح سبب اعتبار المستندين مماثلة. في هذا العمل، نقترح تشفير المجال الأوجه لدينا، ونهج رواية لتعلم Admeddings متعددة الأوجه للمستندات الخاصة بالمجال. يعتمد ذلك على بنية شبكة عصبية سيامي ويعزز الرسوم البيانية المعرفة لتعزيز المدينات حتى لو كانت بعض عينات التدريب فقط متوفرة. يحدد النموذج أنواعا مختلفة من معرفة المجال وترميزها في أبعاد منفصلة من التضمين، مما يتيح طرق متعددة لإيجاد ومقارنة المستندات ذات الصلة في مساحة المتجهات. نقيم نهجنا على مجموعة بيانات قياسية وتجد أنه يحقق نفس جودة التضمين كطرازات حديثة بينما تتطلب سوى جزء صغير من بيانات التدريب الخاصة بهم فقط. تتوفر تجريبي تفاعلي ومجموعاتنا المصدر ومجموعات بيانات التقييم عبر الإنترنت: https://hpi.de/naumann/s/multifaceted-emberdings و screencast متاح على Youtube: https://youtu.be/hhcsx2clewg
Current document embeddings require large training corpora but fail to learn high-quality representations when confronted with a small number of domain-specific documents and rare terms. Further, they transform each document into a single embedding vector, making it hard to capture different notions of document similarity or explain why two documents are considered similar. In this work, we propose our Faceted Domain Encoder, a novel approach to learn multifaceted embeddings for domain-specific documents. It is based on a Siamese neural network architecture and leverages knowledge graphs to further enhance the embeddings even if only a few training samples are available. The model identifies different types of domain knowledge and encodes them into separate dimensions of the embedding, thereby enabling multiple ways of finding and comparing related documents in the vector space. We evaluate our approach on two benchmark datasets and find that it achieves the same embedding quality as state-of-the-art models while requiring only a tiny fraction of their training data. An interactive demo, our source code, and the evaluation datasets are available online: https://hpi.de/naumann/s/multifaceted-embeddings and a screencast is available on YouTube: https://youtu.be/HHcsX2clEwg
المراجع المستخدمة
https://aclanthology.org/
كان الحمل الزائد المعلومات أحد التحديات المتعلقة بالمعلومات من الإنترنت. إنها ليست مسألة وصول المعلومات، بدلا من ذلك، تحول التركيز نحو جودة البيانات المستردة. لا سيما في مجال الأخبار، تقرير منافذ متعددة عن أحداث الأخبار نفسها ولكن قد يختلف في التفاصي
هناك فرق حاسم بين تلخيص المستندات الفردية والمتعددة هو كيف يتجلى المحتوى البارز نفسه في المستند (المستندات). على الرغم من أن هذا المحتوى قد يظهر في بداية وثيقة واحدة، إلا أن المعلومات الأساسية تكرر بشكل متكرر في مجموعة من المستندات المتعلقة بموضوع مع
العروض التقديمية مهمة للتواصل في جميع مجالات حياتنا، ومع ذلك فإن إنشاء الطوابق الشريحة غالبا ما تكون مملة وتستهلك الوقت.كان هناك بحث محدود يهدف إلى أتمتة عملية توليد المستندات إلى الشرائح وجميع مواجهة التحدي الحرج: لا توجد مجموعة بيانات متاحة للجمهور
في الورقة، نتعامل مع مشكلة تجميع وثائق النص غير المدعومة باللغة البولندية.هدفنا هو مقارنة النهج الحديثة بناء على نمذجة اللغة (DOC2VEC و BERT) مع تلك الكلاسيكية، I.E.، TF-IDF و WordNet-تتم التجارب على ثلاث مجموعات بيانات تحتوي على أوصاف مؤهلات.أظهرت ن
أثبتت الترجمة الآلية النموذجية على مستوى المستند (NMT) أنها ذات قيمة عميقة لفعاليتها في التقاط المعلومات السياقية. ومع ذلك، فإن الأساليب الحالية 1) تعرض ببساطة تمثيل أحكام السياق دون تمييز عملية التفكير بين الجملة؛ و 2) تغذية السياقات المستهدفة في ال