في هذه الورقة، نقترح حل عالمي قابل للتفسير لحل مشكلة NLP البارزة: قرار الكيان (ER). نحن فوركون في وقت متأخر من مشكلة تقسيم الرسم البياني. يتم تمثيل كل إشارة إلى كيان عالمي حقيقي بواسطة عقدة في الرسم البياني، وتستخدم درجات SIM الزوجية بين التفسير في ربط هذه العقد إلى زمرة واحدة بالضبط، والتي تمثل كيان عالمي حقيقي في مجال ER. في هذه الورقة، نستخدم مشكلة تقسيم Clique (CPP)، وهو ما يعد عددا صحيحا (IP) لصياغة ER كقسم رسم بياني، ثم قم بتسلط الضوء على الطبيعة القابلة للتفسير لهذه الطريقة. نظرا لأن CPP هو NP-Hard، نقدم إجراءات حل فعالة، خوارزمية XER، لحل CPP كملكة كيميائية لإيجاد أقصى حد من الزمرات في الرسم البياني ثم أداء التعبئة المعممة المعممة باستخدام صياغة جديدة. نناقش مزايا استخدام XER على الأساليب التقليدية وتوفير الخيارات الحسابية ونتائج تطبيق هذه الطريقة إلى مجموعات بيانات ER.
In this paper, we propose a global, self- explainable solution to solve a prominent NLP problem: Entity Resolution (ER). We formu- late ER as a graph partitioning problem. Every mention of a real-world entity is represented by a node in the graph, and the pairwise sim- ilarity scores between the mentions are used to associate these nodes to exactly one clique, which represents a real-world entity in the ER domain. In this paper, we use Clique Partition- ing Problem (CPP), which is an Integer Pro- gram (IP) to formulate ER as a graph partition- ing problem and then highlight the explainable nature of this method. Since CPP is NP-Hard, we introduce an efficient solution procedure, the xER algorithm, to solve CPP as a combi- nation of finding maximal cliques in the graph and then performing generalized set packing using a novel formulation. We discuss the advantages of using xER over the traditional methods and provide the computational exper- iments and results of applying this method to ER data sets.
المراجع المستخدمة
https://aclanthology.org/
مشكلة استرجاع المستندات المستندة إلى المستندات المستندة إلى تضمينها هي موضوع ساخن في مجال استرجاع المعلومات (IR).بالنظر إلى أن نماذج اللغة المدربة مسبقا مثل بيرت حققت نجاحا كبيرا في مجموعة واسعة من مهام NLP، فإننا نقدم نموذجا رباعية لاسترجاع فعال وفع
تم دراسة ضغط الجملة (SC)، التي تهدف إلى تقصير الأحكام مع الاحتفاظ بكلمات مهمة تعبر عن المعاني الأساسية، لسنوات عديدة في العديد من اللغات، خاصة باللغة الإنجليزية. ومع ذلك، فإن التحسينات في مهمة SC الصينية لا تزال قليلة جدا بسبب العديد من الصعوبات: ناد
أدى الاستخدام المتزايد لمواقع وسائل التواصل الاجتماعي في بلدان مثل الهند إلى مجلدات كبيرة من البيانات المختلطة.يمكن أن يوفر تحليل المعنويات لهذه البيانات رؤى غير متكاملة في وجهات نظر الناس والآراء.غالبا ما تكون البيانات المختلطة من التعليمات البرمجية
السخرية عبارة عن تعبير لغوي يستخدم في كثير من الأحيان للتواصل مع عكس ما يقال، وعادة ما يكون شيئا غير سار للغاية بقصد الإهانة أو السخرية.الغموض الكامنة في التعبيرات الساخرة يجعل اكتشاف السخرية صعبة للغاية.في هذا العمل، نركز على الكشف عن السخرية في محا
لقد قمنا في هذا البحث بدراسة الارتباط الخطي المتعدد بين المتغيرات المستقلة في
نموذج الانحدار الخطي المتعدد في حالة وجود خلل في أحد شروط النموذج
الأساسية ، و عرضنا دراسة نظرية مرجعية لأنواع الارتباط الخطي و أسباب ظهور
مشكلة الارتباط الخطي المتعدد،