التشابه النّصي الدّلالي هو أساس عدد لا يحصى من التطبيقات ويلعب دوراً هاماً في مجالات متنوعة مثل استرجاع المعلومات ، والكشف عن السرقة الأدبية ، والترجمة الآلية ، وكشف الموضوع ، وتصنيف النص ، وتلخيص النص وغيرها.
ويعتمد العثور على التشابه بين نصين أو فقرات أو جمل على قياس التشابه بين الكلمات بشكل مباشر أو غير مباشر.
هناك نوعان معروفان للتشابه:
معجمية(Lexicon) ودلالية.(Semantic)
يتعامل الأوّل مع الكلمات على أنها مجموعة من الأحرف: الكلمات متشابهة معًا إذا كانت تتشارك في نفس الأحرف بنفس الترتيب(تمتلك نفس السلسلة من المحارف).
يهدف النوع الثّاني إلى تحديد الدّرجة التي ترتبط بها كلمتين بشكل دلالي على سبيل المثال يمكن أن تكون المرادفات تمثل نفس الشيء أو يتم استخدامها في نفس السياق، ولذلك التّشابه الدّلالي بين الكلمات يجب أن يكون knowledge based وهذا يعني أنّ التشابه بين الكلمتين يعتمد على معلومات يمكن الحصول عليها من معاجم كبيرة.
Text Similarity is an important task in several application fields, such as information retrieval, plagiarism detection, machine translation, topic detection, text classification, text summarization and others. Finding similarity between two texts, paragraphs or sentences, is based on measuring, directly or indirectly, the similarity between words.
There are two known types of words similarity: lexical and semantic.
The first one handles the words as a stream of characters: words are similar lexically if they share the same characters in the same order.
The second type aims to quantify the degree to which two words are semantically related. As an example they can be, synonyms, represent the same thing or they are used in the same context.
In this article we focus our investigation on measuring the semantic similarity between Arabic sentences using several representations
المراجع المستخدمة
http://aclweb.org/anthology/W17-1303
https://en.wikipedia.org/wiki/Word2vec
https://github.com/bakrianoo/aravec
https://rd.springer.com/article/10.1007/s40595-016-0080-2
https://trac.research.cc.gatech.edu/ccl/export/158/SecondMindProject/SM/SM.WordNet/Paper/WordNetDotNet_Semantic_Similarity.pdf
تقدير أنظمة التشابه الدلالي النصي (STS) درجة تشابه معنى بين جملتين.تقدر أنظمة STS عبر اللغات درجة تشابه معنى بين جملتين، كل منها بلغة مختلفة.عادة ما تستخدم الخوارزميات الحديثة عادة نهجا بالغضب بشدة، يصعب استخدامه لغات ضعف الموارد.ومع ذلك، يحتاج أي نه
Rouge هو متري تقييم واسع الاستخدام في تلخيص النص.ومع ذلك، فإنه غير مناسب لتقييم أنظمة تلخيص الجماع حيث تعتمد على التداخل المعجمي بين معيار الذهب والملخصات التي تم إنشاؤها.يصبح هذا القيد أكثر وضوحا للغات الشاقة مع المفردات الكبيرة جدا ونسب عالية النوع
بالنسبة للعديد من تطبيقات NLP للمراجعات عبر الإنترنت، فإن مقارنة جملتين تحمل رأي هي مفتاح. نقول أنه، في حين تم تطبيق مقاييس تشابه النص العام للأغراض العامة لهذا الغرض، كان هناك استكشاف محدود من تطبيقه على نصوص الرأي. نحن نتطلع إلى هذه الفجوة في الأدب
اقترحت الدراسات النفسية تتبع العين أن التماسك الدلالي في السياق والتنبؤية تؤثر على معالجة اللغة خلال نشاط القراءة.في هذه الدراسة، يمكننا التحقيق في الارتباط بين أوجه التشابه الجيبيني المحسوب مع نماذج تضمين كلمة (كلا من البيانات الثابتة والسياقية) وبي
يقارن تقييم نماذج الرد على الأسئلة التوضيحية حول التوقعات النموذجية. ومع ذلك، اعتبارا من اليوم، فإن هذه المقارنة تعتمد في الغالب معجمية، وبالتالي تفتقد الإجابات التي لا تحتوي على تداخل جذري ولكن لا تزال مماثلة متشابهة دلالة، وبالتالي علاج الإجابات ال