ترغب بنشر مسار تعليمي؟ اضغط هنا

ايجاد نسبة التشابه الدلالي بين جملتين باللغة العربية

Semantic similarity between tow sentences in arabic

2594   3   55   0 ( 0 )
 تاريخ النشر 2018
والبحث باللغة العربية
 تمت اﻹضافة من قبل Khadija Mohammad




اسأل ChatGPT حول البحث

التشابه النّصي الدّلالي هو أساس عدد لا يحصى من التطبيقات ويلعب دوراً هاماً في مجالات متنوعة مثل استرجاع المعلومات ، والكشف عن السرقة الأدبية ، والترجمة الآلية ، وكشف الموضوع ، وتصنيف النص ، وتلخيص النص وغيرها. ويعتمد العثور على التشابه بين نصين أو فقرات أو جمل على قياس التشابه بين الكلمات بشكل مباشر أو غير مباشر. هناك نوعان معروفان للتشابه: معجمية(Lexicon) ودلالية.(Semantic) يتعامل الأوّل مع الكلمات على أنها مجموعة من الأحرف: الكلمات متشابهة معًا إذا كانت تتشارك في نفس الأحرف بنفس الترتيب(تمتلك نفس السلسلة من المحارف). يهدف النوع الثّاني إلى تحديد الدّرجة التي ترتبط بها كلمتين بشكل دلالي على سبيل المثال يمكن أن تكون المرادفات تمثل نفس الشيء أو يتم استخدامها في نفس السياق، ولذلك التّشابه الدّلالي بين الكلمات يجب أن يكون knowledge based وهذا يعني أنّ التشابه بين الكلمتين يعتمد على معلومات يمكن الحصول عليها من معاجم كبيرة.


ملخص البحث
تتناول هذه الورقة البحثية موضوع إيجاد نسبة التشابه الدلالي بين جملتين باللغة العربية، وهو موضوع ذو أهمية كبيرة في مجالات متعددة مثل استرجاع المعلومات، الكشف عن الانتحال، الترجمة الآلية، واستخراج المعلومات. تقدم الورقة عدة تقنيات لحساب هذا التشابه، مع التركيز على استخدام قاعدة بيانات معجمية تحتوي على جميع كلمات اللغة العربية وعلاقاتها. تتناول الورقة ثلاث طرق رئيسية لقياس التشابه: استخدام WordToVector، استخدام LMF Dictionaries، واستخدام خوارزمية Wu & Palmer. تتضمن كل طريقة مجموعة من الخطوات والتقنيات الفرعية مثل استخدام IDF وPOS_tagging لتحسين دقة النتائج. كما تستعرض الورقة كيفية تمثيل الكلمات كأشعة في فضاء متعدد الأبعاد واستخدام تقنيات مثل Word2vec وCBOW لتدريب النماذج على نصوص كبيرة. تقدم الورقة أيضًا مقارنة بين النتائج التي تم الحصول عليها باستخدام الطرق المختلفة وتوضح كيفية تحسين النتائج باستخدام تقنيات مثل IDF وPOS_tagging.
قراءة نقدية
تعتبر هذه الورقة خطوة مهمة نحو تحسين تقنيات معالجة اللغة الطبيعية باللغة العربية، وهي تقدم حلولًا مبتكرة ومفصلة لمشكلة حساب التشابه الدلالي بين الجمل. ومع ذلك، يمكن تحسين الورقة من خلال تقديم مزيد من التفاصيل حول كيفية اختيار المعايير المختلفة لتدريب النماذج، وكذلك تقديم أمثلة عملية توضح كيفية تطبيق هذه التقنيات في سياقات حقيقية. كما يمكن تحسين الورقة من خلال تقديم تحليل نقدي للقيود والتحديات التي تواجه هذه التقنيات، مثل التعامل مع اللهجات المختلفة للغة العربية والتحديات المرتبطة بمعالجة النصوص الكبيرة.
أسئلة حول البحث
  1. ما هي الأهمية الرئيسية لحساب التشابه الدلالي بين الجمل باللغة العربية؟

    الأهمية الرئيسية لحساب التشابه الدلالي تكمن في تطبيقات متعددة مثل استرجاع المعلومات، الكشف عن الانتحال، الترجمة الآلية، واستخراج المعلومات.

  2. ما هي الطرق الثلاث الرئيسية التي تم استخدامها في الورقة لقياس التشابه الدلالي؟

    الطرق الثلاث الرئيسية هي: استخدام WordToVector، استخدام LMF Dictionaries، واستخدام خوارزمية Wu & Palmer.

  3. ما هي التقنيات المستخدمة لتحسين دقة النتائج في حساب التشابه الدلالي؟

    التقنيات المستخدمة تشمل IDF وPOS_tagging لتحسين دقة تحديد الكلمات التي تكون وصفية للغاية في كل جملة.

  4. ما هي التحديات التي يمكن أن تواجه تقنيات حساب التشابه الدلالي بين الجمل باللغة العربية؟

    التحديات تشمل التعامل مع اللهجات المختلفة للغة العربية والتحديات المرتبطة بمعالجة النصوص الكبيرة.


المراجع المستخدمة
http://aclweb.org/anthology/W17-1303
https://en.wikipedia.org/wiki/Word2vec
https://github.com/bakrianoo/aravec
https://rd.springer.com/article/10.1007/s40595-016-0080-2
https://trac.research.cc.gatech.edu/ccl/export/158/SecondMindProject/SM/SM.WordNet/Paper/WordNetDotNet_Semantic_Similarity.pdf
قيم البحث

اقرأ أيضاً

تقدير أنظمة التشابه الدلالي النصي (STS) درجة تشابه معنى بين جملتين.تقدر أنظمة STS عبر اللغات درجة تشابه معنى بين جملتين، كل منها بلغة مختلفة.عادة ما تستخدم الخوارزميات الحديثة عادة نهجا بالغضب بشدة، يصعب استخدامه لغات ضعف الموارد.ومع ذلك، يحتاج أي نه ج للحصول على بيانات التقييم لتأكيد النتائج.من أجل تبسيط عملية التقييم لغات ضعف الموارد (من حيث مجموعات بيانات تقييم STS)، نقدم مجموعات بيانات جديدة ل STS عبر اللغات والأحمر غير المباشر لغات دون بيانات التقييم هذه.نقدم أيضا نتائج العديد من الطرق الحديثة على هذه البيانات التي يمكن استخدامها كأساس للحصول على مزيد من البحث.نعتقد أن هذه المقالة لن تمد فقط أبحاث STS الحالية فقط إلى لغات أخرى، ولكنها ستشجع أيضا المنافسة على هذه بيانات التقييم الجديدة.
Rouge هو متري تقييم واسع الاستخدام في تلخيص النص.ومع ذلك، فإنه غير مناسب لتقييم أنظمة تلخيص الجماع حيث تعتمد على التداخل المعجمي بين معيار الذهب والملخصات التي تم إنشاؤها.يصبح هذا القيد أكثر وضوحا للغات الشاقة مع المفردات الكبيرة جدا ونسب عالية النوع / الرمز المميز.في هذه الورقة، نقدم نماذج التشابه الدلالي لأتراك وتطبيقها كقائد تقييم لمهمة تلخيص مبادرة.لتحقيق ذلك، قامنا بترجمة مجموعة بيانات STSB الإنجليزية إلى تركية وعرضت بيانات التشابه الدلالي الأول للتركية أيضا.أظهرنا أن أفضل نماذج التشابه لدينا لها محاذاة أفضل مع الأحكام البشرية المتوسطة مقارنة بالحصان في كل من علاقات بيرسون ورأس.
بالنسبة للعديد من تطبيقات NLP للمراجعات عبر الإنترنت، فإن مقارنة جملتين تحمل رأي هي مفتاح. نقول أنه، في حين تم تطبيق مقاييس تشابه النص العام للأغراض العامة لهذا الغرض، كان هناك استكشاف محدود من تطبيقه على نصوص الرأي. نحن نتطلع إلى هذه الفجوة في الأدب يات، الدراسة: (1) كيف يحكم البشر على تشابه أزواج من الجمل التي تحمل الرأي؛ و (2) الدرجة التي يتوافق فيها مقاييس التشابه النصية الحالية، ولا سيما المتكررين على أساس الأحكام البشرية. نحن علاجه التعليقات التوضيحية لأزواج عقوبة الرأي ونتائجنا الرئيسية هي: (1) المعلقون يميلون إلى الاتفاق على ما إذا كانت أحكام الرأي متشابهة أم لا بشكل مختلف؛ و (2) تضمين المقاييس القائم على الأحكام الإنسانية من تشابه الرأي "ولكن عدم وجود فرق الرأي". بناء على تحليلنا، نحدد المجالات التي ينبغي فيها تحسين المقاييس الحالية. نقترح مزيد من التعلم لتعلم مقياس التشابه من أجل تشابه الرأي من خلال ضبط شبكة تضمين عقوبة القصص الجماعية بناء على نص المراجعة والإشراف الضعيف عن طريق تقييمات المراجعة. تبين التجارب أن لدينا متري المستفادة تفوقت مقاييس التشابه النصية الحالية، وخاصة تظهر ارتباطا أعلى بكثير مع شروح بشرية لآراء مختلفة.
اقترحت الدراسات النفسية تتبع العين أن التماسك الدلالي في السياق والتنبؤية تؤثر على معالجة اللغة خلال نشاط القراءة.في هذه الدراسة، يمكننا التحقيق في الارتباط بين أوجه التشابه الجيبيني المحسوب مع نماذج تضمين كلمة (كلا من البيانات الثابتة والسياقية) وبي انات تتبع العين من اثنين من القراءة الطبيعية.درسنا أيضا ارتباطات الدرجات المفاجئة المحسوبة بثلاث نماذج لغة حديثة.تظهر نتائجنا ارتباطا قويا للدرجات المحسوبة مع بيرت والقفازات، مما يشير إلى أن التشابه يمكن أن تلعب دورا مهما في أوقات القراءة النمذجة.
يقارن تقييم نماذج الرد على الأسئلة التوضيحية حول التوقعات النموذجية. ومع ذلك، اعتبارا من اليوم، فإن هذه المقارنة تعتمد في الغالب معجمية، وبالتالي تفتقد الإجابات التي لا تحتوي على تداخل جذري ولكن لا تزال مماثلة متشابهة دلالة، وبالتالي علاج الإجابات ال صحيحة على أنها خاطئة. يعيق هذا التقليل من الأداء الحقيقي للنماذج قبول المستخدم في التطبيقات ويعقد مقارنة عادلة من النماذج المختلفة. لذلك، هناك حاجة إلى متري تقييم يعتمد على دلالات بدلا من تشابه السلسلة الخالصة. في هذه الورقة القصيرة، نقدم SAS، وهي متري مقرها في التشفير لتقدير تشابه الإجابة الدلالية، ومقارنتها بسبعة مقاييس موجودة. تحقيقا لهذه الغاية، نقوم بإنشاء مجموعة بيانات تقييم اللغة الإنجليزية ثلاثية وألمانية تحتوي على أزواج من الإجابات جنبا إلى جنب مع الحكم البشري من التشابه الدلالي، والتي نصرح لها جنبا إلى جنب مع تنفيذ Metric SAS والتجارب. نجد أن مقاييس التشابه الدلالي القائم على نماذج المحولات الأخيرة ترتبط بشكل أفضل بكثير مع الحكم البشري من مقاييس التشابه المعجمية التقليدية على مجموعات بياناتنا التي أنشأت حديثا ومجموعة بيانات واحدة من العمل ذي الصلة.
التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا