ترغب بنشر مسار تعليمي؟ اضغط هنا

تحسين قواعد التعلم لاستخلاص العلاقات من نص

Improvement learning rules for Relations Extraction from text

1161   0   10   0 ( 0 )
 تاريخ النشر 2018
  مجال البحث رياضيات
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

استخدمت نظم استخلاص العلاقة استخداماً واسعاً للميزات المولدة من وحدات التحليل اللغوي. إذ تؤدي الأخطاء في هذه المميزات إلى أخطاء في كشف العلاقة و تصنيفها. في هذا البحث، نخرج من هذه الطرق التقليدية مع بنية مميز معقدة من خلال تقديم الشبكات العصبونية الالتفافية لاستخلاص العلاقة التي تتعلم تلقائيا ميزات من الجمل و تقلل من الاعتماد على مجموعة الأدوات و المصادر الخارجية. نموذجنا يأخذ مزايا أحجام لنوافذ متعددة للمرشحات و تضمينات الكلمة المدربة سابقا كدخل لبنية غير ثابتة لتحسين الأداء.


ملخص البحث
تناقش هذه الورقة البحثية استخدام الشبكات العصبونية الالتفافية (CNN) لتحسين عملية استخلاص العلاقات من النصوص. تقترح الدراسة نموذجًا يعتمد على التعلم العميق لتوليد ميزات أكثر فعالية من الجمل، مما يقلل من الاعتماد على الأدوات والمصادر الخارجية. يتميز النموذج باستخدام أحجام نوافذ متعددة للمرشحات وتضمينات الكلمات المدربة مسبقًا لتحسين الأداء. تتكون الشبكة من أربع طبقات رئيسية: جداول البحث لترميز الكلمات، الطبقة الالتفافية، طبقة التجميع، وطبقة الانحدار النسبي لأداء التصنيف. تم اختبار النموذج على مجموعتين من البيانات (SemEval-2010 و ACE2005)، وأظهرت النتائج تفوق النموذج المقترح على الأنظمة التقليدية في استخلاص العلاقات.
قراءة نقدية
دراسة نقدية: تقدم هذه الورقة مساهمة مهمة في مجال معالجة اللغات الطبيعية باستخدام التعلم العميق، إلا أن هناك بعض النقاط التي يمكن تحسينها. أولاً، كان من المفيد تضمين مقارنة أعمق مع نماذج أخرى غير تقليدية لاستخلاص العلاقات. ثانيًا، لم يتم التطرق بشكل كافٍ إلى تحديات تطبيق النموذج في بيئات متعددة اللغات. وأخيرًا، كان من الممكن تقديم تحليل أكثر تفصيلاً حول تأثير أحجام النوافذ المختلفة على الأداء النهائي للنموذج.
أسئلة حول البحث
  1. ما هو الهدف الرئيسي من البحث؟

    الهدف الرئيسي هو تحسين وتطوير نموذج لحل مشكلة استخلاص العلاقات من النصوص باستخدام التعلم العميق وتوليد ميزات أكثر فعالية لتحسين أداء النظام.

  2. ما هي المكونات الرئيسية للنموذج المقترح؟

    يتكون النموذج من أربع طبقات رئيسية: جداول البحث لترميز الكلمات، الطبقة الالتفافية، طبقة التجميع، وطبقة الانحدار النسبي لأداء التصنيف.

  3. ما هي البيانات التي تم اختبار النموذج عليها؟

    تم اختبار النموذج على مجموعتين من البيانات: SemEval-2010 و ACE2005.

  4. ما هي النتائج التي توصلت إليها الدراسة؟

    أظهرت النتائج أن النموذج المقترح يتفوق بشكل ملحوظ على الأنظمة التقليدية في استخلاص العلاقات، خاصة عند استخدام أحجام نوافذ متعددة وتضمينات الكلمات المدربة مسبقًا.


المراجع المستخدمة
Blitzer, John, McDonald, Ryan, and Pereira, Fernando (2006). “Domain Adaptation with Structural Correspondence Learning”. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP)
Daume, Hal (2007). “Frustratingly Easy Domain Adaptation”. In: Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL)
McClosky, David, Charniak, Eugene, and Johnson, Mark (2010). “Automatic Domain Adaptation for Parsing”. In: Proceedings of the North American Chapter of the Association for Computational Linguistics Conference (HLT NAACL)
قيم البحث

اقرأ أيضاً

استخراج العلاقات على مستوى المستند يهدف إلى تحديد العلاقات بين الكيانات في وثيقة كاملة. اعتمدت الجهود السابقة لالتقاط التبعيات البعيدة المدى اعتمادا كبيرا على تمثيلات قوية ضمنيا تعلمت من خلال (الرسم البياني) الشبكات العصبية، مما يجعل النموذج أقل شفاف ية. لمعالجة هذا التحدي، في هذه الورقة، نقترح Logire، نموذج احتمالي رواية لاستخراج العلاقة على مستوى المستند من خلال قواعد المنطق التعلم. يعامل Logire القواعد المنطقية مثل المتغيرات الكامنة وتتكون من وحدات اثنين: مولد القاعدة واستخراج العلاقة. إن مولد القاعدة هو توليد قواعد المنطق التي يحتمل أن تسهم في التنبؤات النهائية، ونضول النازع العلاقة تنبؤات نهائية بناء على قواعد المنطق التي تم إنشاؤها. يمكن تحسين هاتين الوحداتتين بكفاءة مع خوارزمية التوقعات (EM). من خلال إدخال القواعد المنطقية في الشبكات العصبية، يمكن ل Rogire أن تلتقط الصريح التبعيات طويلة المدى وكذلك الاستمتاع بتفسير أفضل. تظهر النتائج التجريبية أن تتفوق بشكل كبير على العديد من خطوط الأساس القوية من حيث الأداء العلاقة والاتساق المنطقي. يتوفر الكود الخاص بنا في https://github.com/rudongyu/logire.
إن استخلاص المعلومات هي مهمة العثور على المعلومات المنظمة من نص غير منظم أو نص شبه منظم و هي مهمة هامة في التنقيب بالنصوص و قد تمت دراستها على نطاق واسع في الأوساط البحثية المختلفة بما في ذلك معالجة اللغة الطبيعية، و استرجاع المعلومات و التنقيب عل ى شبكة الإنترنت إضافة إلى مجموعة واسعة من التطبيقات في مجالات التنقيب في الطب الحيوي و الذكاء التجاري. هناك مهمتين أساسيتين لاستخلاص المعلومات و هما التعرف على الكيان و استخلاص العلاقة، المهمة الأولى تشير إلى العثور على الكيانات ذات العلاقة مثل الأشخاص و أسماء الشركات و المواقع ، و المهمة الأخرى تشير إلى العثور على العلاقات الدلالية بين هذه الكيانات.
تهدف الدراسة الحالية إلى التعرف على طبيعة العلاقات الافتراضية و خصائصها المميزة، و التعرف إلى الأسباب التي تقف وراء اندفاع الأعداد الكبيرة من الناس إلى الالتحاق بالمجتمع الافتراضي و الانخراط في علاقاته المختلفة من اقتصادية و اجتماعية و عاطفية، و بناء حالة موازية لعلاقات المجتمع الواقعي. كما يهدف البحث إلى استكشاف ما إذا كانت القيم كقواعد و موجهات للسلوك و العلاقات الاجتماعية الواقعية تؤدي ذات الدور في المجتمع على الخط و هل يعد اللجوء الطوعي للمجتمع الافتراضي انسحابا طوعياً من المجتمع الواقعي، أم مجرد طفرة عابرة ؟. استخدم الباحث المنهج المقارن بشكل رئيسي و منهج التحليل التاريخي عند الحاجة بحسب مقتضيات الضرورة العلمية و المنهجية للإجابة عن تساؤلات البحث، و ما ابتغاه من أهداف بخاصة و أن المنهج المقارن من المناهج المستخدمة على نحو شائع في البحوث و الدراسات الاجتماعية التي تتطلع إلى الكشف عن مواطن التشابه و الاختلاف بخصوص ظواهر بعينها. و هذا ينطبق على دراستنا الحالية. كما يفيد المنهج التاريخي في العودة إلى الماضي البعيد أو القريب للتعرف على تقنيات الاتصال و التواصل الاجتماعي و وضع كل ذلك في سياقه الصحيح وفق مقتضيات البحث و ضروراته.
تعد تقنيات التعرف على الكلام من أهم التقنيات الحديثة التي دخلت بقوة في مجالات الحياة المختلفة سواء الطبية أو الأمنية أو الصناعية. و بناءً عليه تم تطوير العديد من الأنظمة المعتمدة على طرق مختلفة في استخلاص السمات و التصنيف. في هذا البحث تم إنشاء ثلاث ة أنظمة للتعرف على الكلام، تختلف عن بعضها البعض بالطرق المستخدمة في مرحلة استخلاص السمات، حيث استخدم النظام الأول خوارزمية MFCC بينما استخدم النظام الثاني خوارزمية LPCC أما النظام الثالث فاستخدم خوارزمية PLP. تشترك هذه الأنظمة بطريقة التصنيف حيث استخدمت خوارزمية الـHMM كمصنف. في البداية تم دراسة و تقييم أداء عملية التعرف على الكلام للأنظمة الثلاثة السابقة المقترحة منفردةً. بعد ذلك تم تطبيق خوارزمية الجمع على كل زوج من الأنظمة المدروسة و ذلك لدراسة أثر خوارزمية الجمع في تحسين التعرف على الكلام. تم اعتماد نوعين من الأخطاء، الأخطاء التزامنية (simultaneous errors) و الأخطاء الاعتمادية ((dependent errors، كوحدة مقارنة لدراسة فعالية خوارزمية الجمع في تحسين أداء عملية التعرف على الكلام. يتبين من نتائج المقارنة أن أفضل نسبة تعرف على الكلام تم الحصول عليها في حالة جمع الخوارزميتان MFCC و PLP حيث تم الحصول على معدل تعرف 93.4%.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا