ترغب بنشر مسار تعليمي؟ اضغط هنا

اكتشاف الموضوع وتتبعه

Topic Detection and Tracking

1561   1   29   0 ( 0 )
 تاريخ النشر 2016
والبحث باللغة العربية
 تمت اﻹضافة من قبل Doried Abd-Allah




نتيجةً للتطور الهائل في العلوم والتكنولوجيا، والانتشار الواسع للإنترنت، باتت المعرفة البشرية في متناول كل شخص منا. لكن ومع هذا الكم الهائل من المعلومات، اصبح القارئ مشتتا بين مصادر عديدة تجعله يضيع في هذا الفضاء الواسع. انفجار المعلومات هذا تطلب وسائل للسيطرة عليه تقوم بتنظيم هذه المعلومات وترتيبها تحت عناوين عريضة، وتتتبعها. من هنا بدء المجتمع التقني بالاتجاه نحو مجال جديد اطلق عليه اسم اكتشاف الموضوع وتتبعه. يطبق هذا المفهوم بشكل واسع في مجال شبكات التواصل الاجتماعي، الاخبار، المقالات العلمية وغيرها الكثير. ففي مجال الاخبار كثيرا ما ترى آلاف وكالات الاخبار تبث عشرات الاف القصص الاخبارية حول نفس الحدث، ما دفع البوابات الاخبارية وفي مقدمتها Google news لتطبيق نظام اكتشاف للموضوع وتتبعه. يعنى هذا النظام بمجموعة من المهام المعرفة من قبل منظمة DARPA، أولها مراقبة سيل من القصص النصية المتصلة لمعرفة الحدود الفاصلة بين كل قصة والاخرى، وتدعى تقطيع القصص، ثانيها مهمتها الاجابة على السؤال: هل تناقش قصتان معطاتان نفس الموضوع او الحدث؟ وتدعى اكتشاف الصلة. ثالثها معنية بمراقبة سيل من القصص لاكتشاف تلك التي تناقش موضوعا معرفا من قبل المستخدم، وتدعى بتتبع الموضوع. رابعها تهتم بالتعرف على القصص التي تناقش احداثا جديدة فور وصولها، وتدعى اكتشاف القصة الاولى. واخرها تدعى اكتشاف الموضوع، وهي مسؤولة عن فصل مجموعة من القصص المختلطة الى مواضيع، بدون اي معرفة مسبقة بهذه المواضيع، اي تجميع القصص التي تناقش موضوعا واحدا في نفس العنقود. نعمل من خلال هذا المشروع على تطبيق المهام الاربع الاخيرة وتقييمها. يتم استلام القصص في الزمن الحقيقي، اجراء معالجة مسبقة عليها (معالجة لغوية وغير ذلك)، ثم يتم تمثيل القصص بشكل اشعة وتوزين كلمات كل قصة، يتم بعدها اختيار مجموعة كلمات لتمثيل القصة. اما تمثيل المواضيع فنختبر اشكالا مختلفة، كالتمثيل الشعاعي او التمثيل بالقصص وغير ذلك. نناقش خلال هذا المشروع ايضاً استخدام معايير مختلفة لتمثيل القصص وقياس تشابهها، ونختبر استخدام عنوان القصة وتاريخها كمميزات بالإضافة الى مجموعة الكلمات. كما ونتحدث عن منهج خاص بنا لتقييس التشابهات بين القصص والتخفيف من تأثير عمليات اختيار العتبات في النظام، ونعرض التحسينات المذهلة التي يبديها هذا المنهج، والتي تمكن من بناء نظام اكتشاف موضوع وتتبعه، دون القلق حول تحديد العتبة اطلاقا، والذي لطالما كان يمثل التحدي الاكبر لهذا النوع من الانظمة. نتحدث عن تطبيقنا لخوارزميات العنقدة الاكثر تطورا في مهمة اكتشاف الموضوع، ونعرض كيفية قيامنا بتعديل مصفوفة التجاذب في خوارزمية العنقدة الطيفية المطروحة واستخدام طريقة تقييس مختلفة تم تكييفها مع حالة نظامنا، والتي ادت الى تحسين اداء العنقدة من 0.89 الى 0.97 مقاسا على F-measure

المراجع المستخدمة
Allan, J., Carbonell, J., Doddington, G., Yamron, J., & Yang, Y. (1998). Topic Detection and Tracking Pilot Study- Final Report. UMass Amherst,CMU,DARPA and Dragon Systems.
Allan, J., Lavrenko, V., & Connell, M. E. (2003, September). A month to topic detection and tracking in Hindi. ACM Journal.
Bauhaus-Universität Weimar. (n.d.). Clusters Evaluation. Retrieved July 9, 2016, from Bauhaus-Universität Weimar: http://www.uni-weimar.de/medien/webis/teaching/lecturenotes/machine-learning/unit-en-cluster-analysis-evaluation.pdf
EL. Bhissy, K., EL. Faleet, F., & Ashour, W. (2014). Spectral Clustering Using Optimized Gaussian Kernel. International Journal of Artificial Intelligence and Applications for Smart Devices.
G. Fiscus, J., & R. Doddington , G. (2002). Topic Detection and Tracking Evaluation Overview. NIST publications.
Hiemstra, D. (2006). LANGUAGE MODELS. Retrieved July 9, 2016, from Universiteit Twente: http://doc.utwente.nl/64831/1/eds-lm-draft.pdf
Liu, X. (2011, December). Topic Detection with Hypergraph Partition. Journal of software.
Strang, G. (2016). Introduction to Linear Algebra. In G. Strang, Introduction to Linear Algebra (5 ed., pp. 283-297). MIT.
Wayne, C. L. (1998). Topic Detection & Tracking (TDT) Overview & Perspective. Retrieved July 8, 2016, from National Institute of Standards and Technology: http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa98/html/tdt10/tdt10.htm
Y. Ng, A., I. Jodran, M., & Weiss, Y. (2001). on spectral clustering analysis and an algorithm. Neural Information Processing Systems.
Zelnik-Manor, L., & Perona, P. (2004). Self-Tuning Spectral Clustering. Neural Information Processing Systems.
قيم البحث

اقرأ أيضاً

يتطلب محتوى الوسائط الاجتماعية المتغيرة بسرعة لنماذج الكشف عن إساءة الاستخدام قوية وممتع.ومع ذلك، فإن النماذج الخاضعة للإشراف على أحدث حدوث عرض الأداء المتدهورة عند تقييمها بشأن التعليقات المسيئة التي تختلف عن Training Corpus.نحقق في ما إذا كان أداء النماذج الخاضعة للإشراف للكشف عن إساءة استخدام سوريا يمكن تحسينه من خلال دمج معلومات إضافية من نماذج الموضوع، حيث يمكن أن يستنتج الأخير مخاليط الموضوعات الكامنة من العينات غير المرئية.على وجه الخصوص، نجمع بين المعلومات الموضعية مع التمثيلات من نموذج تم ضبطه لتصنيف التعليقات المسيئة.يكشف تحليل الأداء الخاص بنا أن نماذج الموضوعات قادرة على التقاط الموضوعات المتعلقة بالإساءة التي يمكنها نقلها عبر كوربورا، وتؤدي إلى تحسين التبرعات.
عند تطوير نماذج الموضوع، سؤال مهم يجب طرحه هو: ما مدى عمل هذا النموذج في إعداد تطبيقي؟ نظرا لأن تقييم الأداء القياسي لتفسير الترجمة الشفوية يستخدم التدابير الآلية على غرار اختبارات التقييم البشري المختلف من الاستخدام التطبيقي، لا تزال تعميم هذه النما ذج في سؤال. في هذه الورقة، نجري مسألة الصلاحية في تقييم النموذج الموضوعي وتقييم كيفية اتخاذ تدابير التماسك بالفمية للمجموعات المتخصصة المستخدمة في إعداد تطبيقي. أبلغ عن الأدب، ونقترح أربع فهمات من الترجمة الشفوية. نقيم هذه استخدام إطار تجريبي جديد يعكس الإعدادات التطبيقية المتنوعة، بما في ذلك التقييمات البشرية باستخدام وضع العلامات المفتوحة، نموذجية للبحث التطبيقي. تظهر هذه التقييمات أنه بالنسبة لبعض المجموعات المتخصصة، قد لا تؤدي تدابير التماسك القياسية إلى إبلاغ طراز الموضوع الأكثر ملاءمة أو عدد الأمثل من الموضوعات، ويتم الطعن في طرق التحقق من صحة أداء الترجمة الترجمة الشاملة كوسيلة لتأكيد جودة النموذج في غياب بيانات الحقيقة الأرضية.
يعمل العمل الحديث في محاولات تعدين الحجة عبر الموضوعات لتعلم النماذج التي تعزز عبر الموضوعات بدلا من الاعتماد فقط على الارتباطات الزائفة داخل الموضوع.نحن ندرس فعالية هذا النهج من خلال تحليل إخراج النماذج ذات المهمة الفردية ومتعدد المهام للتطوير عبر ا لموضوعات التعدين، من خلال مزيج من تقريبية خطية من حدود قراراتهم، وتجميع الميزات اليدوية، أمثلة التحدي، والاعتبارات عبر المدخلاتكلمات.من المستغرب أن نوضح أن النماذج عبر الموضوعات لا تزال تعتمد في الغالب على ارتباطات زائفة وتعميم فقط داخل مواضيع مرتبطة ارتباطا وثيقا، على سبيل المثال، نموذج مدرب فقط على الكلمات الفئة المغلقة وبعض الكلمات المفتوحة الشائعة تفوقت على حالة منالفن المتبادل نموذج المواضيع المستهدفة البعيدة.
من النماذج الإحصائية إلى النماذج العصبية، تم اقتراح مجموعة واسعة من خوارزميات نمذجة الموضوعات في الأدب. ومع ذلك، بسبب تنوع مجموعات البيانات والمقاييس، لم تكن هناك العديد من الجهود لمقارنة أدائها بشكل منهجي على نفس المعايير وتحت نفس الشروط. في هذه الو رقة، نقدم مجموعة مختارة من 9 تقنيات نمذجة موضوعا من حالة الفن التي تعكس تنوع مناهج المهمة، لمحة عامة عن المقاييس المختلفة المستخدمة لمقارنة أدائها، وتحديات إجراء هذه المقارنة. نحن نقيم تجريبيا أداء هذه النماذج على إعدادات مختلفة تعكس مجموعة متنوعة من الظروف الواقعية من حيث حجم مجموعة البيانات وعدد المواضيع وتوزيع الموضوعات، بعد عمليات المعالجة والتتقييم المتطابقة. باستخدام كل من المقاييس التي تعتمد على الخصائص الجوهرية لمجموعات البيانات (مقاييس الاتساق المختلفة)، بالإضافة إلى المعرفة الخارجية (تضييع Word Adgeddings وموضوع الحقيقة)، تكشف تجاربنا عدة أوجه القصور فيما يتعلق بالممارسات المشتركة في تقييم نماذج الموضوعات.
في هذه الورقة، نقدم إشتاليا، مكونا للتصور لاستكشاف المواضيع الزمنية في Text Corpora.يستخدم Temotopic استعارة الفسيفساء الزمنية لتقديم الموضوعات كجدول زمني من القضبان مكدسة جنبا إلى جنب مع الكلمات الرئيسية ذات الصلة لكل موضوع.يعمل التصور بمثابة نظرة ع امة على التوزيع الزمني للمواضيع، إلى جانب محتويات الكلمات الرئيسية للموضوعات، والتي تدعم بشكل جماعي التفاعلات بالتفصيل عند الطلب مع نص المصدر للشرج.من خلال هذه التفاعلات واستخدام الضوء على الكلمات الرئيسية، يمكن استكشاف المحتوى المتعلق بكل موضوع وتغييره بمرور الوقت.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا