ترغب بنشر مسار تعليمي؟ اضغط هنا

نقوم بتقديم Gerdalir، مجموعة بيانات ألمانية لاسترجاع المعلومات القانونية بناء على وثائق الحالة من منصة المعلومات القانونية المفتوحة المفتوحة.تتكون DataSet من استفسارات 123 ألفا، يتم تصنيف كل منها وثيقة واحدة ذات صلة على الأقل في مجموعة من وثائق الحال ة 131K.نقوم بإجراء العديد من التجارب الأساسية بما في ذلك BM25 وإعادة الرحالة العصبية لحديمع DataSet لدينا، نهدف إلى توفير معيار موحد لرجال الألمانية وترويج البحث المفتوح في هذا المجال.أبعد من ذلك، تضم مجموعة بياناتنا بيانات تدريبية كافية لاستخدامها كملقمة من النماذج في اللغة الألمانية أو اللغوية متعددة اللغات.
مع ظهور Advent of Store argeddings، زادت الاهتمام تجاه نهج التصنيف العصبي لاسترجاع المعلومات بشكل كبير. ومع ذلك، ظلت جائبتان مهمان إلى حد كبير: I) عادة ما تتكون الاستعلامات من عدد قليل من الكلمات الرئيسية فقط، مما يزيد من الغموض ويجعل سياقه أكثر صعوب ة، والثاني) أداء التصنيف العصبي على المستندات غير الإنجليزية لا يزال مرهقا بسبب نقص مجموعات البيانات المسمى. في هذه الورقة، نقدم سيدي (استرجاع المعلومات المحسنة) للتخفيف من المشكلتين من خلال الاستفادة من معلومات معنى النص. يكمن في جوهر نهجنا آلية توسيع عملية استعلام متعددة اللغات الرواية بناء على غزانة إحساس النصوص التي توفر تعريفات المعنى بأنها معلومات دلالية إضافية للاستعلام. الأهم من ذلك، نحن نستخدم الحواس كجسر عبر اللغات، وبالتالي السماح لطرازنا بأداء أفضل بكثير من بدائلها الخاضعة للإشراف وغير المعروضة عبر اللغات الفرنسية والألمانية والإيطالية والإسبانية على العديد من المعايير المفصيلة المفكف، بينما يتم تدريبها على بيانات Robust04 الإنجليزية فقط. نطلق سراح سيدي في https://github.com/sapienzanlp/sir.
نعرض في هذا البحث مودل لتوسيع الاستعلامات التلقائية في نظم استرجاع المعلومات متعددة اللغات في المجال الطبي. يوظف المودل المستخدم ترجمة آلية للاستعلام في اللغة المصدر الى لغة المستندات وتابع انحدار خطي لتوقّع دقة الاسترجاع لكل استعلام مترجم عند توسيع هذا الاستعلام مع كلمة مرشحة. الكلمات المرشحة (في لغة المستندات) اختيرت من مصادر متعددة: الترجمات المقترحة للاستعلام التي تم الحصول عليها من نظام ترجمة آلي, مقالات ويكيبيديا, وملخصات PubMed. توسيع الاستعلام يُطبق فقط عندما يتوقّع المودل قيمة للكلمة المرشحة تتجاوز عتبة تم تدريبها مسبقا ليسمح ذلك لتوسيع الاستعلامات فقط بالكلمات المرتبطة بقوّة به. اختباراتنا تم تنفيذها على بيانات الاختبار الخاصة ب CLEF eHealth 2013-2015 وأظهرت تفوق ملحوظ في نظم استرجاع المعلومات متعددة اللغات واحادية اللغة.
يعرض هذا البحث آليات تطبيق تقنيات التنقيب في المعطيات و حلول ذكاء الأعمال على المعطيات الموجودة ضمن مكتبة الجامعة العربية الدولية بعد ربطها بمعطيات الطلاب الموجودة ضمن النظام الأكاديمي الخاص بالجامعة، و الإجابة عن مجموعة من الأسئلة و الاستفسارات ا لتي من الممكن أن تؤثر في سير العمل ضمن المؤسسة التعليمية بوجه عام و ضمن مكتبة الجامعة بوجه خاص، و تقديم بعض الحلول لمساعدة المكتبة في تطوير خدماتها، و تطوير آليات العمل ضمنها، إضافة إلى تحديد بعض المؤشرات المتعلقة بدور موارد المعلومات في تطوير العملية التعليمية.
يهدف هذا البحث إلى اقتراح طريقة لتحسين نتائج استرجاع المعلومات العربية دلالياً و ذلك بتلخيص النصوص تجريدياً (Abstractive Summary) باستخدام خوارزميات معالجة اللغات الطبيعية (NLP), حل غموض معاني الكلمات (WSD) و قياس التشابهية الدلالية (Semantic Si milarity) فيما بينها باستخدام الأنتولوجيا العربية Arabic WordNet.
أصبحت قضية استرجاع المعلومات في يومنا هذا من أهم القضايا والتحدّيات التي تشغل العالم كنتيجة منطقية للتطوّر التكنولوجي المتسارع والتقدم الهائل في الفكر الإنساني والبحوث والدراسات العلمية في شتى فروع المعرفة وما رافقه من ازدياد في كميات المعلومات إلى ح دّ يصعب التحكم بها والتعامل معها. لذا نهدف في مشروعنا إلى تقديم نظام استرجاع معلومات يقوم بتصنيف المستندات حسب محتواها إلا أن عمليّة استرجاع المعلومات تحوي درجة من عدم التأكد في كل مرحلة من مراحلها لذا اعتمدنا على شبكات بيز للقيام بعملية التصنيف وهي شبكات احتماليّة تحوّل المعلومات إلى علاقات cause-and-effect و تعتبر واحدة من أهم الطرق الواعدة لمعالجة حالة عدم التأكد . في البدء نقوم بالتعريف بأساسيّات شبكات بيز ونشرح مجموعة من خوارزميّات بنائها وخوارزميّات الاستدلال المستخدمة ( ولها نوعان دقيق وتقريبي). يقوم هذه النظام بإجراء مجموعة من عمليّات المعالجة الأوليّة لنصوص المستندات ثم تطبيق عمليات إحصائية واحتمالية في مرحلة تدريب النظام والحصول على بنية شبكة بيز الموافقة لبيانات التدريب و يتم تصنيف مستند مدخل باستخدام مجموعة من خوارزميات الاستدلال الدقيق في شبكة بيز الناتجة لدينا. بما أنّ أداء أي نظام استرجاع معلومات عادة ما يزداد دقّة عند استخدام العلاقات بين المفردات (terms) المتضمّنة في مجموعة مستندات فسنأخذ بعين الاعتبار نوعين من العلاقات في بناء الشبكة: 1- العلاقات بين المفردات(terms). 2- العلاقات بين المفردات والأصناف(classes).
نتيجةً للتطور الهائل في العلوم والتكنولوجيا، والانتشار الواسع للإنترنت، باتت المعرفة البشرية في متناول كل شخص منا. لكن ومع هذا الكم الهائل من المعلومات، اصبح القارئ مشتتا بين مصادر عديدة تجعله يضيع في هذا الفضاء الواسع. انفجار المعلومات هذا تطلب وسائ ل للسيطرة عليه تقوم بتنظيم هذه المعلومات وترتيبها تحت عناوين عريضة، وتتتبعها. من هنا بدء المجتمع التقني بالاتجاه نحو مجال جديد اطلق عليه اسم اكتشاف الموضوع وتتبعه. يطبق هذا المفهوم بشكل واسع في مجال شبكات التواصل الاجتماعي، الاخبار، المقالات العلمية وغيرها الكثير. ففي مجال الاخبار كثيرا ما ترى آلاف وكالات الاخبار تبث عشرات الاف القصص الاخبارية حول نفس الحدث، ما دفع البوابات الاخبارية وفي مقدمتها Google news لتطبيق نظام اكتشاف للموضوع وتتبعه. يعنى هذا النظام بمجموعة من المهام المعرفة من قبل منظمة DARPA، أولها مراقبة سيل من القصص النصية المتصلة لمعرفة الحدود الفاصلة بين كل قصة والاخرى، وتدعى تقطيع القصص، ثانيها مهمتها الاجابة على السؤال: هل تناقش قصتان معطاتان نفس الموضوع او الحدث؟ وتدعى اكتشاف الصلة. ثالثها معنية بمراقبة سيل من القصص لاكتشاف تلك التي تناقش موضوعا معرفا من قبل المستخدم، وتدعى بتتبع الموضوع. رابعها تهتم بالتعرف على القصص التي تناقش احداثا جديدة فور وصولها، وتدعى اكتشاف القصة الاولى. واخرها تدعى اكتشاف الموضوع، وهي مسؤولة عن فصل مجموعة من القصص المختلطة الى مواضيع، بدون اي معرفة مسبقة بهذه المواضيع، اي تجميع القصص التي تناقش موضوعا واحدا في نفس العنقود. نعمل من خلال هذا المشروع على تطبيق المهام الاربع الاخيرة وتقييمها. يتم استلام القصص في الزمن الحقيقي، اجراء معالجة مسبقة عليها (معالجة لغوية وغير ذلك)، ثم يتم تمثيل القصص بشكل اشعة وتوزين كلمات كل قصة، يتم بعدها اختيار مجموعة كلمات لتمثيل القصة. اما تمثيل المواضيع فنختبر اشكالا مختلفة، كالتمثيل الشعاعي او التمثيل بالقصص وغير ذلك. نناقش خلال هذا المشروع ايضاً استخدام معايير مختلفة لتمثيل القصص وقياس تشابهها، ونختبر استخدام عنوان القصة وتاريخها كمميزات بالإضافة الى مجموعة الكلمات. كما ونتحدث عن منهج خاص بنا لتقييس التشابهات بين القصص والتخفيف من تأثير عمليات اختيار العتبات في النظام، ونعرض التحسينات المذهلة التي يبديها هذا المنهج، والتي تمكن من بناء نظام اكتشاف موضوع وتتبعه، دون القلق حول تحديد العتبة اطلاقا، والذي لطالما كان يمثل التحدي الاكبر لهذا النوع من الانظمة. نتحدث عن تطبيقنا لخوارزميات العنقدة الاكثر تطورا في مهمة اكتشاف الموضوع، ونعرض كيفية قيامنا بتعديل مصفوفة التجاذب في خوارزمية العنقدة الطيفية المطروحة واستخدام طريقة تقييس مختلفة تم تكييفها مع حالة نظامنا، والتي ادت الى تحسين اداء العنقدة من 0.89 الى 0.97 مقاسا على F-measure
تمثل قدرة التنقيب في المعطيات ( Data Mining ) على استخلاص معلومات تنبوئية من قواعد معطيات ضخمة أداة فعالة في يد الشركات و الأفراد تتيح لهم التركيز على النواحي التي تهمهم من المعطيات الضخمة التي تولدها مسيرة عملهم اليومية. و مع تزايد أهمية هذا العلم ت زايدت بشكل متسارع الأدوات التي بنيت لتطبيق مفاهيمه النظرية بأسرع ما يمكن , حتى غدا من الصعب اتخاذ القرار حول أي من هذه الأدوات هو الأمثل لأداء مهمتك المرجوة. تقدم الدراسة مقارنة بين أداتي التنقيب في المعطيات الأكثر استخداما وفقا لاستطلاعات الرأي و هما Rapidminer و لغة البرمجة R بهدف مساعدة الباحث أو المطور على اختيار الأنسب بينهما. اعتمدت المقارنة على سبعة معايير : منصة العمل , الخوارزميات المضمنة, الصيغ المتاحة للدخل و الخرج , إمكانية التمثيل الرسومي , تقييم المستخدمين , البنية و امكانيات التطوير , الأداء بتطبيق مجموعة من خوارزميات التصنيف على عدد من مجموعات البيانات ( data set ) و باستخدام تقنيتي تقسيم cross validation و hold-out للتأكد من النتائج . من خلال الدراسة تبين أن R هي الأداة التي تدعم أكبر عدد من الخوارزميات و صيغ الدخل و الخرج و التمثيل الرسومي بينما تفوق Rapidminer من حيث سهولة الاستخدام و دعمه لعدد أكبر من منصات العمل. أما من حيث الأداء فدقة المصنفات التي بنيت باستخدام مكتبات كانت أعلى إلا في بعض الحالات التي فرضتها طبيعة المعطيات حيث لم يضف أي مرحلة معالجة مسبقة. و أخيرا يغدو الخيار في تفضيل أي الأداتين معتمدا على مدى خبرة المستخدم و هدفه من استخدام الأداة.
هدفنا من خلال هذه الدراسة في إطار المشروع الفصلي للسنة الرابعة إلى إلقاء الضوء على استرجاع الصور من مجموعة كبيرة بالاعتماد على محتوى صورة هدف , و قمنا بتدعيم هذه الدراسة بتطبيق ضمن بيئة الماتلاب لبرنامج بحث عن الصور المشابهة لصورة مدخلة . و قد تركز بحثنا على ميزتين هامتين يكاد لا يخلو منها أي نظام بحث عن الصور بالاعتماد على المحتوى و هما ميزتي الهيستوغرام اللوني و بنية الصورة texture , ووضحنا الخطوات التي يتم في ضوئها عملية الاسترجاع بدءاً من تحليل الصورة و استخلاص شعاع الواصفات الخاص فيها , و مطابقته مع أشعة الميزات الخاصة بالصور الموجودة في قاعدة البيانات ليتم ترتيب الصور بحسب مدى تشابهها من الصورة الهدف . و تطرقت الدراسة إلى استخدام الفضاء اللوني HMMD كبديل للفضاء اللوني RGB لاستخراج واصفات البنية اللونية على اعتبار أنه نموذج لوني موجه بالمستخدم user oriented و بالتالي نضمن أن نحصل على نتائج أفضل ترضي المستخدم . وقمنا بتدعيم الدراسة بعدد من الأشكال و الأمثلة و المخططات التي توضح محتوى الدراسة النظرية و ما قمنا بعمله في التطبيق ضمن بيئة الماتلاب .
نعرض في هذا البحث مقاربة لتكامل محركات البحث مع تقنيات الترشيح، و ذلك من خلال علاقة دينامكية للتهجين بين الترشيح التعاوني، و الترشيح المرتكز على المحتوى؛ بهدف التخفيف من المحدوديات السابقة، و تحسين مقاييس الدقة و الاستذكار للوثائق المسترجعة. تَستخدم المقاربة المقترحة نموذج أنطلوجي المجال (Domain ontology) في تمثيل لاحة المستخدم بهدف الحد من الأخطاء و التشويش الناتجة عن عد لاحة المستخدم ككيان واحد كما تَستفيد من تفاعل المستخدم و نشاطه، للقيام بعمليات التعليم و التكيف المستمر للاحة المستخدم؛ لتعكس بشكل دائم شخصيته و ميوله دون الاعتماد على أمثلة تدريبية فقط؛ بهدف تحسين الترشيح، و تلبية حاجة المستخدم بالحصول على المعلومات الموائمة بدقة أكبر.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا