ترغب بنشر مسار تعليمي؟ اضغط هنا

نقترح multionedoc2dial، مهمة جديدة ومجموعة بيانات على الحوارات الموجهة نحو الأهداف النمذجة في مستندات متعددة.يعمل معظم الأعمال السابقة على علاج النمذجة الحوار المحدد في المستندات كملقمة لفهم قراءة الآلة استنادا إلى وثيقة أو مقطع واحد معين.في هذا العم ل، نهدف إلى معالجة سيناريوهات أكثر واقعية حيث تتضمن محادثة البحث عن المعلومات الموجهة نحو الأهداف موضوعات متعددة، وبالتالي يتم تقديمها على مستندات مختلفة.لتسهيل هذه المهمة، نقدم مجموعة بيانات جديدة تحتوي على حوارات ترتكز في مستندات متعددة من أربعة مجالات مختلفة.نحن نستكشف أيضا نمذجة السياقات القائمة على الحوار ومقرها المستندات في DataSet.نقدم نهج أساسية قوية ونتائج تجريبية مختلفة، تهدف إلى دعم المزيد من جهود البحث في هذه المهمة.
في حين أن العديد من خطوط أنابيب NLP تفترض أن النصوص النظيفة النظيفة، فإن العديد من النصوص التي نواجهها في البرية، بما في ذلك الغالبية العظمى من المستندات القانونية، ليست نظيفة للغاية، حيث يجري العديد منهم وثائق منظم بصريا (VSDS) مثل PDF. تقوم الأدوات المعالجة التقليدية ل VSDS تركز بشكل أساسي على تجزئة الكلمات وتحليل التخطيط الخشن، في حين أن تحليل الهيكل المنطقي المحلقات الدقيقة (مثل تحديد حدود الفقرة وهرميها) من VSDS هي غير متكسدة. تحقيقا لهذه الغاية، اقترحنا صياغة المهمة كتنبؤ بملميات الانتقال "بين شظايا الرسائل النصية التي تعرض الشظايا إلى شجرة، وتطوير نظام لتعلم الماكينات المستندة إلى ميزة يمبرص إشارات مرئية ونصية ودلية. يتم تخصيص نظامنا بسهولة إلى أنواع مختلفة من VSDS وكانت خطوط الأساس بشكل كبير في تحديد الهياكل المختلفة في VSDS. على سبيل المثال، حصل نظامنا على درجة الكشف عن حدود الفقرة 0.953 أفضل بكثير من أداة PDF-To-to-todly ذات درجة كبيرة مع درجة F1 من 0.739.
استخراج الجزء الأكثر أهمية من وثائق التشريعات له قيمة عمل كبيرة لأن النصوص عادة ما تكون طويلة جدا ويصعب فهمها.الهدف من هذه المقالة هو تقييم خوارزميات مختلفة لتلخيص النص على وثائق تشريعات الاتحاد الأوروبي.يحتوي المحتوى على كلمات خاصة بالمجال.جمعنا مجم وعة بيانات تلخيص نصية من الوثائق القانونية للاتحاد الأوروبي والتي تتكون من 1563 وثيقة، والتي متوسط طول الملخصات هو 424 كلمة.أجريت التجارب مع خوارزميات مختلفة باستخدام DataSet الجديدة.تم اختيار خوارزمية استخراجية بسيطة كأساس.الخوارزميات الاستخراجية المتقدمة، والتي تستخدم التشفير تظهر نتائج أفضل من خط الأساس.تم تحقيق أفضل نتيجة تقاس بواسطة درجات Rouge بواسطة نموذج T5 المبشط الذي تم ضبطه بشكل جيد، والذي تم تكييفه للعمل مع النصوص الطويلة.
تهدف MeasessVal إلى تحديد الكميات إلى جانب الكيانات التي تقاس خصائص إضافية داخل الوثائق العلمية الإنجليزية.مجموعة متنوعة من الأساليب المستخدمة تجعل القياسات، الجانب الأكثر أهمية في الكتابة العلمية، صعبة الاستخراج.تقدم هذه الورقة دراسات الاجتثاثات في اتخاذ القضية لعدة خطوات مسبقة مسبق مثل قواعد التزخم المتخصصة.بالنسبة للهيكل اللغوي، نشيف أشجار التبعية في شبكة استئصال الرسم البياني العميق (DGCNN) لتصنيف المهام المتعدد.
تعد فهم الجداول مهمة مهمة وذات صلة تتضمن فهم بنية الجدول وكذلك القدرة على مقارنة ومعلومات التباين داخل الخلايا. في هذه الورقة، نتعامل مع هذا التحدي من خلال تقديم مجموعة بيانات جديدة ومهام جديدة تعالج هذا الهدف في مهمة مشتركة في مهمة Semeval 2020 9: ا لتحقق من الحقائق وأدلة العثور على بيانات جدولية في الوثائق العلمية (حقائق SEM-Tab-Facts). تحتوي DataSet الخاصة بنا على 981 طاولة تم إنشاؤها يدويا وحدات بيانات تم إنشاؤها تلقائيا من 1980 طاولة توفر أكثر من 180 كيلو وايت وأكثر من 16 متر من التعليقات التوضيحية. ظهرت حقائق SEM-Tab مهام فرعية. في مهمة فرعية أ، كان الهدف هو تحديد ما إذا كان بيان مدعوم أو دحض أو غير معروف فيما يتعلق بجدول. في المهمة الفرعية B، كان التركيز على تحديد الخلايا المحددة للطاولة التي توفر أدلة على البيان. 69 وقعت فرق للمشاركة في المهمة مع 19 تقارير ناجحة إلى الفرعية و 12 من عروض ناجحة إلى Subtask B. نقدم نتائجنا والنتائج الرئيسية من المسابقة.
غالبا ما تتطلب المهام المكثفة المعرفة مثل الإجابة على الأسئلة استيعاب معلومات من أقسام مختلفة من المدخلات الكبيرة مثل الكتب أو مجموعات المقالات.نقترح ReadTwice، وهي تقنية بسيطة وفعالة تجمع بين العديد من نقاط القوة من الأساليب السابقة لنموذج التبعيات الطويلة المدى مع المحولات.الفكرة الرئيسية هي قراءة النص في شرائح صغيرة، بالتوازي، تلخيص كل قطعة في جدول الذاكرة لاستخدامه في القراءة الثانية للنص.نظهر أن الطريقة تتفوق على نماذج من حجم قابلة للمقارنة على العديد من مجموعات بيانات الإجابة على الأسئلة (QA) وتعيين حالة جديدة من الفن على المهمة السرقة الصعبة، مع أسئلة حول الكتب بأكملها.
في هذه الرسالة الأطروحة، نستكشف تطبيق استخراج الأحداث على النصوص الأدبية. بالنظر إلى أطوال أحداث النمذجة الأدبية في التحبيبات المختلفة قد تكون أكثر كافية لاستخراج معلومات ذات معنى، حيث تساهم العناصر الفردية القليل إلى الدلالات الإجمالية. نحن نتكيف مع مفهوم المخططات كسلسلة من الأحداث التي تصف جميعها عملية واحدة، متصلة من خلال المشاركين المشتركين إلى توسعها إلى مخططات متعددة في وثيقة. يتم تقسيم تسلسلات الأحداث في مخططات من خلال نماذج تسلسل الأحداث، في هذه المهمة كهذه المهمة السردية، التنبؤ بالأحداث المفقودة في التسلسل. نقترح بناء على تسلسل تضمين الأحداث لتشكيل شرق المخطط، وبالتالي تلخيص أقسام المستندات باستخدام تمثيل واحد. سيسمح هذا النهج بمقارنات أقسام مختلفة من الوثائق والأعمال الأدبية بأكملها. الأدب هو مجال صعبة يعتمد على مجموعة متنوعة من الأنواع، ولكن تمثيل المحتوى الأدبي قد تلقى اهتماما كبيرا نسبيا.
تتطلب تضمين الوثائق الحالية شركة تدريبية كبيرة ولكنها تفشل في تعلم تمثيلات عالية الجودة عند مواجهة عدد صغير من المستندات الخاصة بالمجال والشروط النادرة. علاوة على ذلك، يقومون بتحويل كل وثيقة إلى متجه تضمين واحد، مما يجعل من الصعب التقاط مفاهيم مختلفة من تشابه الوثيقة أو شرح سبب اعتبار المستندين مماثلة. في هذا العمل، نقترح تشفير المجال الأوجه لدينا، ونهج رواية لتعلم Admeddings متعددة الأوجه للمستندات الخاصة بالمجال. يعتمد ذلك على بنية شبكة عصبية سيامي ويعزز الرسوم البيانية المعرفة لتعزيز المدينات حتى لو كانت بعض عينات التدريب فقط متوفرة. يحدد النموذج أنواعا مختلفة من معرفة المجال وترميزها في أبعاد منفصلة من التضمين، مما يتيح طرق متعددة لإيجاد ومقارنة المستندات ذات الصلة في مساحة المتجهات. نقيم نهجنا على مجموعة بيانات قياسية وتجد أنه يحقق نفس جودة التضمين كطرازات حديثة بينما تتطلب سوى جزء صغير من بيانات التدريب الخاصة بهم فقط. تتوفر تجريبي تفاعلي ومجموعاتنا المصدر ومجموعات بيانات التقييم عبر الإنترنت: https://hpi.de/naumann/s/multifaceted-emberdings و screencast متاح على Youtube: https://youtu.be/hhcsx2clewg
أصبحت قضية استرجاع المعلومات في يومنا هذا من أهم القضايا والتحدّيات التي تشغل العالم كنتيجة منطقية للتطوّر التكنولوجي المتسارع والتقدم الهائل في الفكر الإنساني والبحوث والدراسات العلمية في شتى فروع المعرفة وما رافقه من ازدياد في كميات المعلومات إلى ح دّ يصعب التحكم بها والتعامل معها. لذا نهدف في مشروعنا إلى تقديم نظام استرجاع معلومات يقوم بتصنيف المستندات حسب محتواها إلا أن عمليّة استرجاع المعلومات تحوي درجة من عدم التأكد في كل مرحلة من مراحلها لذا اعتمدنا على شبكات بيز للقيام بعملية التصنيف وهي شبكات احتماليّة تحوّل المعلومات إلى علاقات cause-and-effect و تعتبر واحدة من أهم الطرق الواعدة لمعالجة حالة عدم التأكد . في البدء نقوم بالتعريف بأساسيّات شبكات بيز ونشرح مجموعة من خوارزميّات بنائها وخوارزميّات الاستدلال المستخدمة ( ولها نوعان دقيق وتقريبي). يقوم هذه النظام بإجراء مجموعة من عمليّات المعالجة الأوليّة لنصوص المستندات ثم تطبيق عمليات إحصائية واحتمالية في مرحلة تدريب النظام والحصول على بنية شبكة بيز الموافقة لبيانات التدريب و يتم تصنيف مستند مدخل باستخدام مجموعة من خوارزميات الاستدلال الدقيق في شبكة بيز الناتجة لدينا. بما أنّ أداء أي نظام استرجاع معلومات عادة ما يزداد دقّة عند استخدام العلاقات بين المفردات (terms) المتضمّنة في مجموعة مستندات فسنأخذ بعين الاعتبار نوعين من العلاقات في بناء الشبكة: 1- العلاقات بين المفردات(terms). 2- العلاقات بين المفردات والأصناف(classes).
في هذا البحث سنقوم باقتراح طريقة ترقيم جديدة Grouped OrdPath تعتمد على طريقةOrdPath المعروفة لتحسين أدائها و أهم اهداف البحث هو الحصول على بنية تخزين ذات حجم صغير. سنقوم بتجميع عقد المستند على شكل أشجار فرعية (العقدة الأب و الأبناء) ماعدا العقدة الجذر. ثم نقوم بترقيم هذه الأشجار و ترقيم عقد كل شجرة أيضاً ترقيماً داخلياً لتمييز تسلسل عقد الشجرة الواحدة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا