ترغب بنشر مسار تعليمي؟ اضغط هنا

نقترح multionedoc2dial، مهمة جديدة ومجموعة بيانات على الحوارات الموجهة نحو الأهداف النمذجة في مستندات متعددة.يعمل معظم الأعمال السابقة على علاج النمذجة الحوار المحدد في المستندات كملقمة لفهم قراءة الآلة استنادا إلى وثيقة أو مقطع واحد معين.في هذا العم ل، نهدف إلى معالجة سيناريوهات أكثر واقعية حيث تتضمن محادثة البحث عن المعلومات الموجهة نحو الأهداف موضوعات متعددة، وبالتالي يتم تقديمها على مستندات مختلفة.لتسهيل هذه المهمة، نقدم مجموعة بيانات جديدة تحتوي على حوارات ترتكز في مستندات متعددة من أربعة مجالات مختلفة.نحن نستكشف أيضا نمذجة السياقات القائمة على الحوار ومقرها المستندات في DataSet.نقدم نهج أساسية قوية ونتائج تجريبية مختلفة، تهدف إلى دعم المزيد من جهود البحث في هذه المهمة.
في حين أن العديد من خطوط أنابيب NLP تفترض أن النصوص النظيفة النظيفة، فإن العديد من النصوص التي نواجهها في البرية، بما في ذلك الغالبية العظمى من المستندات القانونية، ليست نظيفة للغاية، حيث يجري العديد منهم وثائق منظم بصريا (VSDS) مثل PDF. تقوم الأدوات المعالجة التقليدية ل VSDS تركز بشكل أساسي على تجزئة الكلمات وتحليل التخطيط الخشن، في حين أن تحليل الهيكل المنطقي المحلقات الدقيقة (مثل تحديد حدود الفقرة وهرميها) من VSDS هي غير متكسدة. تحقيقا لهذه الغاية، اقترحنا صياغة المهمة كتنبؤ بملميات الانتقال "بين شظايا الرسائل النصية التي تعرض الشظايا إلى شجرة، وتطوير نظام لتعلم الماكينات المستندة إلى ميزة يمبرص إشارات مرئية ونصية ودلية. يتم تخصيص نظامنا بسهولة إلى أنواع مختلفة من VSDS وكانت خطوط الأساس بشكل كبير في تحديد الهياكل المختلفة في VSDS. على سبيل المثال، حصل نظامنا على درجة الكشف عن حدود الفقرة 0.953 أفضل بكثير من أداة PDF-To-to-todly ذات درجة كبيرة مع درجة F1 من 0.739.
يستخدم استخدام اللغة بين المجالات وحتى داخل المجال، يتغير استخدام اللغة بمرور الوقت. بالنسبة لنماذج اللغة المدربة مسبقا مثل Bert، فقد ثبت أن تكييف المجال من خلال استمرار التدريب المستمر لتحسين الأداء في مهام Towstream داخل المجال. في هذه المقالة، يمك ننا التحقيق فيما إذا كان التكيف الزمني يمكن أن يجلب فوائد إضافية. لهذا الغرض، نقدم كذبة من وسائل التواصل الاجتماعي تعليقات عينات أكثر من ثلاث سنوات. أنه يحتوي على بيانات غير مسؤولة عن التكيف والتقييم على مهمة نمذجة لغة ملثم في المنبع بالإضافة إلى البيانات المسمى للضبط الدقيق والتقييم في مهمة تصنيف المستندات المصب. نجد أن هذه المهام في كل من المهام: التكيف الزمني يحسن أداء مهام المهام المصب والصقل الزمني الصخري. تؤدي النماذج الزمنية الخاصة عموما بشكل عام في الماضي عن مجموعات الاختبار المستقبلية، مما يطابق الأدلة على الاستخدام الدائر للكلمات الموضعية. ومع ذلك، لا يحسن تكييف Bert to Time & Domain الأداء على المهمة المصب على التكيف فقط إلى المجال. يوضح تحليل المستوى الرمز المميز أن التكيف الزمني يلتقط التغييرات التي يحركها الأحداث في استخدام اللغة في مهمة المصب، ولكن ليس هذه التغييرات ذات الصلة بالفعل بأداء المهام. بناء على النتائج التي توصلنا إليها، نناقش متى قد يكون التكيف الزمني أكثر فعالية.
استخراج الجزء الأكثر أهمية من وثائق التشريعات له قيمة عمل كبيرة لأن النصوص عادة ما تكون طويلة جدا ويصعب فهمها.الهدف من هذه المقالة هو تقييم خوارزميات مختلفة لتلخيص النص على وثائق تشريعات الاتحاد الأوروبي.يحتوي المحتوى على كلمات خاصة بالمجال.جمعنا مجم وعة بيانات تلخيص نصية من الوثائق القانونية للاتحاد الأوروبي والتي تتكون من 1563 وثيقة، والتي متوسط طول الملخصات هو 424 كلمة.أجريت التجارب مع خوارزميات مختلفة باستخدام DataSet الجديدة.تم اختيار خوارزمية استخراجية بسيطة كأساس.الخوارزميات الاستخراجية المتقدمة، والتي تستخدم التشفير تظهر نتائج أفضل من خط الأساس.تم تحقيق أفضل نتيجة تقاس بواسطة درجات Rouge بواسطة نموذج T5 المبشط الذي تم ضبطه بشكل جيد، والذي تم تكييفه للعمل مع النصوص الطويلة.
غالبا ما تتطلب المهام المكثفة المعرفة مثل الإجابة على الأسئلة استيعاب معلومات من أقسام مختلفة من المدخلات الكبيرة مثل الكتب أو مجموعات المقالات.نقترح ReadTwice، وهي تقنية بسيطة وفعالة تجمع بين العديد من نقاط القوة من الأساليب السابقة لنموذج التبعيات الطويلة المدى مع المحولات.الفكرة الرئيسية هي قراءة النص في شرائح صغيرة، بالتوازي، تلخيص كل قطعة في جدول الذاكرة لاستخدامه في القراءة الثانية للنص.نظهر أن الطريقة تتفوق على نماذج من حجم قابلة للمقارنة على العديد من مجموعات بيانات الإجابة على الأسئلة (QA) وتعيين حالة جديدة من الفن على المهمة السرقة الصعبة، مع أسئلة حول الكتب بأكملها.
في هذه الرسالة الأطروحة، نستكشف تطبيق استخراج الأحداث على النصوص الأدبية. بالنظر إلى أطوال أحداث النمذجة الأدبية في التحبيبات المختلفة قد تكون أكثر كافية لاستخراج معلومات ذات معنى، حيث تساهم العناصر الفردية القليل إلى الدلالات الإجمالية. نحن نتكيف مع مفهوم المخططات كسلسلة من الأحداث التي تصف جميعها عملية واحدة، متصلة من خلال المشاركين المشتركين إلى توسعها إلى مخططات متعددة في وثيقة. يتم تقسيم تسلسلات الأحداث في مخططات من خلال نماذج تسلسل الأحداث، في هذه المهمة كهذه المهمة السردية، التنبؤ بالأحداث المفقودة في التسلسل. نقترح بناء على تسلسل تضمين الأحداث لتشكيل شرق المخطط، وبالتالي تلخيص أقسام المستندات باستخدام تمثيل واحد. سيسمح هذا النهج بمقارنات أقسام مختلفة من الوثائق والأعمال الأدبية بأكملها. الأدب هو مجال صعبة يعتمد على مجموعة متنوعة من الأنواع، ولكن تمثيل المحتوى الأدبي قد تلقى اهتماما كبيرا نسبيا.
نقدم في هذا البحث تطبيق جديد للرسوم البيانية لمعامل الديناميكي( DFGs )، و الذي يختص بنمذجة موضوع، تصنيف النص و استرجاع المعلومات.هذه العوامل الديناميكية مصممة لتشكل متتالية من الوثائق ذات الطابع الزمني. اعتماداً على أساس فن معمارية الترميز التلقائي، يتم تدريب نموذج متعدد الطبقات غير الخطي على مراحل باسلوب حكيم لإنتاج أكثر لتمثيلات مدمجة لحقائب الكلمات عند تسوية وثيقة أو فقرة ، و بهذا يؤدي تحميل دلالي. أنو أيضا ديناميكيات زمنية بسيطة مدمجة على التمثيلات الكامنة ، للإستفادة من البنية الهرمية لسلسلة الوثائق، و يمكن بشكل متزامن إنجاز تصنيفات مراقبة أو الانحدار على عناوين الوثيقة،التي يجعل طريقتنا فريدة من نوعها. تعلم هذا النموذج يتم من خلال تعظيم الإمكانية المشتركة للترميز، فك الترميز،معايير ديناميكية موجهة، و من الممكن استخدام الحد الأعظمي لاستنتاج خلفيي معتمدا على التقريب و الانحدار. يمكننا شرح و تفسير أن تخفيض خسارة الانتروبي الموزونة بين رسومات حوادث الكلمة و اعادة بناءها، يتم بتصغير احتمال نموذج الموضوع، و اظهار أن نموذج موضوعنا يحتوي الاحتمالية الأدنى من توزيعات ديريتشمت الكامنة على أنظمة معالجة المعلومات الطبيعية( Neural Information) ( NIPS Processing Systems ) و حالة مجموعات البيانات المشتركة. لنوضح كيف أن القيود الديناميكية تساعد على التعلم بينما يمكننا و يساعدنا هذا على تصور منحى مسار الموضوع .
تتميز المحفوظات التي تعود إلى العصر البرونزي المتأخر في سورية باحتوائها على كم كبير من الوثائق القانونية وعلى الرغم أن هذه الوثائق لم تشمل مجموعات تشريعية كاملة كتلك المكتشفة في بلاد الرافدين، فأنها تعد مصدرا مهما من مصادر دراسة قانون الشرق الأدنى القديم.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا