أوراق بحثية, رسائل ماجستير ودكتوراه حول documents

multionedoc2dial: حوارات النمذجة في مستندات متعددة

158 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

نقترح multionedoc2dial، مهمة جديدة ومجموعة بيانات على الحوارات الموجهة نحو الأهداف النمذجة في مستندات متعددة.يعمل معظم الأعمال السابقة على علاج النمذجة الحوار المحدد في المستندات كملقمة لفهم قراءة الآلة استنادا إلى وثيقة أو مقطع واحد معين.في هذا العم ل، نهدف إلى معالجة سيناريوهات أكثر واقعية حيث تتضمن محادثة البحث عن المعلومات الموجهة نحو الأهداف موضوعات متعددة، وبالتالي يتم تقديمها على مستندات مختلفة.لتسهيل هذه المهمة، نقدم مجموعة بيانات جديدة تحتوي على حوارات ترتكز في مستندات متعددة من أربعة مجالات مختلفة.نحن نستكشف أيضا نمذجة السياقات القائمة على الحوار ومقرها المستندات في DataSet.نقدم نهج أساسية قوية ونتائج تجريبية مختلفة، تهدف إلى دعم المزيد من جهود البحث في هذه المهمة.

dialogues grounded multiple documents grounded in multiple وضع الحوارات وثائق متعددة تستند إلى عدة صناعة حمض الفوسفور المزيد..

التقاط الهيكل المنطقي للوثائق المنظمة بصريا مع محلل انتقال متعدد الوسائط

181 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

في حين أن العديد من خطوط أنابيب NLP تفترض أن النصوص النظيفة النظيفة، فإن العديد من النصوص التي نواجهها في البرية، بما في ذلك الغالبية العظمى من المستندات القانونية، ليست نظيفة للغاية، حيث يجري العديد منهم وثائق منظم بصريا (VSDS) مثل PDF. تقوم الأدوات المعالجة التقليدية ل VSDS تركز بشكل أساسي على تجزئة الكلمات وتحليل التخطيط الخشن، في حين أن تحليل الهيكل المنطقي المحلقات الدقيقة (مثل تحديد حدود الفقرة وهرميها) من VSDS هي غير متكسدة. تحقيقا لهذه الغاية، اقترحنا صياغة المهمة كتنبؤ بملميات الانتقال "بين شظايا الرسائل النصية التي تعرض الشظايا إلى شجرة، وتطوير نظام لتعلم الماكينات المستندة إلى ميزة يمبرص إشارات مرئية ونصية ودلية. يتم تخصيص نظامنا بسهولة إلى أنواع مختلفة من VSDS وكانت خطوط الأساس بشكل كبير في تحديد الهياكل المختلفة في VSDS. على سبيل المثال، حصل نظامنا على درجة الكشف عن حدود الفقرة 0.953 أفضل بكثير من أداة PDF-To-to-todly ذات درجة كبيرة مع درجة F1 من 0.739.

multimodal transition parser visually structured documents capturing logical structure محلل الانتقال متعددة الوسائط وثائق منظمة بصريا التقاط الهيكل المنطقي صناعة حمض الفوسفور المزيد..

دراسة مقارنة حول النهج المبادرة والاستخراطية في تلخيص وثائق التشريعات الأوروبية

617 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

استخراج الجزء الأكثر أهمية من وثائق التشريعات له قيمة عمل كبيرة لأن النصوص عادة ما تكون طويلة جدا ويصعب فهمها.الهدف من هذه المقالة هو تقييم خوارزميات مختلفة لتلخيص النص على وثائق تشريعات الاتحاد الأوروبي.يحتوي المحتوى على كلمات خاصة بالمجال.جمعنا مجم وعة بيانات تلخيص نصية من الوثائق القانونية للاتحاد الأوروبي والتي تتكون من 1563 وثيقة، والتي متوسط طول الملخصات هو 424 كلمة.أجريت التجارب مع خوارزميات مختلفة باستخدام DataSet الجديدة.تم اختيار خوارزمية استخراجية بسيطة كأساس.الخوارزميات الاستخراجية المتقدمة، والتي تستخدم التشفير تظهر نتائج أفضل من خط الأساس.تم تحقيق أفضل نتيجة تقاس بواسطة درجات Rouge بواسطة نموذج T5 المبشط الذي تم ضبطه بشكل جيد، والذي تم تكييفه للعمل مع النصوص الطويلة.

وصف تحليلي european legislation documents european legislation وثائق التشريعات الأوروبية التشريع الأوروبي صناعة حمض الفوسفور

CLAC-NP في مهمة Semeval-2021 8: التبعية DGCNN

116 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تهدف MeasessVal إلى تحديد الكميات إلى جانب الكيانات التي تقاس خصائص إضافية داخل الوثائق العلمية الإنجليزية.مجموعة متنوعة من الأساليب المستخدمة تجعل القياسات، الجانب الأكثر أهمية في الكتابة العلمية، صعبة الاستخراج.تقدم هذه الورقة دراسات الاجتثاثات في اتخاذ القضية لعدة خطوات مسبقة مسبق مثل قواعد التزخم المتخصصة.بالنسبة للهيكل اللغوي، نشيف أشجار التبعية في شبكة استئصال الرسم البياني العميق (DGCNN) لتصنيف المهام المتعدد.

سبب المسار english scientific documents graph convolution network الوثائق العلمية الإنجليزية شبكة استئصال الرسم البياني صناعة حمض الفوسفور

SEMEVAL-2021 المهمة 9: التحقق من الحقائق وأدلة العثور على البيانات الجدولة في المستندات العلمية (حقائق SEM-Tab)

235 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تعد فهم الجداول مهمة مهمة وذات صلة تتضمن فهم بنية الجدول وكذلك القدرة على مقارنة ومعلومات التباين داخل الخلايا. في هذه الورقة، نتعامل مع هذا التحدي من خلال تقديم مجموعة بيانات جديدة ومهام جديدة تعالج هذا الهدف في مهمة مشتركة في مهمة Semeval 2020 9: ا لتحقق من الحقائق وأدلة العثور على بيانات جدولية في الوثائق العلمية (حقائق SEM-Tab-Facts). تحتوي DataSet الخاصة بنا على 981 طاولة تم إنشاؤها يدويا وحدات بيانات تم إنشاؤها تلقائيا من 1980 طاولة توفر أكثر من 180 كيلو وايت وأكثر من 16 متر من التعليقات التوضيحية. ظهرت حقائق SEM-Tab مهام فرعية. في مهمة فرعية أ، كان الهدف هو تحديد ما إذا كان بيان مدعوم أو دحض أو غير معروف فيما يتعلق بجدول. في المهمة الفرعية B، كان التركيز على تحديد الخلايا المحددة للطاولة التي توفر أدلة على البيان. 69 وقعت فرق للمشاركة في المهمة مع 19 تقارير ناجحة إلى الفرعية و 12 من عروض ناجحة إلى Subtask B. نقدم نتائجنا والنتائج الرئيسية من المسابقة.

fact verification scientific documents tabular data التحقق من الحقيقة الوثائق العلمية بنك صناعة حمض الفوسفور المزيد..

ReadTwice: قراءة مستندات كبيرة جدا مع ذكريات

200 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

غالبا ما تتطلب المهام المكثفة المعرفة مثل الإجابة على الأسئلة استيعاب معلومات من أقسام مختلفة من المدخلات الكبيرة مثل الكتب أو مجموعات المقالات.نقترح ReadTwice، وهي تقنية بسيطة وفعالة تجمع بين العديد من نقاط القوة من الأساليب السابقة لنموذج التبعيات الطويلة المدى مع المحولات.الفكرة الرئيسية هي قراءة النص في شرائح صغيرة، بالتوازي، تلخيص كل قطعة في جدول الذاكرة لاستخدامه في القراءة الثانية للنص.نظهر أن الطريقة تتفوق على نماذج من حجم قابلة للمقارنة على العديد من مجموعات بيانات الإجابة على الأسئلة (QA) وتعيين حالة جديدة من الفن على المهمة السرقة الصعبة، مع أسئلة حول الكتب بأكملها.

documents with memories large documents reading very large وثائق ذات الذكريات وثائق كبيرة قراءة كبيرة جدا صناعة حمض الفوسفور المزيد..

نحو الأحداث الطبقات وتمثيل المخطط في وثائق طويلة

164 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

في هذه الرسالة الأطروحة، نستكشف تطبيق استخراج الأحداث على النصوص الأدبية. بالنظر إلى أطوال أحداث النمذجة الأدبية في التحبيبات المختلفة قد تكون أكثر كافية لاستخراج معلومات ذات معنى، حيث تساهم العناصر الفردية القليل إلى الدلالات الإجمالية. نحن نتكيف مع مفهوم المخططات كسلسلة من الأحداث التي تصف جميعها عملية واحدة، متصلة من خلال المشاركين المشتركين إلى توسعها إلى مخططات متعددة في وثيقة. يتم تقسيم تسلسلات الأحداث في مخططات من خلال نماذج تسلسل الأحداث، في هذه المهمة كهذه المهمة السردية، التنبؤ بالأحداث المفقودة في التسلسل. نقترح بناء على تسلسل تضمين الأحداث لتشكيل شرق المخطط، وبالتالي تلخيص أقسام المستندات باستخدام تمثيل واحد. سيسمح هذا النهج بمقارنات أقسام مختلفة من الوثائق والأعمال الأدبية بأكملها. الأدب هو مجال صعبة يعتمد على مجموعة متنوعة من الأنواع، ولكن تمثيل المحتوى الأدبي قد تلقى اهتماما كبيرا نسبيا.

layered events long documents layered الأحداث الطبقات وثائق طويلة الطبقات صناعة حمض الفوسفور المزيد..

تضيحية المستندات المستند متعددة الأوجاس

60 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تتطلب تضمين الوثائق الحالية شركة تدريبية كبيرة ولكنها تفشل في تعلم تمثيلات عالية الجودة عند مواجهة عدد صغير من المستندات الخاصة بالمجال والشروط النادرة. علاوة على ذلك، يقومون بتحويل كل وثيقة إلى متجه تضمين واحد، مما يجعل من الصعب التقاط مفاهيم مختلفة من تشابه الوثيقة أو شرح سبب اعتبار المستندين مماثلة. في هذا العمل، نقترح تشفير المجال الأوجه لدينا، ونهج رواية لتعلم Admeddings متعددة الأوجه للمستندات الخاصة بالمجال. يعتمد ذلك على بنية شبكة عصبية سيامي ويعزز الرسوم البيانية المعرفة لتعزيز المدينات حتى لو كانت بعض عينات التدريب فقط متوفرة. يحدد النموذج أنواعا مختلفة من معرفة المجال وترميزها في أبعاد منفصلة من التضمين، مما يتيح طرق متعددة لإيجاد ومقارنة المستندات ذات الصلة في مساحة المتجهات. نقيم نهجنا على مجموعة بيانات قياسية وتجد أنه يحقق نفس جودة التضمين كطرازات حديثة بينما تتطلب سوى جزء صغير من بيانات التدريب الخاصة بهم فقط. تتوفر تجريبي تفاعلي ومجموعاتنا المصدر ومجموعات بيانات التقييم عبر الإنترنت: https://hpi.de/naumann/s/multifaceted-emberdings و screencast متاح على Youtube: https://youtu.be/hhcsx2clewg

faceted domain encoder domain-specific documents domain-specific document embeddings تشفير المجال الأوجه المستندات الخاصة بالمجال تضمين المستندات الخاصة بالمجال صناعة حمض الفوسفور المزيد..

تصنيف المستندات باستخدام شبكات بيز

2510 - جامعة تشرين 2016 مشروع تخرج

أصبحت قضية استرجاع المعلومات في يومنا هذا من أهم القضايا والتحدّيات التي تشغل العالم كنتيجة منطقية للتطوّر التكنولوجي المتسارع والتقدم الهائل في الفكر الإنساني والبحوث والدراسات العلمية في شتى فروع المعرفة وما رافقه من ازدياد في كميات المعلومات إلى ح دّ يصعب التحكم بها والتعامل معها. لذا نهدف في مشروعنا إلى تقديم نظام استرجاع معلومات يقوم بتصنيف المستندات حسب محتواها إلا أن عمليّة استرجاع المعلومات تحوي درجة من عدم التأكد في كل مرحلة من مراحلها لذا اعتمدنا على شبكات بيز للقيام بعملية التصنيف وهي شبكات احتماليّة تحوّل المعلومات إلى علاقات cause-and-effect و تعتبر واحدة من أهم الطرق الواعدة لمعالجة حالة عدم التأكد . في البدء نقوم بالتعريف بأساسيّات شبكات بيز ونشرح مجموعة من خوارزميّات بنائها وخوارزميّات الاستدلال المستخدمة ( ولها نوعان دقيق وتقريبي). يقوم هذه النظام بإجراء مجموعة من عمليّات المعالجة الأوليّة لنصوص المستندات ثم تطبيق عمليات إحصائية واحتمالية في مرحلة تدريب النظام والحصول على بنية شبكة بيز الموافقة لبيانات التدريب و يتم تصنيف مستند مدخل باستخدام مجموعة من خوارزميات الاستدلال الدقيق في شبكة بيز الناتجة لدينا. بما أنّ أداء أي نظام استرجاع معلومات عادة ما يزداد دقّة عند استخدام العلاقات بين المفردات (terms) المتضمّنة في مجموعة مستندات فسنأخذ بعين الاعتبار نوعين من العلاقات في بناء الشبكة: 1- العلاقات بين المفردات(terms). 2- العلاقات بين المفردات والأصناف(classes).

Information retrieval Nlp Documents classification Bayesian Network

ترقيم مستندات XML باستخدام Grouped OrdPath

598 - جامعة البعث 2015 ورقة بحثية

في هذا البحث سنقوم باقتراح طريقة ترقيم جديدة Grouped OrdPath تعتمد على طريقةOrdPath المعروفة لتحسين أدائها و أهم اهداف البحث هو الحصول على بنية تخزين ذات حجم صغير. سنقوم بتجميع عقد المستند على شكل أشجار فرعية (العقدة الأب و الأبناء) ماعدا العقدة الجذر. ثم نقوم بترقيم هذه الأشجار و ترقيم عقد كل شجرة أيضاً ترقيماً داخلياً لتمييز تسلسل عقد الشجرة الواحدة.

Labeling Scheme طرق الترقيم OrdPath مستندات XML XML documents

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد