ترغب بنشر مسار تعليمي؟ اضغط هنا

Layoutreader: ما قبل التدريب للنص والتخطيط لكشف عن ترتيب القراءة

LayoutReader: Pre-training of Text and Layout for Reading Order Detection

326   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

كشف ترتيب القراءة هو حجر الزاوية لفهم المستندات البصرية (على سبيل المثال، الإيصالات والأشكال). لسوء الحظ، أي عمل موجود استفاد من نماذج التعلم العميقة المتقدمة لأنها شاقة للغاية للتعليق على مجموعة بيانات كبيرة بما فيه الكفاية. نلاحظ أن ترتيب القراءة من مستندات Word مضمن في بيانات تعريف XML الخاصة بهم؛ وفي الوقت نفسه، من السهل تحويل مستندات Word إلى ملفات PDF أو الصور. لذلك، في طريقة تلقائية، نقوم ببناء Redlybank، مجموعة بيانات معيار تحتوي على ترتيب القراءة والنصوص والتخطيط لمعلومات 500000 صورة وثيقة تغطي مجموعة واسعة من أنواع المستندات. هذه مجموعة بيانات كبيرة على نطاق واسع يطلق تشغيل قوة الشبكات العصبية العميقة لكشف عن الطلب. على وجه التحديد، يلتقط LayoTreader المقترح معلومات النص والتخطيط لتوقعات ترتيب القراءة باستخدام نموذج SEQ2SEQ. يؤدي ذلك بشكل مثالي تقريبا في اكتشاف أمر القراءة ويحسن بشكل كبير من محركات الحرية الخارجية المفتوحة والمصادر الحرارية في ترتيب خطوط نصية في نتائجها في تجاربنا. يتم توفير مجموعة البيانات والنماذج علنا ​​في https://aka.ms/layouoTreader.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تفسير محتمل للأداء المثير للإعجاب في ما قبل التدريب اللغوي المصنوع (MLM) هو أن هذه النماذج تعلمت أن تمثل الهياكل النحوية السائدة في خطوط أنابيب NLP الكلاسيكية. في هذه الورقة، نقترح شرحا مختلفا: تنجح MLMS على مهام المصب بالكامل تقريبا بسبب قدرتها على نموذج إحصاءات حدوث كلمة ترتيب أعلى. لإظهار ذلك، نقوم بتدريب MLMS مسبقا على الجمل مع ترتيب كلمة خلط عشوائيا، وإظهار أن هذه النماذج لا تزال تحقق دقة عالية بعد ضبطها على العديد من المهام المصب --- بما في ذلك المهام المصممة خصيصا لتكون صعبة للنماذج التي تتجاهل ترتيب الكلمات وبعد تؤدي نماذجنا بشكل جيد بشكل مدهش وفقا لبعض تحقيقات النحوية ذات الصلة، مما يشير إلى أوجه القصور المحتملة في كيفية اختبار تمثيلات للحصول على معلومات النحوية. بشكل عام، تظهر نتائجنا أن المعلومات التوزيعية البحتة تشرح إلى حد كبير نجاح ما قبل التدريب، وتؤكد أهمية إعانة مجموعات بيانات التقييم الصعبة التي تتطلب معرفة لغوية أعمق.
مكنت التقدم في تمثيل اللغة الإنجليزية مهمة أكثر كفاءة عينة من خلال التعلم بكفاءة ترميز يصنف بدائل الرمز المميز بدقة (Electra).أي، بدلا من تدريب نموذج لاستعادة الرموز الممثيلين، يقوم بتدريب نموذج تمييزي على التمييز بين الرموز الإدخال الحقيقية من الرمو ز التالفة التي تم استبدالها بشبكة مولدات.من ناحية أخرى، فإن نهج تمثيل اللغة باللغة العربية الحالية تعتمد فقط على الاحتجاج عن طريق نمذجة اللغة الملثم.في هذه الورقة، نقوم بتطوير نموذج تمثيل اللغة باللغة العربية، والتي نستها ARAELECTRA.يتم الاحترام من النموذج الخاص بنا باستخدام هدف الكشف عن الرمز المميز في النص العربي الكبير.نقوم بتقييم نموذجنا على مهام NLP العربية المتعددة، بما في ذلك فهم القراءة وتحليل المعرفات والاعتراف باسم الكيان المسمى ونعرض أن ARAELECTRA تتفوق على نماذج تمثيل اللغة العربية الحديثة الحالية، بالنظر إلى نفس البيانات المحددةحجم نموذج أصغر.
نقدم VideoClip، وهو نهج مقاوم للتناقض في تدريب نموذج موحد مسبقا لفهم الفيديو والنصية الصفرية، دون استخدام أي ملصقات على مهام المصب.يقوم VideoClep بتدريب محول الفيديو والنص عن طريق تناقض أزواج فيديو إيجابية مؤقتة متداخلة مع السلبيات الصعبة من أقرب است رجاع جار.تجاربنا على سلسلة متنوعة من المهام المصب، بما في ذلك استرجاع الفيديو على مستوى التسلسل، والتعريب الخاص بمستوى عمل Videoqa ومستوى الرمز المميز، وتجزئة العمل تكشف عن أداء حالة من بين الفن، وتجاوز العمل السابق، وفي بعض الحالات يفوقنالنهج الخاضعة للإشراف.يتوفر الكود في https://github.com/pytorch/fairseq/examples/mmpt.
تلخيص التعليمات البرمجية والجيل التمدد التحويل بين لغة البرمجة (PL) واللغة الطبيعية (NL)، بينما تتفافر ترجمة التعليمات البرمجية ترحيل الرمز القديم من واحد إلى آخر. تقدم هذه الورقة Plbart، نموذج تسلسل إلى تسلسل قادر على أداء مجموعة واسعة من فهم البرام ج واللغة ومهام الجيل. يتم تدريب PLBART مسبقا على مجموعة واسعة من وظائف Java و Python والنص NL المرتبط NL عبر Denoising AutoNCoding. تجارب في تلخيص التعليمات البرمجية في اللغة الإنجليزية وتوليد التعليمات البرمجية، وترجمة التعليمات البرمجية في سبع لغات البرمجة تظهر أن PLBART تفوق النماذج أو من المنافسين من النماذج الحديثة. علاوة على ذلك، فإن التجارب المعنية بالمهام التمييزية، على سبيل المثال، إصلاح البرامج، وكشف استنساخ، وكشف الشفرة الضعيفة، إظهار فعالية PLBART في فهم البرنامج. علاوة على ذلك، يكشف التحليل أن Plbart يتعلم بناء جملة البرنامج، والأسلوب (على سبيل المثال، اتفاقية تسمية المعرف)، التدفق المنطقي (على سبيل المثال، إذا كانت كتلة داخل كتلة أخرى تعادل أخرى إذا كانت الكتلة) ذات أهمية حاسمة في البرامج، وبالتالي تتفوق حتى مع التعليقات التوضيحية المحدودة وبعد
في هذا العمل، نركز على سيناريو عددا أقل تحديا للكشف عن قلة الرصاص حيث يكون العديد من النوايا المحبوسة بشكل جيد ومشبه بشكل صحيح.نقدم مخطط اكتشاف عديدي بسيطة ولكنه فعالة من القلة عبر التدريب المسبق والضبط الناعم الصنع.على وجه التحديد، نقوم أولا بإجراء تدريبات مسبقة من الناحية التي تم إشرافها ذاتيا على مجموعات بيانات النية التي تم جمعها، والتي تتعلم ضمنيا التمييز بين الكلام المماثلة الدلوية دون استخدام أي ملصقات.ثم نقوم بعد ذلك بإجراء اكتشاف عهد القليل من الرصاص مع التعلم البسيط المشروع، والذي يسحب صراحة النطق من نفس النية أقرب ويغطي الكلام عبر النوايا المختلفة أبعد.تظهر النتائج التجريبية أن أسلوبنا المقترح يحقق أداء حديثة على ثلاثة مجموعات بيانات للكشف عن النوايا الصعبة تحت 5 لقطة و 10 لقطة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا