ترغب بنشر مسار تعليمي؟ اضغط هنا

يهدف التنقيب عن البيانات التعليمية إلى دراسة البيانات المتوفرة في المجال التعليمي وإخراج المعرفة المخفية منه بغية الاستفادة منها في تعزيز عملية التعليم واتخاذ قرارات ناجحة من شأنها تحسين الأداء الأكاديمي للطالب. تقترح هذه الدراسة استخدام تقنيات التنق يب عن البيانات لتحسين التنبؤ بأداء الطلاب، حيث تم تطبيق ثلاث خوارزميات تصنيف Naïve Bayes, J48, Support Vector Machine)) على قاعدة بيانات أداء الطلاب ، ثم تم تصميم مصنف جديد لدمج نتائج تلك المصنفات الفردية باستخدام تقنية الدمج Voting Method . تم استخدام الأداة WEKAالتي تدعم الكثير من خوارزميات و طرائق التنقيب في البيانات. تظهر النتائج أن مصنف الدمج لديه أعلى دقة للتنبؤ بمستويات الطلاب مقارنة بالمصنفات الأخرى ، حيث حقق دقة تعرف وصلت إلى74.8084 % . و أفادت خوارزمية العنقدةsimple k-means في تجميع الطلاب المتشابهين في مجموعات منفصلة بالتالي فهم مميزات كل مجموعة مما يساعد على قيادة وتوجيه كل مجموعة على حدى.
غالبا ما يتم فحص النصوص القانونية القديمة وترقيمها عبر التعرف على الأحرف البصرية (OCR)، مما يؤدي إلى العديد من الأخطاء.على الرغم من أن لعبة الداما الإملائية والقواعد النحوية يمكن أن تصحيح الكثير من النص الممسوح ضوئيا تلقائيا، فإن التعرف على الكيان ال مسمى (NER) صعبة، مما يجعل تصحيح الأسماء صعبة.لحل هذا، قمنا بتطوير نموذج لغة فرقة باستخدام بنية محولات في الشبكة العصبية جنبا إلى جنب مع آلة حالة محددة لاستخراج الأسماء من النص القانوني باللغة الإنجليزية.نحن نستخدم مشروع الوصول إلى هارفارد كاسيلاو في الولايات المتحدة للتدريب والاختبار.بعد ذلك، تعرض الأسماء المستخرجة للتحليل النصي المثيرة لتحديد الأخطاء وإجراء تصحيحات وقياس مدى المشكلات.مع هذا النظام، نحن قادرون على استخراج معظم الأسماء، وتصحيح الأخطاء العديدة تلقائيا وتحديد الأخطاء المحتملة التي يمكن مراجعتها لاحقا للتصحيح اليدوي.
نقدم شكل جديد من طريقة الفرقة - داعية الشيطان، والذي يستخدم نموذجا مختلفا عمدا لفرض السفلات الأخرى داخل الفرقة للتعاون بشكل أفضل.تتكون طريقتنا من إعدادات تدريبية مختلفة: يتبع المرء عملية التدريب التقليدية (القاعدة)، والآخر يتم تدريبه بواسطة ملصقات تم إنشاؤها بشكل مصطنع (DevAfv).بعد تدريب النماذج، يتم ضبط نماذج القواعد بشكل جيد من خلال وظيفة خسارة إضافية، والتي تستخدم نموذج DevAdh كعائق.في اتخاذ قرار نهائي، يبلغ نموذج الفرقة المقترح درجات نماذج المعايير ثم يطرح نتيجة نموذج DevAdh.يحسن نموذج DevAPAdh الأداء العام للنماذج الأخرى داخل الفرقة.بالإضافة إلى إطار عملنا الذي يعتمد على الخلفية النفسية، فإنه يظهر أيضا أداء مماثل أو محسن على 5 مهام تصنيف النص عند مقارنته بطرق الفرقة التقليدية.
كانت النماذج اللغوية الكبيرة المدربة مسبقا مثل بيرت القوة الدافعة وراء التحسينات الأخيرة في العديد من مهام NLP.ومع ذلك، يتم تدريب بيرت فقط على التنبؤ بالكلمات المفقودة - إما من خلال اخفاء أو تنبؤ الجملة التالي - وليس لديه معرفة بالمعلومات المعجمية أو النحوية أو الدلالية التي تتجاوز ما يلتقطه من خلال التدريب المسبق غير المدعوم.نقترح طريقة جديدة لحقن المعلومات اللغوية بشكل صريح في شكل embeddings في أي طبقة من بيرت المدرب مسبقا.عند ضمانات المضادات المضادة ومقرها التبعية، تشير تحسينات الأداء على مجموعات بيانات التشابه الدلالية المتعددة إلى أن هذه المعلومات مفيدة وفقدها حاليا من النموذج الأصلي.يوضح تحليلنا النوعي أن حقن التضمين المضاد للأدمان مفيد بشكل خاص، مع تحسينات ملحوظة على الأمثلة التي تتطلب دقة مرادف.
في العديد من مهام معالجة اللغة الطبيعية، تعد استرجاع مرور وإعادة التعريف بمرتبة المقطع الإجراءان الرئيسيان في إيجاد المعلومات ذات الصلة وتحديدها. بما أن كل من الإجراءين يسهمان في الأداء النهائي، فمن المهم تحسينها بشكل مشترك من أجل تحقيق تحسن متبادل. في هذه الورقة، نقترح نهج تدريب مشترك رواية لاسترجاع المقطع الكثيف وإعادة إطلاق Reranking. مساهمة رئيسية هي أننا نقدم تقطير List Norwise الديناميكي، حيث نقوم بتصميم نهج تدريبي موحد للأسرار لكل من المسترد و Re-Ranker. أثناء التقطير الديناميكي، يمكن تحسين المسترد و Re-Ranker بشكل متكامل وفقا لمعلومات بعضهم البعض. نقترح أيضا استراتيجية تكبير البيانات الهجينة لبناء مثيلات تدريب متنوعة لنهج تدريب ListWise. تظهر تجارب واسعة فعالية نهجنا على كل من بيانات MSMARCO والأسئلة الطبيعية. يتوفر الكود الخاص بنا في https://github.com/paddlepaddle/rocketqa.
من المعروف أن طريقة المزيج (تشانغ وآخرون، 2017)، واحدة من أساليب تكبير البيانات، من المعروف أنها سهلة التنفيذ والفعالة للغاية. على الرغم من أن طريقة المزيج مخصصة لتحديد الصور، إلا أنه يمكن تطبيقه أيضا على معالجة اللغة الطبيعية. في هذه الورقة، نحاول ت طبيق طريقة المزيج إلى مهمة تصنيف المستندات باستخدام تمثيلات تشفير ثنائية الاتجاه من المحولات (بيرت) (ديفلين وآخرون، 2018). نظرا لأن Bert يسمح بإدخال الإصدارين من الجملة، فإننا نسقط تسلسل الكلمات من مستندتين مع ملصقتين مختلفتين واستخدمت الإخراج متعدد الفصول كبيانات خاضعة للإشراف مع ناقل ساخن واحد. في تجربة باستخدام Corpus أخبار Livedoor، وهي اليابانية، قارننا دقة تصنيف المستندات باستخدام طريقتين لاختيار المستندات المراد متسلسلا بتصنيف المستندات العادي. نتيجة لذلك، وجدنا أن الطريقة المقترحة أفضل من التصنيف العادي عند خلط المستندات التي تحتوي على نقص التسميات بشكل تفضيلي. يشير هذا إلى أن كيفية اختيار مستندات المزيج لها تأثير كبير على النتائج.
في هذه الورقة، نحقق في عوامل القيادة وراء التسلسل، وهي طريقة بسيطة ولكنها فعالة من البيانات للترجمة الآلية العصبية منخفضة الموارد.تشير تجاربنا إلى أن سياق الخطاب غير مرجح هو سبب تحسين تسلسل بلو من قبل حوالي +1 عبر أربع أزواج لغوية.بدلا من ذلك، نوضح أ ن التحسن يأتي من ثلاثة عوامل أخرى لا علاقة لها بالحبال: تنوع السياق، وتنوع الطول، و (إلى حد أقل) يتحول الموقف.
ثبت أن أداء أنظمة NMT يعتمد على جودة بيانات التدريب.في هذه الورقة، نستكشف أدوات مختلفة مفتوحة المصدر التي يمكن استخدامها لتسجيل جودة أزواج الترجمة، بهدف الحصول على كورسا نظيفة لتدريب نماذج NMT.نقيس أداء هذه الأدوات من خلال ربط درجاتهم بالدرجات البشري ة، وكذلك نماذج الرتبة المدربة على مجموعات البيانات التي تمت تصفيتها الناتجة من حيث أدائها في مجموعات اختبار مختلفة ومقاييس أداء MT.
ترتيب الجملة هي مهمة ترتيب كيس معين من الجمل لتحقيق أقصى قدر من الاتساق النص العام.في هذا العمل، نقترح طريقة تدريبية بسيطة ولكنها فعالة تعمل على تحسين قدرة النماذج على التقاط تماسك النص العام بناء على التدريب على أزواج الجمل / القطاعات.تظهر النتائج ا لتجريبية تفوق أسلوبنا المقترح في إعدادات المجال الواقعة.يتم التحقق من فائدة أسلوبنا أيضا عن مهمة ملخص متعددة المستندات.
في هذا العمل، نقدم طريقة لاختيار المحتوى وتخطيط المستندات للأخبار الآلية وتوليد التقارير من البيانات الإحصائية المهيكلة مثل تلك التي تقدمها الوكالة الإحصائية للاتحاد الأوروبي، يوروستات.هذه الطريقة مدفوعة بالبيانات وهي موضوع كبير مستقلة داخل مجال مجمو عة البيانات الإحصائية.نظرا لأن نهجنا لا يعتمد على التعلم الآلي، فهو مناسب لإدخال أتمتة الأخبار إلى مجموعة واسعة من المجالات حيث لا توجد بيانات تدريبية متاحة.على هذا النحو، فإنه مناسب كتكلفة منخفضة (من حيث جهود التنفيذ) خط الأساس له هيكلة المستند قبل إدخال المعرفة الخاصة بالمجال.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا