الاتصالات المكتوبة هي ذات أهمية قصوى لتقدم البحث العلمي. ومع ذلك، قد تتأثر سرعة التطوير من ندرة المراجعين للحكم على جودة المواد البحثية. في هذا السياق، أصبحت الأساليب التلقائية التي يمكنها الاستعلام عن القطاعات اللغوية في مساهمات مكتوبة من خلال اكتشاف وجود أو عدم وجود أنماط الخطابية المشتركة أصبحت ضرورة. تهدف هذه الورقة إلى مقارنة تقنيات تعلم الآلات الخاضعة للإشراف التي تم اختبارها لإنجاز تحليل النوع في مقاطع مقدمة من مقالات هندسة البرمجيات. تم تنفيذ نهج شبه مشار إليه لزيادة عدد الجمل المشروح في اللوحات (المتاحة على: مجهول). تم إجراء نهجين إشرافين باستخدام الانحدار من SVM وانحدار لوجستي لتقييم درجة F- النتيجة لتحليل النوع في الجور. تم العثور على تقنية استنادا إلى الانحدار اللوجستي ونقلها لإجراء تحليل النوع بشكل مرض للغاية بمعدل 88.25 على درجة F عند استرداد الأنماط على المستوى العام.
Written communication is of utmost importance to the progress of scientific research. The speed of such development, however, may be affected by the scarcity of reviewers to referee the quality of research articles. In this context, automatic approaches that are able to query linguistic segments in written contributions by detecting the presence or absence of common rhetorical patterns have become a necessity. This paper aims to compare supervised machine learning techniques tested to accomplish genre analysis in Introduction sections of software engineering articles. A semi-supervised approach was carried out to augment the number of annotated sentences in SciSents (Avaliable on: ANONYMOUS). Two supervised approaches using SVM and logistic regression were undertaken to assess the F-score for genre analysis in the corpus. A technique based on logistic regression and BERT has been found to perform genre analysis highly satisfactorily with an average of 88.25 on F-score when retrieving patterns at an overall level.
المراجع المستخدمة
https://aclanthology.org/
يعد إعادة صياغة نص إعادة صياغة مهمة NLP طويلة الأمد لديها تطبيقات متنوعة على مهام NLP المصب. ومع ذلك، تعتمد فعالية الجهود الحالية في الغالب على كميات كبيرة من البيانات الذهبية المسمى. على الرغم من أن المساعي غير الخاضعة للإشعال قد اقترحت تخفيف هذه ال
لقد أظهر العمل الحديث أن نماذج اللغة المحظورة غير المؤمنة تعلمت تمثيل مفاهيم تقلص البيانات من تباين اللغة والتي يمكن استخدامها لتحديد بيانات التدريب المستهدف بالمجال. تتوفر تسميات أنواع DataSet في كثير من الأحيان، ومع ذلك لا تزال غير مستكشفة إلى حد ك
استخراج العلاقات هو الترجمة الفرعية لمعالجة Langage الطبيعية التي شهدت العديد من التحسينات في السنوات الأخيرة، مع ظهور البنية المعقدة المدربة مسبقا. يتم اختبار العديد من هذه النهج من هذه النهج من المعايير مع الجمل المسماة التي تحتوي على كيانات الموسو
يركز هذه البحث على تقصي النقاط التي لم تغطِ بشكل كامل ضمن منهجيات هندسة البرمجيات المقادة بالوكلاء (AOSE) و قد اعتمد على مراجعة موسعة لهذه المنهجيات. ترتكز هذه الورقة بشكل أساسي على أن كل منهجية لها نقاط قوتها و ضعفها و قد تركز على بعض مراحل دورة الح
اكتسبت توليف البيانات لتحليل الدلالي اهتماما متزايدا مؤخرا. ومع ذلك، فإن معظم الطرق تتطلب قواعد يدوية (عالية الدقة) في عملية توليدها، مما يعوق استكشاف بيانات غير مرئية متنوعة. في هذا العمل، نقترح نموذجا عاما يتميز ببرنامج PCFG (غير العصبي) نماذج تكوي