تتداول هذه الورقة عن عملية بناء أول أداة تحويل الدائرة إلى التبعية التركية. نقطة الانطلاق لهذا العمل هي دراسة سابقة التي تحولت فيها 10 آلاف من أشجار هيكل العبارة يدويا إلى تركية من Corpus الأصلي Penntreebank. ضمن نطاق هذا المشروع، تم تحويل هذه العبارات التركية هذه الأشجار تلقائيا إلى هياكل التبعية على غرار UD، باستخدام خوارزمية تستند إلى القواعد وخوارزمية لتعلم الآلة محددة لمتطلبات اللغة التركية. تمت مقارنة نتائج الخوارزمية وكلاهما أن نهج التعلم الآلي أثبت أنه أكثر دقة من الخوارزمية القائمة على القواعد. تم تنقيح الناتج من قبل فريق من اللغويين. اتخذت الإصدارات المكررة عباحيات قياسية ذهبية لتقييم الخوارزميات. بالإضافة إلى مساهمتها في مشروع UD مع مجموعة بيانات كبيرة من 10،000 شجرة التبعية التركية، فإن هذا المشروع يفي أيضا فجوة مهمة للأداة التحويل التركية، مما يتيح التعدد السريع من شركة التبعية التي يمكن استخدامها لتدريب محلل التبعية الأفضل وبعد
This paper deliberates on the process of building the first constituency-to-dependency conversion tool of Turkish. The starting point of this work is a previous study in which 10,000 phrase structure trees were manually transformed into Turkish from the original PennTreebank corpus. Within the scope of this project, these Turkish phrase structure trees were automatically converted into UD-style dependency structures, using both a rule-based algorithm and a machine learning algorithm specific to the requirements of the Turkish language. The results of both algorithms were compared and the machine learning approach proved to be more accurate than the rule-based algorithm. The output was revised by a team of linguists. The refined versions were taken as gold standard annotations for the evaluation of the algorithms. In addition to its contribution to the UD Project with a large dataset of 10,000 Turkish dependency trees, this project also fulfills the important gap of a Turkish conversion tool, enabling the quick compilation of dependency corpora which can be used for the training of better dependency parsers.
References used
https://aclanthology.org/
FrameNet (Lowe, 1997; Baker et al., 1998; Fillmore and Atkins, 1998; Johnson et al., 2001) is a computational lexicography project that aims to offer insight into the semantic relationships between predicate and arguments. Having uses in many NLP app
Paralinguistics, the non-lexical components of speech, play a crucial role in human-human interaction. Models designed to recognize paralinguistic information, particularly speech emotion and style, are difficult to train because of the limited label
This paper contributes to the thread of research on the learnability of different dependency annotation schemes: one (semantic') favouring content words as heads of dependency relations and the other (syntactic') favouring syntactic heads. Several st
We propose EASE, a simple diagnostic tool for Visual Question Answering (VQA) which quantifies the difficulty of an image, question sample. EASE is based on the pattern of answers provided by multiple annotators to a given question. In particular, it
Currently, there are two available wordnets for Turkish: TR-wordnet of BalkaNet and KeNet. As the more comprehensive wordnet for Turkish, KeNet includes 76,757 synsets. KeNet has both intralingual semantic relations and is linked to PWN through inter