في حين أن إنتاج المعلومات في الفترة الحديثة الأوروبية المبكرة هو موضوع بحثي جيدا، فإن السؤال كيف كان الناس يشاركون مع انفجار المعلومات الذي حدث في أوروبا الحديثة المبكرة، لا يزال غير مقصود. تقدم هذه الورقة التعليقات التوضيحية والتجارب التي تهدف إلى استكشاف ما إذا كان بإمكاننا استخراج المعلومات ذات الصلة بالوسائط (المصدر، والإدراك، والمستقبل) من جثة من سجلات هولندية حديثة مبكرة من أجل الحصول على نظرة ثاقبة في وسائل الإعلام من أفراد الطبقة الوسطى الحديثة المبكرة من منظور تاريخي. في عدد من تجارب التصنيف مع الحقول العشوائية الشرطية، يتم اختبار ثلاث فئات من الميزات: (1) ميزات تضمين Word RAW و Binary، (II) ميزات المعجم، و (III) ميزات الأحرف. بشكل عام، يؤدي المصنف الذي يستخدم embeddings الخام أفضل قليلا. ومع ذلك، بالنظر إلى أن أفضل درجات F حوالي 0.60، نستنتج أن نهج التعلم الآلي يجب الجمع بين نهج قراءة وثيق للنتائج مفيدة للإجابة على أسئلة بحث التاريخ.
While the production of information in the European early modern period is a well-researched topic, the question how people were engaging with the information explosion that occurred in early modern Europe, is still underexposed. This paper presents the annotations and experiments aimed at exploring whether we can automatically extract media related information (source, perception, and receiver) from a corpus of early modern Dutch chronicles in order to get insight in the mediascape of early modern middle class people from a historic perspective. In a number of classification experiments with Conditional Random Fields, three categories of features are tested: (i) raw and binary word embedding features, (ii) lexicon features, and (iii) character features. Overall, the classifier that uses raw embeddings performs slightly better. However, given that the best F-scores are around 0.60, we conclude that the machine learning approach needs to be combined with a close reading approach for the results to be useful to answer history research questions.
المراجع المستخدمة
https://aclanthology.org/
تحديد العلاقات بين المؤلفين بين المؤلفين ذات أهمية مركزية لدراسة الأدبيات. نقوم بالإبلاغ عن تحليل تجريبي بين التقاطعات التعليمية في الأدبيات اللاتينية الكلاسيكية باستخدام نماذج تضمين كلمة. لتمكين التقييم الكمي لطرق البحث Intertextuxucture، نرفع مجموع
يركز Profner-St على اعتراف المهن والمهن من تويتر باستخدام البيانات الإسبانية.تعتمد مشاركتنا على مزيج من Adgeddings على مستوى الكلمات، بما في ذلك بيرت الإسبانية المدربة مسبقا، بالإضافة إلى تشابه التموين المحسوبة فوق مجموعة فرعية من الكيانات التي تعمل
اكتشاف التغيير الدلالي المعجمي في مجموعات بيانات أصغر، على سبيل المثالفي اللغويات التاريخية والعلوم الإنسانية الرقمية، تحديا بسبب نقص القوة الإحصائية.يتم تفاقم هذه المشكلة عن طريق نماذج التضمين غير السياقية التي تنتج واحدة من التضمين لكل كلمة، وبالتا
كلمة تضمين خرائط الكلمات إلى ناقلات الأرقام الحقيقية.وهي مشتقة من كوربوس كبيرة ومن المعروف أنها تلتقط المعرفة الدلالية من الجثة.يعد Word Embedding مكونا حاسما للعديد من أساليب التعلم العميق الحديثة.ومع ذلك، فإن إنشاء Word Good Legeddings هو تحدي خاص
نقدم Query2Prod2VEC، وهو نموذج يسبب تمثيلات معجمية للبحث عن المنتج في تضمين المنتج: في نموذجنا، يعني المعنى رسم خرائط بين الكلمات والمساحة الكامنة من المنتجات في متجر رقمي.نستفيد من جلسات التسوق لتعلم المساحة الأساسية واستخدام التعليقات التوضيحية للت