إن فهم أصول الصراع العسكري هو تعهد معقد، لكنه مهم للغاية. تسعى البحوث الحالية إلى بناء هذا الفهم من خلال النظر في علاقات ثنائية جانبية بين أزواج الكيان (الأسباب الضاغطة) والعلاقات متعددة الأطراف بين كيانات متعددة (الأسباب الجهازية). الهدف من هذا العم
ل هو مقارنة هذين الأسباب من حيث ما يرتبط به مع الصراع بين كيانين. نقوم بذلك عن طريق وضع مجموعة من الميزات النصية والرسوم البيانية التي تمثل كل من الأسباب. يتم استخراج الميزات من ويكيبيديا وأمتصاص الرسم بياني كبير. تمثل العقد في هذا الرسم البياني الكيانات المرتبطة بالحواف المسمى التي تمثل حليف أو علاقات العدو. يسمح ذلك بإلقاء المشكلة كمرافقة تصنيف حافة، والتي نعلم تصنيف DYAD. نقترح وتقييم المصنفين لتحديد ما إذا كان زوج معين من الكيانات حلفاء أو أعداء. تشير نتائجنا إلى أن ميزاتنا المنهجية قد تكون أفضل قليلا ترتبط بالصراع. علاوة على ذلك، نجد أن مقالات حلفاء ويكيبيديا أكثر شهرة من الأعداء.
على الرغم من نجاحهم، فإن نماذج اللغة الحديثة هشة.حتى التغييرات الصغيرة في خط أنابيب التدريب يمكن أن تؤدي إلى نتائج غير متوقعة.ندرس هذه الظاهرة من خلال فحص متانة ألبرت (LAN et al.، 2020) بالاشتراك مع متوسط وزن الأسكاستك (SWA) --- طريقة رخيصة للكمية --
- على مهمة تحليل المعنويات (SST-2).على وجه الخصوص، نقوم بتحليل استقرار SWA من خلال معايير قائمة مرجعية (Ribeiro et al.، 2020)، فحص اتفاقية الأخطاء التي تصنعها النماذج المختلفة فقط في بذورها العشوائية.نحن نفترض أن SWA أكثر استقرارا لأنها تقع على فرق اللقطات النموذجية التي اتخذت على طول مسار نزول التدرج.نحن نحدد الاستقرار من خلال مقارنة أخطاء النماذج مع Fleiss 'Kappa (Fleiss و 1971) وتتداخل درجات النسبة.نجد أن SWA تقلل من معدلات الخطأ بشكل عام؛ومع ذلك، لا تزال النماذج تعاني من تحيزاتها المميزة (وفقا لقائمة مرجعية).
في طرازات اللغة عبر اللغات، تعيش تمثيلات للعديد من اللغات المختلفة في نفس المساحة. هنا، نحقق في العوامل اللغوية وغير اللغوية التي تؤثر على محاذاة على مستوى الجملة في نماذج اللغة المحددة مسبقا بين 101 لغة و 5،050 زوج لغة. باستخدام LASTE BERT-القائم عل
ى BERT و LASER المستندة إلى BILSTM كنماذجنا، والكتاب المقدس كجورتنا، نحسب مقياسا يستند إلى المهمة لمحاذاة عبر اللغات في شكل أداء استرجاع BiteXT، بالإضافة إلى أربعة تدابير جوهرية لمساحة المتجهات المحاذاة والتزييف. ثم ندرس مجموعة من الميزات اللغوية واللغوية واللغوية والمتعلقة التدريبية كتنبؤ محتمل من مقاييس المحاذاة. تظهر نتائج تحليلاتنا أن اتفاقية ترتيب الكلمات والاتفاق في التعقيد المورفولوجي هي اثنتان من أقوى المتنبئ اللغوي للقلق. نلاحظ أيضا البيانات التدريبية في الأسرة كمؤشر أقوى من بيانات التدريب المحددة باللغة في جميع المجالات. نحن نتحقق من بعض النتائج اللغوية لدينا من خلال النظر في تأثير تجزئة مورفولوجية على محاذاة اللغة الإنجليزية - غير الأجنبية، بالإضافة إلى دراسة تأثير اتفاقية ترتيب الكلمات على ISomorphism ل 66 أزواج لغة الطلقة الصفرية من كائن مختلف. نحن نجعل البيانات والرمز تجاربنا متاحة للجمهور.
تتمتع النموذج المستنى بالضمان بشعبية كبيرة في الأعمال الأخيرة من تجزئة التسلسل.ومع ذلك، فإن كل من هذه الطرق تعاني من عيوبها الخاصة، مثل التنبؤات غير الصالحة.في هذا العمل، نقدم نموذجا موحدا أساسيا، تحليل وحدة معجمية (LUA)، التي تتناول كل هذه الأمور.تج
زئة تسلسل وحدة معجمية ينطوي على خطوتين.أولا، قمنا بتضمين كل فترة باستخدام التمثيلات من نموذج لغة المحدد.ثانيا، نحدد درجة لكل مرشح تجزئة وتطبيق البرمجة الديناميكية (DP) لاستخراج المرشح بحد أقصى درجة.لقد أجرينا تجارب مكثفة في 3 مهام، (على سبيل المثال، تصنيع النحوية)، عبر 7 مجموعات من مجموعات البيانات.أنشأت لوا عروضا جديدة من الفنادق الجديدة في 6 منها.لقد حققنا نتائج أفضل من خلال دمج ارتباطات التسمية.
تحليل المعنويات متعددة الوسائط (MSA) يرسم اهتماما متزايدا بتوافر بيانات متعددة الوسائط. يعوق دفعة في أداء نماذج MSA بشكل رئيسي بمشاكل. من ناحية، تعمل MSA الأخيرة على التركيز في الغالب على تعلم الديناميات عبر الوسائط، ولكن الإهمال لاستكشاف الحل الأمثل
للشبكات غير المستقرة، والتي تحدد الحد الأدنى لنماذج MSA. من ناحية أخرى، يتداخل المعلومات الصاخبة المخفية في كل طريقة في تعلم ديناميات العرض الصحيحة الصحيحة. لمعالجة المشكلات المذكورة أعلاه، نقترح نموذج تعديل إطار MSA MSA لتحليل المشاعر المتعدد الوسائط (M3SA) لتحديد مساهمة الطرائق وتقليل تأثير المعلومات الصاخبة، وذلك لتحسين تعلم ديناميات غير مهادة وعبرية. على وجه التحديد، تم تصميم خسارة التشكيل لتعديل مساهمة الخسارة على أساس ثقة الطرائق الفردية في كل كلام، وذلك لاستكشاف حل تحديث الأمثل لكل شبكة غير مهام. بالإضافة إلى ذلك، عكس ذلك، فإن معظم الأعمال الموجودة التي تفشل في تصفية المعلومات الصاخبة بشكل صريح، ونحن نضع وحدة تصفية طريقة للتعريف لتحديد وتصفية ضوضاء الوسوية لتعلم التضمين الصحيحة والعصرية. تجارب واسعة النطاق على مجموعات البيانات العامة تثبت أن نهجنا يحقق الأداء الحديثة.
BertScore، متري التلقائي المقترح مؤخرا لجودة الترجمة الآلية، تستخدم بيرت، نموذج لغة كبير مدرب مسبقا لتقييم ترجمات المرشحين فيما يتعلق بالترجمة الذهبية. الاستفادة من قدرات بيرت الدلالية والنزالية، تسعى BertScore إلى تجنب عيوب النهج السابقة مثل بلو، بد
لا من ذلك تسجيل ترجمات المرشحين بناء على تشابههم الدلالي لحكم الذهب. ومع ذلك، بيرت ليست معصومة؛ في حين أن أدائها في مهام NLP، حددت حالة من الفن الجديد بشكل عام، فقد أظهرت دراسات ذات ظواهر النحوية والدلية المحددة أين ينحرف أداء بيرت عن حالة البشر بشكل عام. هذا يثير بشكل طبيعي الأسئلة التي نعالجها في هذه الورقة: ما هي نقاط القوة والضعف في BertScore؟ هل يرتبطون بالضعف المعروفين من جانب بيرت؟ نجد أنه في حين أن BertScore يمكن أن يكتشف عندما يختلف المرشح عن مرجع في كلمات محتوى مهمة، فهو أقل حساسية للأخطاء الأصغر، خاصة إذا كان المرشح مشابه بشكل جذري أو بشكل مصمم مرجع.
نقدم أول كائن مشروح للتحليل متعدد اللغات من البنات غير العادلة المحتملة في شروط الخدمة عبر الإنترنت.تشتمل مجموعة البيانات على ما مجموعه 100 عقد، تم الحصول عليها من 25 وثيقة مشروح في أربع لغات مختلفة: الإنجليزية والألمانية والإيطالية والبولندية.لكل عق
د، يتم تفاح البنود غير العادلة للمستهلك، لتسع فئات غير ظلم مختلفة.نظهر كيف يمكن استخدام تقنية الإسقاط التوضيحي بسيطة ولكنها فعالة استنادا إلى مدماج الجملة لإجراء التعليقات التوضيحية تلقائيا عبر اللغات.
على الرغم من أن شعبية متزايدة من NLP في العلوم الإنسانية والعلوم الاجتماعية، فقد ترافق التقدم في الأداء النموذجي وتعقيد مخاوف بشأن التفسير والسلطة التوضيحية للتحليل الاجتماعي الثقافي. نموذج شعبي واحد يأخذ طريقا وسط مسافة كلمة المحرك (WMD). يتم تكييفه
ا ظاهريا لتفسيرها، ومع ذلك تم استخدام WMD وتم تطويره بشكل أكبر بطرق تجاهل الجانب الأكثر تفسيرا في كثير من الأحيان: أي مسافات مستوى الكلمات المطلوبة لترجمة مجموعة من الكلمات إلى مجموعة أخرى من الكلمات. لمعالجة هذه الفجوة الواضحة، نقدم WMDECOMPOOPE: مكتبة نموذجية ومكتبة بيثون 1) تتحلل مسافات مستوى المستند في المسافات في مستوياتها المكونة على مستوى الكلمات، و 2) مجموعات في وقت لاحق من تحفيز العناصر المواضيعية، بحيث يتم الاحتفاظ بالمعلومات المعجمية المفيدة تلخيص للتحليل. لتوضيح إمكاناتها في سياق علمي اجتماعي، نطبقها على جثة وسائل التواصل الاجتماعي الطولية لاستكشاف العلاقة المتبادلة بين نظريات المؤامرة والأحرفات الأمريكية المحافظة. أخيرا، نظرا لتعقيد الوقت الكامل في الوقت الحالي، فإننا نقترح بالإضافة إلى طريقة لأخذ عينات من مجموعات البيانات الكبيرة بطريقة استنساخ، مع حدود ضيقة تمنع استقراء النتائج غير الموثوقة بسبب سوء أخذ العينات الممارسات.
التنسيق هو ظاهرة اللغة التي تصدر شرطين أو أكثر من العبارات أو العبارات باستخدام التنسيق. على الرغم من أن التنسيق قد تم استكشافه على نطاق واسع في أدب اللغويات، فإن القواعد والقيود التي تحكم هيكلها لا تزال بعيد المنال إلى حد كبير وناقشت على نطاق واسع ب
ين اللغويين. تقدم هذه الورقة دراسة لوجود تنسيقات على عكس المدىين على وجه الخصوص، حيث يشكل الزوجان من عبارة التنسيق مكونا صالحين ولكن لديهم فئات مميزة. أجرينا تحليلا نصنيا لفئات الجمل الفعلية التي يمكن ارتباطها في مثل هذه التنسيقات على عكس ذلك من خلال نهج محاسبي قائم على الكائنات الحاسوبية، باستخدام كوربوس اللغة الإنجليزية الأمريكية المعاصرة (COCA) كمصدر بيانات رئيسي، بالإضافة إلى بنك بنسار (PTB) وبعد تظهر النتائج أن اثنين من الالتحاق داخل التنسيقات على عكس عرض خصائص مختلفة بناء على موقفها، ودعم عرض مضاد للتنسيق لهيكل التنسيق. يوفر هذا البحث بيانات ووجهات نظر جديدة من خلال استخدام التقنيات الإحصائية التي يمكن أن تساعد في تشكيل نظريات ونماذج التنسيق في المستقبل.
تستخدم منتديات سوق Darknet في كثير من الأحيان لتبادل السلع والخدمات غير القانونية بين الأطراف التي تستخدم التشفير لإخفاء هوياتها.يتم استخدام شبكة Tor لاستضافة هذه الأسواق، والتي تضمن إخفاء هويتها الإضافي من IP وتتبع الموقع، مما يجعل من الصعب الارتباط
عبر المستخدمين الخبيثة باستخدام حسابات متعددة (Sybils).بالإضافة إلى ذلك، يهاجر المستخدمون إلى منتديات جديدة عندما يتم إغلاق المرء زيادة زيادة صعوبة ربط المستخدمين عبر منتديات متعددة.نقوم بتطوير نهج تعليم متعدد الأطباق المستند إلى المصممة على أساس التصديق على اللغة الطبيعية والتفاعلات النموذجية باستخدام Asceddings الرسم البياني لإنشاء تمثيلات منخفضة الأبعاد من حلقات قصيرة لنشاط المستخدم لإسناد التأليف.نحن نقدم تقييم شامل لأساليبنا في أربع منتديات Darknet المختلفة التي توضح فعالتها على أحدث من الفن، مع رفع ما يصل إلى 2.5x في مرتبة الاسترجاع المتوسط و 2x على استدعاء @ 10.