عادة ما يتم تصريف عينات صعبة من فئة الأقليات في تصنيف النص غير المتوازنين لأنها مضمنة في منطقة دلالية متداخلة مع فئة الأغلبية. في هذه الورقة، نقترح معلومات متبادلة إطار متبادل إطار عمل إطفاء دلالة (MISO) يمكن أن تولد مثيلات مرساة لمساعدة شبكة العمود
الفقري على تحديد موضع إعادة تضمين التمثيل غير المتداخلة لكل عينة صعبة لكل عينة صعبة. يتكون ميسو من (1) وحدة دموية دلالية تتعلم دلالات متشابكة بين العينات الصعبة والأغلبية مع آلية اهتمام متعدد الأهمية التكيفية، (2) فقدان المعلومات المتبادلة التي تفرض نموذجنا لتعلم تمثيلات جديدة من دلالات متشابكة في غير منطقة متداخلة من فئة الأقليات، و (3) فك تشفير المشفر المقدم من الأقميات التي تتلألؤها التي تتلألؤها الدلالية التي تثبت أن تظل ترتباطاتها مع فئة الأقليات، ثم باستخدام هذه التمثيلات الدلالية في الإعفاء من أجل توليد مثيلات مرساة لكل عينة صعبة. تظهر التجارب في مجموعة متنوعة من مهام تصنيف النص غير المتوازنة أن مثيلات المرساة تساعد المصنفين على تحقيق تحسينات كبيرة على خطوط خطوط خطوط خطوط خطوط طويلة.
إن تطبيق تقنيات الترميز التنبؤية للنصوص القانونية لديه القدرة على تقليل تكلفة المراجعة القانونية للوثائق، ومع ذلك، هناك مثل هذه المجموعة الواسعة من المهام القانونية والتشريعات المتطورة باستمرار من الصعب بناء بيانات تدريبية كافية لتغطية جميعهاحالات.في
هذه الورقة، نقوم بالتحقيق في طرق قليلة من الأساطير والرصاص التي تتطلب بيانات تدريب أقل بكثير وإدخال هندسة ثلاثية، والتي تنتج البيانات الإذنية أداء قريبة من نظام نظام إشرافي.تسمح هذه الطريقة بطرق ترميز التنبؤ أن يتم تطويرها بسرعة للوائح والأسواق الجديدة.
تلقت تصنيف النص الإشراف ضعيف اهتماما كبيرا في السنوات الأخيرة لأنه يمكن أن يخفف من العبء الثقيل في التخلص من البيانات الضخمة. من بينها، الأساليب التي يحركها الكلمات الرئيسية هي السائدة حيث يتم استغلال الكلمات الرئيسية التي توفرها المستخدم لتوليد ملصق
ات زائفة للنصوص غير المسبقة. ومع ذلك، فإن الطرق الحالية تعالج الكلمات الرئيسية بشكل مستقل، وبالتالي تجاهل الارتباط بينها، والتي ينبغي أن تكون مفيدة إذا استغلت بشكل صحيح. في هذه الورقة، نقترح إطارا جديدا يسمى ClassKG لاستكشاف ارتباط الكلمات الرئيسية الكلمة الرئيسية على الرسم البياني للكلمة الرئيسية بواسطة GNN. إطار عملنا هو عملية تكرارية. في كل تكرار، نقوم أولا بإنشاء رسم بياني للكلمات الرئيسية، لذلك يتم تحويل مهمة تعيين ملصقات زائفة إلى التسجيل عبر الكلمات الرئيسية. لتحسين جودة التعليق التوضيحي، نقدم مهمة ذاتية الإشراف على الصنع بتقسيم Annetator Sigcraph، ثم Finetune IT. باستخدام الملصقات الزائفة التي تم إنشاؤها بواسطة Annotator Siggraph، ثم تدريب مصنف نصي لتصنيف النصوص غير المسبق. أخيرا، نعيد استخراج الكلمات الرئيسية من النصوص المبوبة. تظهر تجارب واسعة النطاق على كل من مجموعات البيانات الطويلة والنص القصير أن طريقتنا تتفوق بشكل كبير على تلك الموجودة.
تركز أساليب تصنيف النص الحالية أساسا على مجموعة تسمية ثابتة، في حين أن العديد من التطبيقات في العالم الحقيقي تتطلب تمديد فئات جديدة من الرباعي حيث يزيد عدد العينات لكل علامة. لاستيعاب هذه المتطلبات، نقدم مشكلة جديدة تسمى تصنيف الحبيبات الخشنة إلى الد
قيقة، والتي تهدف إلى أداء تصنيف جيد الحبيبات على البيانات المشروحة بشكل خشن. بدلا من طلب التعليقات التوضيحية البشرية المحبوبة الجديدة، فإننا نقوم باختيار الاستفادة من أسماء السطح التسمية باعتبارها الإرشادات البشرية الوحيدة والنسج في نماذج لغوية غنية مدربة مسبقا في استراتيجية الإشراف الضعيفة المتكررة. على وجه التحديد، نقترح أولا صياغة صياغة دقيقة مشروطة على التسمية لتحريك هذه المولدات لمهمتنا. علاوة على ذلك، نركض هدف تنظيمي بناء على قيود العلامات الجميلة الخشنة المستمدة من إعداد مشكلتنا، مما يتيح لنا المزيد من التحسينات على الصيغة السابقة. يستخدم إطار عملنا النماذج الإدارية التي تم ضبطها بشكل جيد لعينة بيانات التدريب الزائفة لتدريب المصنف، و BootStraps على البيانات الحقيقية غير المسبقة لتحسين النموذج. تجارب واسعة دراسات حالة عن مجموعات بيانات عالمية في العالم الحقيقي تثبت أداء فائقا فوق خطوط خطوط تصنيف Sota-Shot-Shot.
في تصنيف النص عبر اللغات، يطلب من أن البيانات التدريبية الخاصة بمهام المهام في لغات مصدر عالية الموارد متوفرة، حيث تكون المهمة مطابقة لتلك لغة مستهدفة منخفضة الموارد. ومع ذلك، يمكن أن يكون جمع هذه البيانات التدريبية غير ممكنة بسبب تكلفة العلامات وخصا
ئص المهام ومخاوف الخصوصية. تقترح هذه الورقة حل بديل يستخدم فقط تضييق كلمة مهمة من المهام لغات الموارد عالية الموارد وقواميس ثنائية اللغة. أولا، نبني رسم بياني غير متجانس (DHG) من القواميس ثنائية اللغة. هذا يفتح إمكانية استخدام الشبكات العصبية الرسم البيانية للتحويل عبر اللغات. التحدي المتبقي هو عدم تجانس DHG لأنه يتم النظر في لغات متعددة. لمعالجة هذا التحدي، نقترح شبكة عصبية غير متجانسة مقرها القاموس (Dhgnet) التي تعالج بفعالية عدم تجانس DHG بشكل فعال بمقدار تجميعتين، وهي مجامعات على مستوى الكلمة ومستوى اللغة. توضح النتائج التجريبية أن أسلوبنا تفوق النماذج المحددة على الرغم من أنها لا تصل إلى كورسا كبيرة. علاوة على ذلك، يمكن أن يؤدي ذلك بشكل جيد على الرغم من أن القواميس تحتوي على العديد من الترجمات غير الصحيحة. تتيح قوتها لاستخدام مجموعة واسعة من القواميس مثل القاموس المصنوع تلقائيا وقاموس التعيد الجماعي، وهو أمر مناسب لتطبيقات العالم الحقيقي.
حقق التعلم التلوي نجاحا كبيرا في الاستفادة من المعرفة المستفادة التاريخية لتسهيل عملية التعلم المهمة الجديدة.ومع ذلك، فإن تعلم معرفة المهام التاريخية، التي اعتمدتها خوارزميات التعلم التلوي الحالية، قد لا تعميم بشكل جيد للاختبار المهام عندما لا تكون م
دعومة جيدا بمهام التدريب.تدرس هذه الورقة مشكلة تصنيف النص المنخفض للموارد ويزيد الفجوة بين مهام اختبار التوطين والاختبار التلوي من خلال الاستفادة من قواعد المعرفة الخارجية.على وجه التحديد، نقترح KGML لإدخال تمثيل إضافي لكل جملة مستفادة من الرسم البياني المعرفي الخاص بالحكم الجملة المستخرجة.توضح التجارب الواسعة على ثلاثة مجموعات بيانات فعالية KGML تحت كلا من إعدادات التكيف والإشراف غير المدفوع.
تصنيف النص القصير هو مهمة أساسية في معالجة اللغة الطبيعية.من الصعب بسبب عدم وجود معلومات السياق والبيانات المسمى في الممارسة العملية.في هذه الورقة، نقترح طريقة جديدة تسمى SHINE، والتي تعتمد على الشبكة العصبية الرسم البيانية (GNN)، لتصنيف النص القصير.
أولا، نقوم بنمذت مجموعة بيانات النص القصيرة كشركة بيانية غير متجانسة هرمية تتكون من رسومات مكونة على مستوى Word والتي تقدم معلومات أكثر دلالة ونقصية.بعد ذلك، نتعلم ديناميكيا رسم بياني مستند قصير يسهل نشر الملصقات الفعالة بين النصوص القصيرة المشابهات.وبالتالي، فإن المقارنة مع الأساليب القائمة على GNN القائمة، والتألق يمكن أن يستغل أفضل التفاعلات بين العقد من نفس الأنواع والقبض على أوجه التشابه بين النصوص القصيرة.تظهر تجارب واسعة النطاق على مختلف مجموعات البيانات القصيرة القصيرة المعجمية أن التألق يتفوق باستمرار على الأساليب الحديثة، خاصة مع عدد أقل من الملصقات.
وقد شكلت الشيخوخة السكان تحديا للعديد من البلدان بما في ذلك تايوان، ومعهم يأتون قضية الرعاية الطويلة الأجل.بالنظر إلى السياق الحالي، كان الهدف من هذه الدراسة هو استكشاف الفرعي المناقش أعلاه في مجال الرعاية الطويلة الأجل، وتحديد ميزاته من خلال NLP.تقد
مت هذه الدراسة TF-IDF، نموذج الانحدار اللوجستي، ومصنف البايز الساذج لمعالجة البيانات.باختصار، أظهرت النتائج أنها وصلت إلى أفضل درجة F1 من 0.920 في تحديد الهوية، وأفضل دقة 0.708 في التصنيف.يمكن استخدام نتائج هذه الدراسة كمرجع للتطبيقات المتعلقة بالرعاية الطويلة الأجل في المستقبل.
يحتوي نموذج HIAGM النموذجي الحالي على تصنيف النص التسلسل الهرمي وجود قيودان. أولا، يربط كل نموذج نصي مع جميع الملصقات في DataSet التي تحتوي على معلومات غير ذات صلة. ثانيا، لا ينظر في أي عائق إحصائي على تمثيلات التسمية المستفادة من تشفير الهيكل، في حي
ن ثبت أن القيود المفروضة على تعلم التمثيل أنها مفيدة في العمل السابق. في هذه الورقة، نقترح HTCINFOMAX لمعالجة هذه المشكلات عن طريق إدخال تعظيم المعلومات التي تتضمن وحدتي: تعظيم المعلومات المتبادلة النصية وتسمية التسمية مطابقة مسبقة. الوحدة النمطية الأولى يمكن أن تصمم التفاعل بين كل نموذج نصية وتسميات الحقيقة الأرضية صراحة التي تتصفح المعلومات غير ذات الصلة. والثاني يشجع تشفير الهيكل على تعلم تمثيلات أفضل مع الخصائص المرجوة لجميع الملصقات التي يمكن أن تتعامل بشكل أفضل مع عدم توازن العلامة في تصنيف النص الهرمي. النتائج التجريبية على اثنين من مجموعات البيانات القياسية توضح فعالية HTCINFOMAX المقترحة.
التحليلات التنبؤية للرعاية الصحية الإيدز صنع القرار الطبي، تنبؤ التشخيص وتحليل مراجعة المخدرات. لذلك، دقة التنبؤ هي معايير مهمة تستلزم أيضا نماذج لغة تنبؤية قوية. ومع ذلك، فقد أثبتت النماذج باستخدام التعلم العميق عرضة للخطر تجاه حالات الإدخال المضطرب
ة بشكل غير ضئيل والتي من المحتمل أن تكون مؤلفة من قبل البشر. شهدت الجهود الأخيرة لتوليد الخصوم باستخدام المرادفات القائمة على القواعد ومصدرها في مجال عام، ولكن الأدب الطبي الطبيعي المتزايد يشكل تحديات فريدة من نوعها. نقترح BBAEG (جيلات مثالية مقراوعة من المخدرات الطبية Biomedical)، خوارزمية هجومية من الصندوق الأسود لتصنيف النص الطبي الطبيعي، حيث تستفيد من نقاط القوة من استبدال مرادف خاص بالمجال للكيانات المسماة الطبية الحيوية وتوقعات Bert-MLM، والتباين الإملائي واستبدال الأرقام. من خلال التقييم التلقائي والإنساني على مجموعة بيانات، نوضح أن BBAEG تؤدي هجوما أقوى بطلاقة بلغة أفضل، والتماسك الدلالي مقارنة بالعمل السابق.