ترغب بنشر مسار تعليمي؟ اضغط هنا

يعد تعلم الفروق المحتمات الدقيقة بين العناصر المفردات تحديا رئيسيا في تعلم لغة جديدة.على سبيل المثال، يحتوي جدار الاسم "على مظاهر معجمية مختلفة باللغة الإسبانية - قلص" "يشير إلى جدار داخلي بينما يشير مورو" إلى جدار خارجي.ومع ذلك، قد لا يكون هذا التنو ع من التمييز المعجمي واضحا للمتعلمين غير الأصليين ما لم يتم تفسير التمييز بهذه الطريقة.في هذا العمل، نقدم طريقة لتحديد التفرقات المعجمية المحتلة تلقائيا، واستخراج القواعد في توضيح هذه الفروق بتنسيق قابل للقراءة بين الإنسان والآلات.نحن نؤكد جودة هذه القواعد المستخرجة في إعداد تعلم اللغة لغتين وإسبانيا واليونانيين، حيث نستخدم القواعد لتدريس الناطقين غير الأصلية عند ترجمة كلمة غامضة معينة في ترجماتها المختلفة المحتملة.
الكشف عن الأحداث وتطورها عبر الزمن مهمة حاسمة في فهم اللغة الطبيعية. المناهج العصبية الأخيرة لحدث استخراج العلاقات الزمنية عادة الأحداث عادة إلى التشرد في مساحة Euclidean وتدريب مصنف للكشف عن العلاقات الزمنية بين أزواج الأحداث. ومع ذلك، لا يمكن للمشر وع في الفضاء الإقليدية التقاط علاقات غير متماثلة أكثر ثراء مثل العلاقات الزمنية الحدث. وبالتالي اقترحنا تضمين الأحداث في المساحات القطعي، والتي هي موجهة نحو جوهرها في نمذجة الهياكل الهرمية. نقدم نهجين لتشفير الأحداث وعلاقاتهم الزمنية في المساحات القطعية. نهج واحد يرفع إلى تضمينات الزائفة لعلاقات الحدث المستخلصة مباشرة من خلال عمليات هندسية بسيطة. في المرتبة الثانية، ابتعدنا عن وضع بنية نهاية إلى نهاية مؤلفة من الوحدات العصبية الزمنية المصممة لمهمة استخراج العلاقة الزمنية. أظهرت تقييمات تجريبية شاملة عن مجموعات البيانات المستخدمة على نطاق واسع فوائد إعادة النظر في المهام على مساحة هندسية مختلفة، مما أدى إلى أداء حديثة في العديد من المقاييس القياسية. أخيرا، أبرزت دراسة الاجتثاث والعديد من التحليلات النوعية دلالات الأحداث الغنية المشفرة ضمنيا في المساحات الزائفة.
غالبا ما تعوق التنبؤ القائم على التعلم في مجال خصائص المواد بسبب عدم وجود مجموعات بيانات تدريبية كبيرة بما فيه الكفاية. غالبية بيانات القياس هذه مضمنة في الأدبيات العلمية والقدرة على استخراج هذه البيانات تلقائيا ضرورية لدعم تطوير أساليب التنبؤ بالخصا ئص الموثوقة. في هذا العمل، نصف منهجية لتطوير إطار استخراج الممتلكات التلقائي باستخدام ذوبان المواد كخاصية الهدف. نخلق مجموعة بيانات تدريبية وتقييم تحتوي على علامات للكيانات المتعلقة بالذوبان باستخدام مزيج من التعبيرات العادية والعلامة اليدوية. ثم قارنا خمسة نماذج التعرف على الكيان الاستفادة من كلا من المعماريين على مستوى الرمز المميز ومضمون مهمة تصنيف أسماء المذابة وقيم الذوبان وحدات الذوبان. بالإضافة إلى ذلك، نستكشف نهج محاولات رواية يرفع أدوات استخراج الاسم الكيميائي والكمية الآلي لتوليد مجموعات بيانات كبيرة لا تعتمد على العلامات اليدوية المكثفة. أخيرا، نقوم بإجراء تحليل لتحديد أسباب أخطاء التصنيف.
تظهر النهج الحديثة القائمة على المحولات نتائج واعدة على استخراج المعلومات العلمية العلائقية. تركز مجموعات البيانات الحالية على وصف رفيع المستوى لكيفية تنفيذ البحث. بدلا من ذلك، نركز على التفاصيل الدقيقة لكيفية تقديم الرابطات التجريبية من خلال بناء SC ICLAIL، وهي مجموعة بيانات من المطالبات العلمية المستمدة من أوراق العلوم الاجتماعية والسلوكية (SBS)، PubMed، وحالات الحبل 19. يشتمل مخطط شرح الرسم البياني الربيعي على أن الكيانات الخشنة فقط يمتد كعقد العقد والعلاقات كحواف بينهما، ولكن أيضا سمات الحبيبات الدقيقة التي تعدل الكيانات وعلاقاتها، لما مجموعه 12738 ملميا في الشئ. من خلال إدراج المزيد من أنواع الملصقات وأكثر من ضعف كثافة التسمية من مجموعات البيانات السابقة، يلتقط SCICIMAL مع الجمعيات السببية والمقارنة والتنبؤ والإحصائية والتناسبية على المتغيرات التجريبية إلى جانب مؤهلاتهم وسلعيتهم وأدليلهم. نحن نقوم بتوسيع العمل في كيان مشترك ومقرها المحول واستخراج العلاقات لاستنتاج مخططنا بشكل فعال، مما يدل على وعد الرسوم البيانية المعرفة بحبائها الجميلة في المطالبات العلمية وما بعدها.
استخراج المعلومات الزمنية أمر بالغ الأهمية لمعالجة النص المتعلق بالصحة. إن استخراج المعلومات الزمنية هي مهمة صعبة للنماذج اللغوية لأنها تتطلب معالجة النصوص والأرقام. علاوة على ذلك، فإن التحدي الأساسي هو كيفية الحصول على مجموعة بيانات تدريبية واسعة ال نطاق. لمعالجة هذا، نقترح خوارزمية توليد البيانات الاصطناعية. أيضا، نقترح نموذج استخراج المعلومات الزمني متعدد المهام الجديد والتحقيق فيما إذا كان التعلم متعدد المهام يمكن أن يسهم في تحسين الأداء من خلال استغلال إشارات تدريبية إضافية مع بيانات التدريب الحالية. بالنسبة للتجارب، جمعنا مجموعة بيانات مخصصة تحتوي على نصوص غير منظم مع المعلومات الزمنية للأنشطة المتعلقة بالنوم. تظهر النتائج التجريبية أن استخدام البيانات الاصطناعية يمكن أن تحسن الأداء عندما يكون عامل التكبير 3. النتائج تظهر أيضا أنه عند استخدام التعلم متعدد المهام مع كمية مناسبة من البيانات الاصطناعية، يمكن أن يتحسن الأداء بشكل كبير من 82. إلى 88.6 ومن 88.6 ومن 83.9 إلى 91.9 فيما يتعلق بعشرات المطابقة الدقيقة والمتوسط ​​الكلي من التوقعات في الوقت المحدد، على التوالي.
نقدم طريقة لتحديد تعريفات المعنى المقصود للكلمة الأكاديمية المعينة في قائمة الكلمات الرئيسية الأكاديمية. في نهجنا، يتم تحويل قائمة الكلمات الرئيسية إلى UNIGRAM من جميع ترجمات الماندرين الممكنة، المقصود أم لا تنطوي على طريقة تحويل الكلمات في قائمة الك لمات الرئيسية في جميع الترجمات باستخدام قاموس ثنائي اللغة، والحوسبة الكلمة التهم الترجمية من عدد الكلمات. عند تشغيل وقت التشغيل، يتم تسجيل كل تعريف (مع الترجمة المرتبطة) من Word المعطى بتهم الكلمة والحرية، ويتم إرجاع التعريف بأعلى عدد. نقدم نظام نموذجي لنموذج الكلمة الأكاديمية لتوليد التعاريف والترجمة لأغراض أطقم الأسنان. كما جربنا أيضا مع تجميع تضمينات التعريفات لجميع الكلمات والتعاريف، وتحديد المنطقي المقصود لصالح التضمين في مجموعات أكبر. يظهر التقييم المطلق أداء واعد. هذا المسعى هو خطوة نحو إنشاء قاموس متكامل من قائمة الكلمات الأكاديمية.
نحن تصف MeasessVal، وهي مهمة سامية لاستخراج التهم، والقياسات، والسياق ذات الصلة من الوثائق العلمية، وهي ذات أهمية كبيرة لإنشاء الرسوم البيانية المعرفة التي تقطرن معلومات من الأدبيات العلمية.هذه مهمة جديدة في عام 2021، والتي تم استلام أكثر من 75 تقرير ا من 25 مشاركا.نتوقع أن تكون البيانات التي وضعت لهذه المهمة والنتائج التي أبلغت عنها قيمة لاستخراج المعرفة العلمية ومجتمعات البناء الأساسية المعارف الآلية.
يمكن استخراج المعلومات المهيكلة من المحادثات الطبية تقليل عبء الوثائق للأطباء ومساعدة المرضى الذين يتبعون مع خطة الرعاية الخاصة بهم.في هذه الورقة، نقدم مهمة جديدة لاستخراج المواعيد يمتد من المحادثات الطبية.نحن نؤيد هذه المهمة كمشكلة علامات تسلسل والت ركيز على استخراج يمتد لسبب الموعد والوقت.ومع ذلك، فإن التسجيل المحادثات الطبية باهظة الثمن، وتستغرق وقتا طويلا، ويتطلب من خبرات مجال كبيرة.وبالتالي، نقترح أن نستفيد مناهج الإشراف الضعيفة، وهي الإشراف غير المكتملة والإشراف غير الدقيق، ونهج إشراف هجين وتقييم كل من ELMO - ELMO وبرت خاصة بالمجال باستخدام نماذج علامات التسلسل.أفضل نموذج أداء هو متغير Bertiant الخاص بالمجال باستخدام الإشراف الهجين الضعيف والحصول على درجة F1 79.32.
ولدت جائحة Covid-19 هيئة متنوعة من الأدبيات العلمية تحديا في التنقل، وتحفيز الاهتمام بالأدوات الآلية للمساعدة في العثور على معرفة مفيدة.نحن نتابع بناء قاعدة المعرفة (KB) من الآليات --- مفهوم أساسي في جميع أنحاء العلوم، والذي يشمل الأنشطة والوظائف وال علاقات السببية، بدءا من العمليات الخلوية إلى الآثار الاقتصادية.استخراج هذه المعلومات من اللغة الطبيعية للأوراق العلمية من خلال تطوير مخطط واسع موحد يضرب التوازن بين الأهمية والاتساع.نبحث عن مجموعة بيانات من الآليات مع مخططنا وتدريب نموذج لاستخراج علاقات الآلية من الأوراق.توضح تجاربنا فائدة KB لدينا في دعم البحث العلمي متعدد التخصصات على أدب CovID-19، مما يتفوق على البحث البارز PubMed في دراسة ذات خبراء سريريين.محرك البحث لدينا، مجموعة البيانات والرمز متاحة للجمهور.
نقدم خوارزمية استنادا إلى محولات متعددة الطبقات لتحديد ردود الفعل الدوائية الضارة (ADR) في بيانات وسائل التواصل الاجتماعي.يعتمد نموذجنا على خصائص المشكلة وخصائص ASTDDings Word السياقي لاستخراج وجهات نظرتين من المستندات.ثم يتم تدريب المصنف على كل طريق ة عرض لتسمية مجموعة من المستندات غير المستخدمة لاستخدامها كتهيئة لتصنيف جديد في الرأي الآخر.أخيرا، يتم تدريب المصنف التهيئي في كل طريقة عرض باستخدام أمثلة التدريب الأولي.قمنا بتقييم نموذجنا في أكبر مجموعة بيانات ADR المتاحة للجمهور.تشهد التجارب أن نموذجنا يتفوق بشكل كبير على النماذج القائمة على المحولات مسبقا على البيانات الخاصة بالمجال.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا