العديد من الأعمال الحديثة في إظهار كلمة التحليل المعجمي ثنائي اللغة (BLI) Word Adgetdings كمنتجات في الفضاء Euclidean.على هذا النحو، يتم حلها عادة من خلال العثور على تحول خطي يقوم بخرائط Ageddings إلى مساحة مشتركة.بدلا من ذلك، قد تكون مفهومة Word Age
ddings كما العقد في رسم بياني مرجح.هذا الإطار يتيح لنا فحص حي الرسم البياني للعقدة دون تولي التحول الخطي، ويستغل التقنيات الجديدة من أدب الأمثل في مطابقة الرسم البياني.لم تتم مقارنة هذه الأساليب المتناقضة في Bli حتى الآن.في هذا العمل، ندرس سلوك الأساليب Euclidean مقابل الأساليب القائمة القائم على الرسم البياني إلى Bli تحت شروط البيانات المختلفة وإظهار أنها تكمل بعضها البعض عند الجمع.نطلق سردنا في https://github.com/kellymarchisio/euc-v-graph-bli.
الاتساق المصطلحات هو شرط أساسي للترجمة الصناعية.تحتوي المصطلحات ذات الجودة اليدوية عالية الجودة على إدخالات في أشكالها الاسمية.دمج مثل هذه المصطلحات في الترجمة الآلية ليست مهمة تافهة.يجب أن يكون نظام MT قادرا على إزالة المهاطين على الجانب المصدر واخت
ر WordForm الصحيح على الجانب المستهدف.في هذا العمل، نقترح طريقة بسيطة ولكنها فعالة ل Disambiguation Homograph وطريقة اختيار WordForm من خلال إدخال قيود معجمية متعددة الخيارات.نقترح أيضا مقياس قياسي لقياس الاتساق المصطحي للترجمة.نتائجنا لها تحسن كبير على سوتا الحالي من حيث الاتساق المصطاعي دون أي خسارة في النتيجة بلو.سيتم نشر جميع التعليمات البرمجية المستخدمة في هذا العمل كمصدر مفتوح.
نظرا لأن النهج القائم على المعجم هو أكثر أناقة علميا، أوضح مكونات الحل وأسهل التعميم إلى التطبيقات الأخرى، توفر هذه الورقة نهجا جديدا للغة الهجومية والكشف عن الكلام على وسائل التواصل الاجتماعي، والتي تجسد معجم من الهجوم الضمني والبريثوإقتصار التعبيرا
ت المشروح مع المعلومات السياقية.نظرا لشدة تعليقات وسائل التواصل الاجتماعي المسيئة في البرازيل، وعدم وجود أبحاث باللغة البرتغالية والبرتغالية البرازيلية هي اللغة المستخدمة للتحقق من صحة النماذج.ومع ذلك، قد يتم تطبيق طريقتنا على أي لغة أخرى.تظهر التجارب التي أجراها فعالية النهج المقترح، مما يتفوق على الأساليب الأساسية الحالية للغة البرتغالية.
كانت هناك عدة محاولات لإنشاء معجم عاطفي دقيق وشامل باللغة الإنجليزية، والذي يحدد المحتوى العاطفي للكلمات. من بين العديد من الموارد الشائعة الاستخدام، تلقت معجم NRC Emption (Mohammad and Turney، 2013B) معظم الاهتمام بسبب توافرها وحجمها واختيارها لنموذ
ج PLUTCHIVE التعبيري 8-Close Model. في هذه الورقة، نحدد عدد كبير من الإدخالات المقلقة في معجم NRC، حيث تكون الكلمات التي ينبغي أن تكون في معظم السياقات محايدة عاطفيا، دون أي تأثير (على سبيل المثال، مثليه، الحجر "، الجبل")، ترتبط بالملصقات العاطفية التي هي غير دقيقة، غير رسمية، تقشير، أو، في أحسن الأحوال، المعتمدة للغاية والسياق (على سبيل المثال، مثليه "المسمى بالاشمئزاز والحزن، والحجر" كغضب، أو جبل "كما يتيح). نحن نصف إجراء إجراء لتصحيح هذه المشكلات شبه تلقائيا في NRC، والذي يتضمن فئات POS Disbigiguating ومحاذاة إدخالات NRC مع طمامة العاطفة الأخرى لاستنتاج دقة الملصقات. نوضح عبر معيار تجريبي يتم تحسين جودة الموارد. نقوم بإصدار المورد المنقح وشمزنا لتمكين الباحثين الآخرين من إعادة إنتاج والبناء عند النتائج.
تهدف إلى توليد معجم البذور للاستخدام في مهام اللغة الطبيعية المصب والأساليب غير الخاضعة للرقابة لتحريض المعجم الثنائي اللغة قد حصلت على الكثير من الاهتمام في الأدبيات الأكاديمية مؤخرا. في حين أن الإعدادات المثيرة للاهتمام وغير المدمرة بالكامل غير واق
عية؛ عادة ما تكون كميات صغيرة من البيانات ثنائية اللغة متاحة عادة بسبب وجود كوربوريل متوازي متعدد اللغات بشكل كبير، يمكن أن يخلق اللغويين كميات صغيرة من البيانات الموازية. في هذا العمل، نوضح نهجا فعالا من Bootstrapping لتعريفات المعجم الثنائية الشرفية شبه الإشراف التي تتمتع بنقاط القوة التكميلية لطريقين متباينين لتحقيق المعجم الثنائي اللغة. في حين أن الطرق الإحصائية فعالة للغاية في حث أزواج الترجمة الصحيحة للكلمات التي تحدث في كثير من الأحيان في كوربوس موازية ومساحات تضمين أحادية مونولينغ لديها ميزة تم تدريبها على كميات كبيرة من البيانات، وبالتالي قد تحفز ترجمات دقيقة للكلمات غائبة عن الكائنات الصغيرة. من خلال الجمع بين هذه القوة النسبية وطريقتنا تحقق نتائج أحدث من الفن في 3 من 4 أزواج لغة في مجموعة اختبار VECMAP الصعبة التي تستخدم الحد الأدنى من الكميات من البيانات الموازية ودون الحاجة إلى قاموس الترجمة. نطلق تنفيذنا على www.blind-review.code.
تقدم الورقة تجارب في الترجمة الآلية العصبية مع القيود المعجمية في لغة غنية مورمية.على وجه الخصوص، نقدم طريقة واستنادا إلى فك التشفير المقيد والتي تتعامل مع الأشكال المصدرة للإدخالات المعجمية ولا تتطلب أي تعديل بيانات التدريب أو الهندسة المعمارية النم
وذجية.لتقييم فعاليتها ونقوم بإجراء تجارب في سيناريوهات مختلفة: عام ومخصص خاص.قارنا طريقنا مع ترجمة خط الأساس، وهي ترجمة بدون قيود معجمية ومن حيث سرعة الترجمة وجودة الترجمة.لتقييم مدى جودة معالجة القيود ونقترح مقاييس تقييم جديدة تأخذ في الاعتبار وجود وتنسيب وازدواجية وصحة الانهيار المصطلحات المعجمية في جملة الإخراج.
يعد تعيين المعاني المعجمية إلى WordForms ميزة رئيسية للغات الطبيعية. في حين أن ضغوط الاستخدام قد تقوم بتعيين كلمات قصيرة معاني متكررة (قانون اختصار Zipf)، فإن الحاجة إلى مفردات إنتاجية ومفتوحة، وقيود محلية على تسلسل الرموز، وعوامل أخرى مختلفة جميعها
تشكل طمئتي لغات العالم. على الرغم من أهميتها في تشكيل الهيكل المعجمي، لم يتم تحديد المساهمات النسبية لهذه العوامل بالكامل. أخذ رؤية نظرية ترميز من المعجم والاستفادة من نموذج إحصائي عام جديد، نحدد الحدود العليا لضغوط المعجم تحت قيود مختلفة. فحص كوربورا من 7 لغات متنوعة من 7، نستخدم تلك الحدود العليا لتحديد فائنة المعجم واستكشاف التكاليف النسبية للقيود الرئيسية على الرموز الطبيعية. نجد أن التورفولوجيا (التركيبية) والرسومات الحربية يمكن أن يمثل بما فيه الكفاية لمعظم تعقيد الرموز الطبيعية --- كما تقاس طول التعليمات البرمجية.
تعتبر الرموز التعبيرية (الصور التوضيحية الرقمية الشعبية) في بعض الأحيان كنوع جديد من كود الكتابة المصطنعة والمتسقة عالميا. على الرغم من عالمياتهم المفترضة، هناك بعض الأدلة على أن الإحساس بالرموز التعبيرية، على وجه التحديد فيما يتعلق بالمشاعر، قد يتغي
ر من اللغة إلى اللغة والثقافة إلى الثقافة. تحقق هذه الورقة ما إذا كان تحليل معنويات الرموز التعبيرية السياقية يتوافق على اللغات العربية والأوروبية. لإجراء هذا التحقيق، نحن، أولا، أنشأ معجم الرموز الرموز التعبيرية العربية (ARAB-ESL). بعد ذلك، استغلنا المعجم الرموز التعبيري الأوروبي الأوروبي الحالي لمقارنة المشاعر المنقولة في كل من العائلتين من اللغات والثقافة (العربية والأوروبية). تظهر النتائج أن العلاقة الزوجية بين المعجمين متسقين من الرموز التعبيرية التي تمثل، على سبيل المثال، قلوب، تعبيرات الوجه، ولغة الجسم. ومع ذلك، من أجل مجموعة فرعية من الرموز التعبيرية (تلك التي تمثل الأشياء والطبيعة والرموز وبعض الأنشطة البشرية)، هناك اختلافات كبيرة في المعنويات التي يتم نقلها. ومن المثير للاهتمام أن المستوى العالي للغاية من التناقض قد يظهر بالمواد التعبيرية الغذائية.
تلقت الأساليب القائمة على القاموس في تحليل المعنويات الاهتمام العلمي مؤخرا، وأكثر الأمثلة الشاملة التي يمكن العثور عليها باللغة الإنجليزية. ومع ذلك، فإن العديد من اللغات الأخرى تفتقر إلى قواميس القطبية، أو تلك الموجودة صغيرة الحجم كما في حالة SentiTu
rknet، أول وفقط القطبية القاسم في التركية. وبالتالي، تهدف هذه الدراسة إلى تمديد محتوى SentiTurknet من خلال مقارنة الكلامين المتاحين في التركية، وهي Kenet و TR-Wordnet من Balkanet. تحقيقا لهذه الغاية، تم إنشاء قاموس الأسقفية التركية الحالية بالاعتماد على 76825 متلازمة مطابقة Kenet، حيث تم تفاح كل Synset مع ثلاث ملصقات قطبية، وهي إيجابية وسلبية ومحايدة. وفي الوقت نفسه، كشفت مقارنة Kenet و Tr-Wordnet of Balkanet عن نقاط الضعف الخاصة بهم مثل تكرار نفس الحواس، ونقص الدمج اللازم للعناصر التي تنتمي إلى نفس المكامنة ووجود إصدارات أضيق زائدة من التزامن، والتي تتم مناقشتها في ضوء إمكاناتهم لتحسين قواعد البيانات المعجمية الحالية التركية.
يعالج البحث قضية المصطلح اللساني العربي، و يحاول توصيف مشكلاته القائمة، و تحديد أسبابها؛ ليصل إلى نتائج علميةٍ تعينه على تقديم الحلول لها، فيعرض بدايةً طبيعة علم المصطلح و آلياته العلمية و علاقته باللسانيات، ثم يجمل القول على خصائص المصطلح العلمي، و
يحدد ما يتميز به عن مفردات اللغة الأخرى، و ينتقل بعد ذلك إلى الخوض في غمار مشكلات المصطلح اللساني العربي، فيَصِف واقعه، و يعرض مشكلاته التي تزعزع خصائصه الاصطلاحية، و يحاول تحديد أسبابها، و تقديم المقترحات لتجاوزها، كما يعرض جهود المؤسسات اللغوية العربية في حل هذه المشكلات، و يناقش الهنات و نقاط الضعف التي أدت إلى إبعادها عن تحقيق غايتها، و يناقش إشكالية استخدام المصطلح اللغوي العربي التراثي في مقابل المفاهيم اللسانية المستحدثة، فيعرض الآراء المتباينة حول هذه الإشكالية، و يقدم رؤيته مسوغاً لها، و يخلص إلى تكثيف نتائجه في خاتمة يقدم فيها بعض التوصيات التي يراها ناجعةً في حل مشكلات المصطلح اللساني العربي.