طور فريق من العلماء والباحثين من جامعة الشارقة في دولة الإمارات العربية المتحدة نظام ذكاء اصطناعي يمكنه التمييز تلقائيا بين لهجات اللغة العربية التي يتحدث بها الناطقون بها. ونشرت الدراسة في IEEE.
أقر القائمون على البحث بالصعوبات الجمة التي واجهتهم أثناء تعليم الحاسوب كيفية تمييز اللهجات العربية المتباينة عبر الاستماع إلى تسجيلات الكلمات المنطوقة فحسب. وذلك نظراً للتنوع الشاسع والتعقيد المتأصل لتلك اللهجات، فضلاً عن التحديات التقنية المتمثلة في قدرات المعالجة الصوتية وتحسين نماذج تعلم الآلة.
استعمل مشرفو البحث قاعدة بيانات تضم أكثر من 3,000 ساعة من المقاطع الصوتية التي جرى جمعها من منصة YouTube، والتي تشمل 19 لهجة مختلفة متداولة في البلدان العربية. وفقاً لما توصلوا إليه، كانت النتائج مبهرة حقاً؛ إذ حقق النموذج معدلات مرتفعة من الصوابية، ونجح في التمييز الصحيح للهجات الإقليمية في 97.29% من المرات، واللهجات حسب البلد في 94.92% من المرات. وكان ذلك بتوظيف 29% فحسب من بيانات التدريب قياساً بما يتطلبه الأمر عادة في أبحاث مشابهة.
يبشر هذا المشروع بإمكانيات واعدة لسد ثغرات التواصل بين شعوب المنطقة وسائر بلدان العالم. فضلاً عن تطبيقات أخرى مثل تحسين تجربة المساعدات الشخصية الرقمية، وأدوات الترجمة، وأنظمة الخدمة التلقائية للعملاء. ويُشار إلى أن نماذج البحث التي توصل إليها الباحثون متاحة للعموم، كي يكون بمقدور سواهم من الباحثين والمطورين استعمالها في تصميم تقنيات أكثر دقة وكفاءة.
في وقت سابق من هذا العام، ظهرت تقارير تفيد بأن شركة IBM بدأت في تطوير برنامج ذكاء اصطناعي في المملكة العربية السعودية يمكنه التعامل مع لهجات متعددة من اللغة العربية. وفي شهر مايو الماضي، أعلنت الهيئة السعودية للبيانات والذكاء الاصطناعي (SDAIA) أنه سيتم دمج نموذجها العربي واسع النطاق في منصة Watsonx التابعة لشركة IBM للذكاء الاصطناعي والبيانات.