أعلنت شركة ميتا عن إطلاق نموذجها الجديد “Spirit LM” المفتوح المصدر، والذي يهدف إلى معالجة التحديات المتعلقة بالنماذج المتعددة الوسائط في مجال الذكاء الاصطناعي.
يسعى النموذج الجديد إلى تقديم تجربة صوتية أكثر طبيعية وتعبيرًا، في خطوة متقدمة نحو تطوير روبوتات ذكية قادرة على التواصل الصوتي بطريقة أكثر تعقيدًا وواقعية.
يعتمد نموذج “Spirit LM” على نموذج لغوي تم تدريبه مسبقًا ويتألف من 7 مليارات مُعلمة، ويتميز بقدرته على معالجة الصوت بأسلوب مختلف عن النماذج التقليدية التي تعتمد على تقنيات التعرف على الكلام تلقائيًا (ASR).
أشارت ميتا إلى أن الأساليب التقليدية تؤدي إلى فقدان العديد من التعبيرات الطبيعية في الصوت. ولذا، يعتمد “Spirit LM” على استخدام رموز الفونيم (الوحدات الصوتية) والنغمات ودرجات الصوت لتجاوز هذه القيود، مما يمكّنه من إنتاج أصوات طبيعية، والتعلم من مهام جديدة تشمل التعرف على الكلام، وتحويل النص إلى صوت، وتصنيف الكلام.
كما كشفت ميتا عن تفاصيل البحث الذي أسفر عن تطوير “Spirit LM” عبر موقعها الرسمي، حيث تم عرض عينات من الأداء الصوتي للنموذج، مما يتيح فكرة واضحة حول قدراته المستقبلية.
النموذج متاح الآن للمطورين والباحثين للاستخدام والتطوير، ومن المتوقع أن يتم استخدامه مستقبلاً ضمن تطبيقات ميتا مثل واتساب وإنستاجرام وفيسبوك، مما سيتيح للمستخدمين التفاعل مع الذكاء الاصطناعي من خلال محادثات صوتية طبيعية مليئة بالتعبيرات، على غرار ما قدمته شركة OpenAI من تقنيات حديثة.