تکنولوژی کلون کردن صدای هوش مصنوعی مایکروسافت: ول، ای 2 (VALL، E 2)
به گزارش مجله زیبایی زندگی، تیم تحقیقاتی مایکروسافت سیستم جدیدی به نام ول-ای 2 (VALL-E 2) معرفی نموده که قادر به فراوری صداهای با ظاهر انسانی با دسترسی به فقط چند ثانیه از صدای منبع است، به گونه ای که نمی توان آنها را از صدای اصلی تشخیص داد.
در مقاله ای که به وسیله تیم تحقیقاتی منتشر شده آمده است: ول-ای 2 (VALL-E 2) آخرین پیشرفت در مدل های زبان کدک عصبی است که نقطه عطفی در فراوری متن به گفتار با رویکرد صفر-نمونه محسوب می گردد و برای اولین بار کاملا قابل مقایسه با صدای انسانی است. این سیستم بر پایه نسخه پیشین خود، ول-ای (VALL-E)، که در اوایل سال 2023 معرفی گردید، ساخته شده است. مدل های زبان کدک عصبی، گفتار را به صورت دنباله ای از کدها نشان می دهند.
آنچه ول-ای 2 (VALL-E 2) را از سایر تکنیک های کلون کردن صدا متمایز می نماید، روش نمونه برداری مطلع از تکرار و جابجایی تطبیقی بین تکنیک های نمونه برداری است. این استراتژی ها باعث ارتقای پایداری و حل مسائل رایج در فراوری صدا را فراهم می نمایند.
تیم تحقیقاتی بیان کرد: ول-ای 2 (VALL-E 2) به طور مداوم گفتاری با کیفیت بالا فراوری می نماید، حتی برای جملاتی که به طور سنتی به علت پیچیدگی یا عبارات تکراری چالش برانگیز هستند. این تکنولوژی می تواند به فراوری گفتار برای افرادی که توانایی صحبت کردن را از دست داده اند یاری کند.
چالش های اخلاقی و دسترسی عمومی
مایکروسافت اعلام نموده است که این ابزار به عموم مردم ارائه نخواهد شد. در بیانیه اخلاقی این شرکت آمده است: در حال حاضر، برنامه ای برای ادغام ول-ای 2 (VALL-E 2) در یک محصول یا توسعه دسترسی به عموم نداریم. این شرکت به خطراتی مانند تقلید صدا بدون رضایت و استفاده از صدای مصنوعی در کلاهبرداری ها و سایر فعالیت های مجرمانه اشاره نموده است.
رقابت شدید در حوزه کلون کردن صدا
رقابت در زمینه کلون کردن صداهای مصنوعی به سرعت در حال افزایش است و مرزهای نوی روزانه ظهور می نمایند. استارتاپی به نام الون لبز (ElevenLabs) در سان فرانسیسکو اعلام نموده است که مدل نو هوش مصنوعی آنها می تواند صداها را به 30 زبان مختلف تقلید کند، در حالی که نسخه قبلی تنها از 8 زبان پشتیبانی می کرد. تیم تحقیقاتی این شرکت به ضرورت ایجاد روشی استاندارد برای علامت گذاری دیجیتالی فراوریات هوش مصنوعی تأکید کرد و اشاره نمود که تشخیص محتوای فراوری شده به وسیله هوش مصنوعی همچنان چالش برانگیز است.
مقایسه نتایج ول-ای 2 (VALL-E 2) با سایر ابزارها
نتایج ول-ای 2 (VALL-E 2) در مقایسه با سایر ابزارها دقت زیاد آن را نشان می دهد. در سری آزمایش های صورت گرفته به وسیله تیم تحقیقاتی، ول-ای 2 (VALL-E 2) در پارامترهای پایداری، طبیعی بودن و شباهت گفتار فراوری شده نسبت به معیارهای انسانی رجحان داشت. این سیستم با تنها 3 ثانیه نمونه صدا به این نتایج دست یافت، اما تیم تحقیقاتی اشاره نمود که استفاده از نمونه های 10 ثانیه ای منجر به کیفیت بهتری شد.
مدل های کلون کردن صدا از شرکت های دیگر
مایکروسافت تنها شرکتی نیست که مدل های هوش مصنوعی پیشرفته خود را بدون انتشار عمومی معرفی نموده است. مدل ویس باکس (Voicebox) از شرکت متا و ویس انجین (Voice Engine) از شرکت اوپن ای آی (OpenAI) نیز دو نمونه برجسته از این تکنولوژی ها هستند.
سخنگوی هوش مصنوعی متا به دیکریپت (Decrypt) گفت: کاربردهای هیجان انگیز بسیاری برای مدل های فراوری گفتار وجود دارد، اما به علت خطرات احتمالی سوءاستفاده، ما مدل یا کد ویس باکس (Voicebox) را در این زمان به صورت عمومی منتشر نمی کنیم.
بعلاوه، اوپن ای آی شرح داد که ابتدا میخواهد مسائل امنیتی را حل نماید و بعد از آنمدل صدای مصنوعی خود را عرضه کند. در اعلمیه رسمی این شرکت آمده: در راستای رویکرد ما به ایمنی هوش مصنوعی و تعهدات داوطلبانه مان، ما تصمیم گرفته ایم این تکنولوژی را به صورت پیش نمایش در دسترس قرار دهیم، ولی در این زمان به صورت گسترده منتشر نکنیم.
درخواست برای برقراری راهنماها یا گایدلاین های اخلاقی در جامعه هوش مصنوعی در حال توسعه است، به ویژه با افزایش نگرانی های قانون گذاران در خصوص تأثیر هوش مصنوعی فراوریی بر زندگی روزمره.
منبع: یک پزشک