
در محیطهای پیچیده، انسانها میتوانند معنای گفتار را بهتر از هوش مصنوعی درک کنند، زیرا ما نه تنها از گوشهایمان، بلکه از چشمانمان نیز استفاده میکنیم.
برای مثال، ما حرکت دهان کسی را میبینیم و ممکن است به طور شهودی بدانیم که صدایی که میشنویم باید از آن شخص باشد.
شرکت متا هوش مصنوعی (Meta AI) در حال کار بر روی یک سیستم گفتگوی هوش مصنوعی جدید است که قرار است به هوش مصنوعی آموزش دهد تا همبستگیهای ظریف بین آنچه در یک مکالمه میبیند و میشنود را نیز تشخیص دهد.
VisualVoice به روشی مشابه با نحوه یادگیری مهارتهای جدید توسط انسانها یاد میگیرد و با یادگیری نشانههای بصری و شنیداری از ویدیوهای بدون برچسب، جداسازی گفتار صوتی و تصویری را امکانپذیر میکند.
برای ماشینها، این امر ادراک بهتری ایجاد میکند، در حالی که ادراک انسان بهبود مییابد.
تصور کنید که میتوانید در جلسات گروهی در متاورس با همکارانی از سراسر جهان شرکت کنید و همزمان با حرکت در فضای مجازی به جلسات گروههای کوچکتر بپیوندید، که در طی آن طنینها و طنینهای صدا در صحنه مطابق با محیط تنظیم میشوند.
یعنی میتواند همزمان اطلاعات صوتی، تصویری و متنی را دریافت کند و مدل درک محیطی غنیتری دارد که به کاربران امکان میدهد تجربه صوتی «بسیار شگفتانگیزی» داشته باشند.
زمان ارسال: 20 ژوئیه 2022