در محیطهای پیچیده، انسانها میتوانند معنای گفتار را بهتر از هوش مصنوعی درک کنند، زیرا ما نه تنها از گوشها بلکه از چشمهای خود نیز استفاده میکنیم.
به عنوان مثال، ما می بینیم که دهان فردی در حال حرکت است و ممکن است به طور شهودی بدانیم که صدایی که می شنویم باید از آن شخص باشد.
هوش مصنوعی متا در حال کار بر روی یک سیستم گفتگوی هوش مصنوعی جدید است، که به هوش مصنوعی یاد می دهد تا همبستگی های ظریف بین آنچه را که در یک مکالمه می بیند و می شنود تشخیص دهد.
VisualVoice به روشی مشابه یاد میگیرد که چگونه انسانها مهارتهای جدید را یاد میگیرند، و با یادگیری نشانههای دیداری و شنیداری از ویدیوهای بدون برچسب، جداسازی گفتار صوتی و تصویری را امکانپذیر میسازد.
برای ماشین ها، این ادراک بهتری ایجاد می کند، در حالی که ادراک انسان بهبود می یابد.
تصور کنید که بتوانید در جلسات گروهی در متاورس با همکارانی از سرتاسر جهان شرکت کنید، به جلسات گروهی کوچکتر بپیوندید که در فضای مجازی حرکت میکنند، که طی آن طنینها و صداهای صدا در صحنه مطابق با محیط انجام میدهند.
به این معنی که می تواند همزمان اطلاعات صوتی، تصویری و متنی را به دست آورد و دارای مدل درک محیطی غنی تری است که به کاربران امکان می دهد تجربه صدایی "بسیار عجب" داشته باشند.
زمان ارسال: ژوئیه-20-2022