تیمی از محققان از دانشگاه فناوری نانیانگ، سنگاپور (NTU سنگاپور) یک برنامه کامپیوتری ایجاد کردهاند که ویدیوهای واقعگرایانهای ایجاد میکند که حالات چهره و حرکات سر فردی را که صحبت میکند منعکس میکند و فقط به یک کلیپ صوتی و عکس چهره نیاز دارد. DIverse yet Realistic Facial Animations یا DIRFA، یک برنامه مبتنی بر هوش مصنوعی است که صدا و عکس میگیرد و یک ویدیوی سهبعدی تولید میکند که به شخص نشان میدهد انیمیشنهای صورت واقعی و ثابت را با صدای گفتاری همگامسازی میکند. برنامه توسعهیافته NTU رویکردهای موجود را بهبود میبخشد، که با تغییرات ژست و کنترل احساسی مبارزه میکنند. برای انجام این کار، تیم DIRFA را روی بیش از یک میلیون کلیپ سمعی و بصری از بیش از 6000 نفر که از یک پایگاه داده منبع باز به نام The VoxCeleb2 Dataset مشتق شده بودند، آموزش دادند تا نشانه های گفتار را پیش بینی کند و آنها را با حالات چهره و حرکات سر مرتبط کند. محققان گفتند DIRFA میتواند به برنامههای کاربردی جدید در صنایع و حوزههای مختلف، از جمله مراقبتهای بهداشتی منجر شود، زیرا میتواند دستیاران مجازی و چتباتهای پیچیدهتر و واقعیتر را فعال کند و تجربیات کاربر را بهبود بخشد.
علاوه بر افزودن گزینهها و بهبودهای بیشتر به رابط DIRFA، محققان NTU حالتهای چهره آن را با طیف گستردهتری از مجموعه دادهها که شامل حالات چهره متنوعتر و کلیپهای صوتی صوتی است، تنظیم خواهند کرد.