קבוצת חוקרים במיקרוסופט (Microsoft) הציגה את מודל הבינה המלאכותית VASA-1, המסוגל לקחת תמונת פורטרט וקובץ שמע על מנת ליצור וידאו מונפש בעל הבעות פנים ושפתיים המותאמות לקובץ השמע, עם אפשרויות שליטה מגוונות על האופן בו מונפש ראש המשתמש.
מודל ה-VASA-1 החדש של מיקרוסופט מזכיר מאוד את מודל ה-VLOGGER של גוגל, כאשר בשני המקרים המודלים נועדו “להפיח חיים” בתמונות עם הנפשה התואמת לקטע האודיו אותו משתמשים צריכים להוסיף לצד התמונה בה רוצים להשתמש, כאשר כלל הפנים בהם השתמשו החוקרים (מלבד המונה ליזה) יוצרו על ידי מחוללי ה-StyleGAN2 או DALL·E-3.
המודל החדש מסוגל לקחת תמונות של אנשים ולייצר קטעי וידאו ברזולוציית 512×512 עם קצב של 45 פריימים בשניה במצב לא מקוון ועד 40 פריימים בשניה בהזרמת תוכן מקוון עם שיהוי של 170ms באמצעות מחשב שולחני סטנדרטי עם כרטיס RTX 4009.
המודל מציע יכולת סנכרון גבוהה להבעות פנים ותנועה שפתיים בהתאם לשמע לצד מגוון אפשרויות שליטה שונות, בהן בחירת נקודת המבט של הראש המונפש, “מרחק מהעדשה”, הבעת רגשות (שמח, עצוב, מופתע וכו’) ועוד.
ניתן לראות מגוון רחב מאוד של דוגמאות לסרטוני וידאו המיוצרים על ידי VASA-1 על בסיס תמונות באתר הרשמי ולקרוא את עבודת המחקר על המודל (PDF).
מבין הדוגמאות השונות, וידאו מעניין במיוחד משלב בין המונה ליזה ושיר ראפ המזכיר מאוד מערכונים של SNL:
חלק מהפוסטים באתר כוללים קישורי תכניות שותפים, עבורם נקבל עמלה עם ביצוע רכישה בפועל של מוצרים. עמלה זו לא מייקרת את העלות הסופית של המוצרים עבורכם.
הסקירות והתכנים המופיעים באתר מהווים המלצה בלבד, וכך יש להתייחס אליהם. כל המחירים המופיעים באתר נכונים ליום הפרסום בלבד והאחריות לקניית מוצר או שירות כזה או אחר מוטלת עליך בלבד – השימוש באתר בהתאם לתנאי השימוש והפרטיות.