חוקרי בייטדאנס (ByteDance) הסינית, המוכרת במיוחד כחברה העומדת מאחורי טיקטוק (TikTok), הציגו את OmniHuman-1, מודל מחולל וידאו/דייפ פייק, המסוגל לקחת תמונה בודדת עם קובץ שמע תואם ולייצר על בסיס התמונה וידאו ריאליסטי למדי עם תנועות גוף, שפתים וידיים התואמים לשמע.
בזמן שבייטדאנס ממשיכה להתמודד עם ההשלכות של החקיקה האמריקאית כנגד טיקטוק, החברה משקיעה משאבים בפיתוחים בתחום הבינה המלאכותית, כאשר מודל ה-OmniHuman-1 מצטרף לרשימה הולכת וגדלה של מודלי AI.
מחולל ה-OmniHuman-1 החדש מזכיר מאוד את כלי ה-Deep Nostalgia של מייהריטג' הישראלית, שמאפשר "להנפיש" תמונות ולהפוך אותן לסרטונים קצרים.
באופן די מובן, המחולל החדש מספק איכות וידאו גבוהה יותר, כאשר כל מה שדרוש למחולל היא תמונה בודדת וקובץ שמע על מנת לייצר וידאו הנפשה שיתאים לשמע ויכלול תנועות ידיים תואמות לדיבור ועוד.
בין הדוגמאות אותן הציגה החברה היא הרצאה של אלברט איינשטיין, שאולי לא מושלמת לגמרי אך מספקת וידאו אמין למדי המזכיר את הסכנות של תחום מחוללי הוידאו והדיפ-פייק.
ה-OmniHuman-1 מגיע כ"מודל דיפוזיה רב-מצבי" (multi-condition diffusion mode) שאומן על בסיס של 18.7 אלף שעות של וידאו, עם אסטרטגיית אימון רב-מצבי (Omni-Conditions Training Strategy) שכללה קלט נוסף כמו טקסט, שמע ועוד.
בתגובה למגזין פורבס, בייטדאנס ציינה כי המודל לא אומן על מידע מהמוצרים של החברה (הכוונה לטיקטוק), ובמידה שהוא יהפוך להיות זמין בעתיד לשימוש ציבורי הוא יכלול מנגנונים מובנים למניעת שימוש לרעה ביכולות הדיפ-פייק המתקדמות שלו.
מחולל ה-OmniHuman-1 איננו זמין לשימוש ציבורי ומיועד למטרות מחקר בשלב הנוכחי, כאשר ניתן לקרוא את עבודת המחקר על המחולל ב-arxiv.
חלק מהפוסטים באתר כוללים קישורי תכניות שותפים, עבורם נקבל עמלה עם ביצוע רכישה בפועל של מוצרים. עמלה זו לא מייקרת את העלות הסופית של המוצרים עבורכם.
הסקירות והתכנים המופיעים באתר מהווים המלצה בלבד, וכך יש להתייחס אליהם. כל המחירים המופיעים באתר נכונים ליום הפרסום בלבד והאחריות לקניית מוצר או שירות כזה או אחר מוטלת עליך בלבד – השימוש באתר בהתאם לתנאי השימוש והפרטיות.