חוקרי אפל (Apple) וחוקרים מאוניברסיטת קליפורניה בסנטה ברברה (UCSB) פיתחו מודל עריכת תמונות מבוסס בינה מלאכותית (AI) בשם MGIE או MLLM-Guided Image Editing, מודל שפה גדול שנועד לאפשר עריכה של תמונות קיימות באמצעות קלט טקסטואלי המתאר את השינויים שרוצים לבצע בתמונה.
בצל ההשקה הגדולה של משקפי ה-Vision Pro של החברה, תחום הבינה המלאכותית עדיין נחשב לתחום בו אפל משתרכת מאחור בהשוואה לחברות דוגמת גוגל ו-OpenAI, ללא הצגת מענה הולם לפתרונות ה-AI של המתחרות. עם זאת, אין זה אומר שהחברה לא מפתחת כלי בינה מלאכותיית שונים מאחורי הקלעים.
תחום מחוללי התמונות נחשב לאחד מהגדולים בבינה המלאכותית הגנרטיבית, אך בניגוד למחוללי תמונות רגילים שמייצרים תמונות מאפס מטקסט שהוזן להם, מודל ה-MGIE החדש נועד לבצע עריכה בתמונות קיימות, דבר שדרוש מהמודל יכולת זיהוי תוכן בתמונות וכן הבנה של הוראות המשתמש על מנת לבצע את העריכה.
במקרה שלנו לקחנו תמונה של הכנרת עם הנחיה לשנות את הזמן לשקיעה, כשבחלק הימני של הדמו ניתן לראות כיצד המודל פירש את ההנחיה הקצרה שלנו וניסח פרומפט (prompt) מפורט יותר על אילו שינויים המודל צריך לעשות בתמונה.
ניתן להתרשם ממודל ה-MGIE החדש בגרסת הדגמה ב-huggingface ולקרוא את עבודת המחקר המלאה בקישור הבא PDF.
על אף שאנחנו לא יודעים באופן מפורש האם אפל תטמיע את מודל ה-MGIE בפתרון הבינה המלאכותית אותו תציג בסופו של דבר, נוכל להניח כי בעתיד הלא רחוק משתמשי אפל יוכלו לערוך את התמונות אותן צילמו במכשירי האייפון שלהם באמצעות דיבור בלבד.
חלק מהפוסטים באתר כוללים קישורי תכניות שותפים, עבורם נקבל עמלה עם ביצוע רכישה בפועל של מוצרים. עמלה זו לא מייקרת את העלות הסופית של המוצרים עבורכם.
הסקירות והתכנים המופיעים באתר מהווים המלצה בלבד, וכך יש להתייחס אליהם. כל המחירים המופיעים באתר נכונים ליום הפרסום בלבד והאחריות לקניית מוצר או שירות כזה או אחר מוטלת עליך בלבד – השימוש באתר בהתאם לתנאי השימוש והפרטיות.