לפני כשבוע, במסגרת כנס המפתחים I/O 2025, הציגה גוגל הרחבה נוספת למשפחת מודלי Gemma 3 אותה הציגה במרץ האחרון, זו הגיעה בדמות מודל ה-Gemma 3n, אותו מייעדת החברה ספציפית עבור שימושים עבור מכשירים ניידים דוגמת סמארטפונים.
המודל החדש הוגדר על ידי החברה כמודל "נאנו" (על כן השימוש באות 'n'), כשמטרתו שיפור הביצועים והרצה מהירה יותר על גבי מכשירים ניידים, מה שיאפשר למפתחי אפליקציות לנצל יכולות בינה מלאכותית מתקדמות ביצירת האפליקציות שלהם, כמו למשל ניתוח בזמן אמת של קול ווידאו.
המודל החדש מאפשר למפתחי אפליקציות לשלב חוויות אינטראקטיביות מבוססות AI שיפעלו על המכשירים הניידים בזמן אמת, כאשר בין הדוגמאות שסיפקה גוגל ניתן למצוא:
- יכולת בניית חוויות אינטראקטיביות המבינות ומגיבות לרמזים הן ברמה הויזואלית והן ברמת השמע המגיעים מהסביבה של המשתמש.
- עיבוד משולב של קלט המגיע מאודיו, תמונה, וידאו וטקסט לצורך הבנה עמוקה יותר וייצור טקסט קונטקסטואלי.
- פיתוח אפליקציות השמות דגש על אודיו וכוללות תמלול דיבור בזמן אמת, תרגום ואינטראקציות קוליות עשירות.
דוגמאות לאפליקציות
את היכולות של מודל ה-Gemma 3n יוכלו מפתחים לנצל כדי ליצור אפליקציות במגוון תחומים (אלו לא דוגמאות של גוגל, סתם רעיונות שניתן לבצע על בסיס מה שהמודל מסוגל לעשות):
- אפליקציית "מורה פרטי" עם יכולות לזיהוי דיבור ותמונה שתעזור לילדים ללמוד. הילד יכול לצלם דף בספר ולשאול בקולו "איך פותרים את התרגיל הזה?" והמודל יספק הסבר קולי מפורט תוך הצגת השלבים על המסך.
- אפליקציית נסיעות שיכולה לזהות שלטים, תפריטים או שיחות בזמן אמת, לתרגם אותם מיידית לעברית. רק לכוון את המצלמה של הטלפון לכיוון השלט ולקבל תרגום מלא עם הסברים.
- אפליקציה לאימון כושר אישי שתוכל לזהות באמצעות המצלמה תנוחות ותרגילי כושר ותספק הנחיות קוליות בזמן אמת על הביצוע, תוך שהיא מתאימה את תוכנית האימון לרמה של המשתמש. למשל, כמו שמאמנים אמרו לי בעבר: "תיישר את הגב" או "יופי, עוד 5 חזרות".
- אפליקציה לארגון מסמכים שתוכל לסרוק מסמכים, חשבוניות או כרטיסי ביקור, ואז לסדר ולסווג אותם אוטומטית. רק לצלם את המסמכים והאפליקציה תוכל לזהות, לתמלל ולאגן הכל בתיקיות מתאימות.
- אפליקציית עוזר אישי: למשל, על ידי צילום של מה שיש לכם במקרר, מודל ה-AI עליו מבוססת האפליקציה יזהה את המוצרים ומיוכל להציע מתכונים על פי מה שיש בו, בשילוב הוראות קוליות צעד אחר צעד. מעבר לכך, אפשר גם לזהות אילו מוצרים חסרים ואולי גם לבדוק תוקף של מוצרים (אם כי זה ידרוש צילום ספציפי יותר של כל מוצר בנפרד)
- יועץ קניות לסופר: בזמן שתטיילו בסופרמרקט, תוכלו לצלם מוצרים והמודל ינתח ויספק מידע כמו השוואת מחירים, מידע תזונתי, ביקורות על המוצרים וחלופות בריאות יותר או זולות יותר.
שימוש במודלים גדולים עם פחות זיכרון
הפיתוח של Gemma 3n נעשה בשיתוף כמה מחברות החומרה הגדולות בתחום המכשירים הניידים, ביניהן קוואלקום, מדיה-טק וסמסונג, והוא כולל את טכנולוגיית Per-Layer Embeddings (PLE) של גוגל, המאפשרת הפחתה משמעותית בצריכת זיכרון ה-RAM.
היתרון בחיסכון בזיכרון מתבטא ביכולת להריץ מודלים גדולים יותר עם עומס קטן יותר על הזיכרון במכשירים, כך שגם כאשר מספר הפרמטרים הגולמי עומד על 5 מיליארד ו-8 מיליארד, ניתן להריץ מודלים גדולים יותר עם עומס זיכרון דינמי של רק 2GB ו-3GB, בהתאמה. כלומר, המודל פועל עם עומס זיכרון ששקול למודלים של 2 מיליארד ו-4 מיליארד פרמטרים.
יכולות מולטימדיה
אחת מהתוספות הגדולות ב-Gemma 3n היא היכולת החדשה לעיבוד אודיו, אשר מגיעה לצד היכולות הקיימות של עיבוד טקסט ותמונות.
המודל יכול לבצע זיהוי דיבור אוטומטי (ASR) באיכות גבוהה ותרגום דיבור לטקסט, תוך יכולת הבנה משופרת של וידאו ועיבוד מידע מעורב המגיע ממקורות מדיה שונים.
זמינות
Gemma 3n זמין בגרסת Preview מוקדמת דרך Google AI Studio ככלי מבוסס ענן, דרך Google AI Edge לפיתוח מקומי עם יכולות הבנה וייצור טקסט ותמונה ודרך HuggingFace (גרסאות 2B/4B פרמטרים)
מידע נוסף זמין דרך אתר המפתחים של גוגל.