חברת IBM הציגה גרסת תצוגה מוקדמת (preview) של ה-Granite 4.0 Tiny, הגרסה הזעירה (Tiny) ביותר במשפחת ה-Granite 4.0, הדור הבא של מודלי ה-AI של IBM אותם החברה תציג בקיץ הקרוב.
מדובר במודל זעיר בגודל 7 מיליארד פרמטרים, המשתמש בארכיטקטורת MoE עם מיליארד פרמטרים פעילים בלבד בכל רגע נתון, דבר שיאפשר למודל החסכוני לרוץ על כרטיסי מסך ביתיים במחיר נמוך מ-350 דולר.
סדרת מודלי ה-Granite 4.0 הבאה של IBM צפויה להגיע במספר גדלים שונים בהתאם למטרת השימוש שלהם, בדומה לדור הקודם, כאשר החברה בחרה להציג את גרסת התצוגה המוקדמת של ה-Tiny, הנמצאת עדיין באימון ואומנה רק על 2.5 מתוך 15 טריליון הטוקנים המתוכננים, במטרה להציג את קפיצת הביצועים הדור הבא.
המודל מציע ביצועים הדומים לאלו של מודל ה-Granite 3.3 2B בצריכה של 72% פחות זיכרון, כאשר הגרסה הסופית צפויה להציג ביצועים דומים למודל ה-Granite 3.3 8B הגדול יותר.
ארכיטקטורה חדשה
משפחת מודלי ה-Granite 4.0 הבאה של IBM צפויה להגיע עם שינוי מהותי בארכיטקטורה שלה – בניגוד לדורות קודמים שהתבססו על ארכיטקטורת Transformer המסורתית, הדור החדש משלב טכנולוגיית Mamba-2 עם Transformer. שילוב זה מביא את היתרונות של שתי השיטות – המהירות והיעילות של Mamba יחד עם הדיוק של Transformer.
מודל Granite 4.0 Tiny מבוסס על ארכיטקטורת MoE (ר"ת Mixture of Experts), המשלבת 9 בלוקי Mamba על כל בלוק Transformer אחד, כאשר בסך הכל יש למודל 7 מיליארד פרמטרים, אך בזמן הרצת המודל רק מיליארד פרמטרים פעילים – מה שמוביל ליעילות גבוהה.
מודל זעיר שלא צריך חומרה מיוחדת
אחד מהיתרונות המשמעותיים ביותר של מודל Granite 4.0 Tiny החדש הוא היכולת להריץ אותו על חומרה ביתית סטנדרטית, כאשר לפי IBM, המודל יוכל לרוץ על כרטיס ה-GeForce RTX 3060 12GB של אנבידיה הזמין במחיר של החל מ-329 דולר (נכון לרגע הפרסום).
כרטיס זה יוכל להריץ מספר פעלות במקביל של המודל, כולל עיבוד טקסטים ארוכים (128 אלף טוקנים), זאת בניגוד למודלי AI מודרניים רבים הדורשים לרוב חומרה חזקה ויקרה יותר או שימוש בשירותי ענן, כאשר Granite 4.0 Tiny מסמן מגמה חשובה של הנגשת טכנולוגיית AI מתקדמת למפתחים ומשתמשים רבים יותר.
תמיכה בטקסטים ארוכים ללא מגבלות
יתרון נוסף של הארכיטקטורה החדשה הוא היכולת התיאורטית לעבד רצפים בכל אורך שהוא. בעוד שמודלים מסורתיים מוגבלים ביכולתם לעבד טקסטים ארוכים בשל דרישות זיכרון שגדלות באופן ריבועי, המודל החדש מציג גידול ליניארי בדרישות – כלומר, הכפלת אורך הטקסט מכפילה את דרישות החישוב.
IBM כבר אימתה יכולות עיבוד של 128 אלף טוקנים לפחות, וצפויה לתמוך באורכים משמעותיים יותר בשחרור הסופי של המודל.
הגרסה המוקדמת של Granite 4.0 Tiny זמינה כעת ב-Hugging Face תחת רישיון Apache 2.0.
חלק מהפוסטים באתר כוללים קישורי תכניות שותפים, עבורם נקבל עמלה עם ביצוע רכישה בפועל של מוצרים. עמלה זו לא מייקרת את העלות הסופית של המוצרים עבורכם.
הסקירות והתכנים המופיעים באתר מהווים המלצה בלבד, וכך יש להתייחס אליהם. כל המחירים המופיעים באתר נכונים ליום הפרסום בלבד והאחריות לקניית מוצר או שירות כזה או אחר מוטלת עליך בלבד – השימוש באתר בהתאם לתנאי השימוש והפרטיות.