חברת OpenAI חשפה אמש (ה', 27.2) את GPT-4.5, מודל השפה הגדול (LLM) ובעל הידע הנרחב ביותר שלה עד היום, המגיע כעת בגרסת "מחקר מוקדמת" (research preview).
המודל החדש מציג שיפורים לעומת הדור הקודם, אך עדיין איננו מספק את הקפיצה הגדולה בתחום ה-AI לה רבים מצפים עם הצגת מודל ה-GPT-5 הבא של החברה.
כפי שהבטיח סם אלטמן, מנכ"ל OpenAI, בתחילת החודש, החברה מציגה את מודל ה-GPT-4.5 עוד בטרם מסתיים חודש פברואר, כמודל ההמשך ל-GPT-4o, אך לא למודלי הנימוק o1 ו-o3 של החברה, כאשר רק מודל ה-GPT-5 צפוי לשלב בין שתי משפחות המודלים של החברה.
באימון המודל החדש החברה שמה דגש על שתי יכולות מרכזיות:
- "שיפור הנימוק" (Scaling reasoning) לשיפור איכות החשיבה וההיגיון של המודל, בדומה למודלי ה-o3-mini ו-o1 של החברה.
- "למידה לא מפוקחת" (Unsupervised learning) לשיפור הדיוק וה"אינטואיציה" של המודל.
מלבד הביצועים המשופרים שלו, המודל החדש מסוגל לתת לדברי החברה מענה טבעי יותר עם יכולת להבין ולעקוב אחרי הכוונות של המשתמש, דבר המאפשר לו להציג שיפור בכתיבה, תכנות ופתרון בעיות מורכבות.
Today we’re releasing a research preview of GPT-4.5—our largest and best model for chat yet.
Rolling out now to all ChatGPT Pro users, followed by Plus and Team users next week, then Enterprise and Edu users the following week. pic.twitter.com/br5win5OEB
— OpenAI (@OpenAI) February 27, 2025
מודל ה-GPT-4.5 החדש תומך בהעלאת קבצים ותמונות, אך מאחר שמדובר בגרסת "מחקר מוקדמת", הוא מגיע בשלב הנוכי ללא יכולות מולטי-מודאליות כמו פיצ'ר הדיבור Voice Mode, קלט וידאו או שיתוף מסך ב-ChatGPT, פיצ'רים שיתווספו אליו בהמשך.
מבחני ביצועים
מודל ה-GPT-4.5 החדש מציג שיפור ביצועים ניכר בהשוואה למודלי ה-GPT-4o, o1 ו-o3-mini של החברה במבחן ה-SimpleQA Accuracy עם ציון של 62.5% בהשוואה ל-38.2%, 47% ואף 15% בלבד במקרה של ה-o3-mini.
בנוסף, המודל סובל פחות מ"הזיות", תופעת לוואי אופיינית של מודלי AI עם 37.1% הזיות בלבד לעומת 80.3% במקרה של ה-o3-mini או 61.8% ב-GPT-4o.
ניתן לראות את השיפורים וההבדלים בין מודלי ה-AI השונים של OpenAI גם במבחני ביצועים נוספים אותם הציגה החברה:
OpenAI o3‑mini (high) | GPT‑4o | GPT‑4.5 | |
---|---|---|---|
GPQA (science) | 79.7% | 53.6% | 71.4% |
AIME ‘24 (math) | 87.3% | 9.3% | 36.7% |
MMMLU (multilingual) | 81.1% | 81.5% | 85.1% |
MMMU (multimodal) | - | 69.1% | 74.4% |
SWE-Lancer Diamond (coding)* | 10.8% $89,625 | 23.3% $138,750 | 32.6% $186,125 |
SWE-Bench Verified (coding)* | 61.0% | 30.7% | 38.0% |
מודל ה-GPT-4.5 החדש של OpenAI זמין בגרסת המחקר שלו למנויי ה-ChatGPT Pro בתשלום, כאשר בשבוע הבא הוא צפוי להפוך לזמין גם בעבור מנויי ה-Plus ו-Team של החברה ולאחר מכן גם למנויי ה-Enterprise ו-Edu.
חלק מהפוסטים באתר כוללים קישורי תכניות שותפים, עבורם נקבל עמלה עם ביצוע רכישה בפועל של מוצרים. עמלה זו לא מייקרת את העלות הסופית של המוצרים עבורכם.
הסקירות והתכנים המופיעים באתר מהווים המלצה בלבד, וכך יש להתייחס אליהם. כל המחירים המופיעים באתר נכונים ליום הפרסום בלבד והאחריות לקניית מוצר או שירות כזה או אחר מוטלת עליך בלבד – השימוש באתר בהתאם לתנאי השימוש והפרטיות.