חברת DeepSeek הסינית מזעזעת את שוק ה-AI העולמי

DeepSeek DeepSeek

חברת הסטארטאפ הסינית DeepSeek מכה גלים בשוק ה-AI העולמי עם צמד מודלי הבינה המלאכותית DeepSeek-V3 ו-DeepSeek-R1, המגיעים בקוד פתוח ומציגים ביצועים המקבילים לאלו של מודלי AI גדולים של ענקיות התחום, בהן מטא (Meta) ו-OpenAI, כל זאת בזמן שאימון המודלים בוצע לפי החברה בעלות זעירה של פחות מ-6 מיליון דולר.

ענקיות תחום ה-AI, בהן מטא, אנבידיה ועוד נמצאות בלחץ חסר תקדים שהוביל גם לירידה בשווי החברות (מניית אנבידיה יורדת בכ-12% עם פתיחת המסחר היום בארה"ב) לאחר שמודלי הבינה המלאכותית של DeepSeek הצליחו לערער אמונה בסיסית בתחום ה-AI עד כה, לפיה על מנת לייצר מודלי AI מתקדמים צריך "לשפוך" ערימות של כסף, דוגמת פרויקט Stargate האמריקאי החדש שיוקם על ידי OpenAI, סופטבנק, אורקל, אנבידיה וחברות נוספות בארה"ב בעלות של כ~500 מיליארד דולר ב- השנים הקרובות.

סביר למדי שלא שמעתם על חברת DeepSeek הסינית יותר מידי עד כה. מדובר בחברה חדשה יחסית שנוסדה ב-2023 ופועלת תחת ההגבלות של ארה"ב בתחום ייצוא השבבים המתקדמים לסין.

ההפתעה הגדולה ביותר שגרמה לזעזוע בשווקים עם ירידה ניכרת במניית אנבידיה וחברות הייטק נוספות היא הטענה כי אימון מודל DeepSeek-V3 עלה לחברה רק כ~5.6 מיליון דולר ובוצע על 2048 מאיצי NVIDIA H800 ישנים של אנבידיה, זאת בהשוואה לעשרות אלפי מאיצי ה-H100 ו-B200 החדשים יותר של אנבידיה בהם משתמשות חברות אחרות.

לפי DeepSeek, מודל ה-DeepSeek-V3 המגיע כמודל שפה גדול (LLM) המבוסס על ארכיטקטורת MoE (ר"ת Mixture-of-Experts) עם 671 מיליארד פרמטרים, מהם מופעלים רק 37 מיליארד פרמטרים לכל טוקן, מצליח להציג ביצועים דומים או טובים יותר בהשוואה למודלי ה-GPT-4o של OpenAI או Llama 3.1 של מטא במבחני ביצועים שונים.

הדבר חוזר על עצמו גם במודל ה-DeepSeek R1 הזעיר שנועד להתחרות ב-GPT-4o mini ומודלים דומים, כאשר המודל קיים גם בגרסת R1-Zero נוספת.

קוד מודלי ה-DeepSeek-V3 ו-DeepSeek R1 זמין באתר GitHub ו-Hugging Face, כאשר צ'אטבוט ה-DeepSeek שתומך גם בעברית זמין באתר הרשמי של החברה ואפליקציית DeepSeek לסלולר המבוססת על מודל ה-DeepSeek-V3 זמינה להורדה מחנות ה-App Store ו-Google Play.

מאנבידיה נמסר:

DeepSeek היא התקדמות מצוינת בבינה מלאכותית והיא דוגמה מושלמת ל-Test-Time Scaling*. העבודה של DeepSeek ממחישה כיצד ניתן לייצר מודלים חדשים באמצעות טכניקה זו, תוך מינוף של מודלים קיימים וטכנולוגיות מחשוב שעומדות בתקנות הייצוא. ביצוע Inference דורש מספר משמעותי של מעבדים גרפיים וטכנולוגיות תקשורת מואצת. כעת, ישנם שלושה חוקי סקיילינג: Pre-Training, Post-Training וכן Test-Time Scaling".

*Test Time Scaling היא שיטה שבה משתמשים כדי לשפר את ביצועי המודלים בשלב ההיסק (Inference).


חלק מהפוסטים באתר כוללים קישורי תכניות שותפים, עבורם נקבל עמלה עם ביצוע רכישה בפועל של מוצרים. עמלה זו לא מייקרת את העלות הסופית של המוצרים עבורכם.

הסקירות והתכנים המופיעים באתר מהווים המלצה בלבד, וכך יש להתייחס אליהם. כל המחירים המופיעים באתר נכונים ליום הפרסום בלבד והאחריות לקניית מוצר או שירות כזה או אחר מוטלת עליך בלבד – השימוש באתר בהתאם לתנאי השימוש והפרטיות.

השוואת מפרטים