פריצת דרך מולטימודלית: Step 3.7 Flash נכנס לזירת ה-AI הארגונית
חברת StepFun משיקה את Step 3.7 Flash, מודל שפה-חזון (Vision-Language Model) חדשני בארכיטקטורת Mixture-of-Experts (MoE), המתוכנן במיוחד עבור מקרי שימוש סוכניים (Agentic Use Cases) בתחומי הקידוד ותהליכי חיפוש מורכבים. מודל זה מהווה קפיצת מדרגה משמעותית ביכולות הבינה המלאכותית, ומסמן עידן חדש שבו סוכני AI מסוגלים להבין ולפעול באופן עמוק ויעיל יותר בסביבות ארגוניות דינמיות. שילוב היכולות הרב-מודאליות עם הארכיטקטורה החסכונית הופך את Step 3.7 Flash לכלי אסטרטגי עבור ארגונים המבקשים למנף את ה-AI להשגת יתרון תחרותי.
ארכיטקטורת MoE חכמה: כוח עצום בעלות תפעולית נמוכה
בליבו של Step 3.7 Flash עומדת ארכיטקטורת MoE ייחודית, המשלבת 198 מיליארד פרמטרים בסך הכל (196 מיליארד עבור עמוד השדרה השפתי ו-1.8 מיליארד עבור מקודד החזון ViT). המודל מנצל את העוצמה של מספר רב של מומחים, אך מפעיל רק כ-11 מיליארד פרמטרים פעילים לכל אסימון במהלך היסק (inference), ובכך משיג יעילות חישובית יוצאת דופן. המשמעות עבור ארגונים היא גישה ליכולות של מודל ענק, אך עם עלויות תפעול ותפוקה (throughput) הקרובות למודל קטן בהרבה. בנוסף, המודל מאפשר בחירה בין שלושה עומקי הסקה (נמוך, בינוני, גבוה), המאפשרים למפתחים לאזן בין זמן השהיה (latency) לבין עומק ההסקה הנדרש למשימה ספציפית, ובכך לייעל את השימוש במשאבים בהתאם לצורך העסקי.
מהפכה בפיתוח תוכנה: סוכני קידוד חכמים ויעילים
Step 3.7 Flash מציג שיפורים דרמטיים בביצועי סוכני קידוד, תחום קריטי עבור כל ארגון טכנולוגי. בבנצ'מרק SWE-Bench Pro, המודל השיג ציון של 56.26%, עלייה משמעותית מ-51.3% של קודמו Step 3.5 Flash. ב-Terminal-Bench 2.1, הוא הגיע ל-59.55%, ו-72.42% ב-SWE-MTLG המיועד למשימות קידוד מרובות עם יצירה ארוכה. מעבר לציונים הגבוהים, המודל מפגין עקביות רבה יותר בביצועים על פני סביבות פיתוח שונות (scaffolds), מה שמבטיח התנהגות צפויה ואמינה יותר בסביבות ייצור מגוונות. יכולות אלו מאפשרות לארגונים להאיץ תהליכי פיתוח, לפתור באגים באופן אוטומטי, ולשפר את הפרודוקטיביות של צוותי הפיתוח באופן חסר תקדים.
מצב Advisor Mode: חיסכון אדיר בעלויות תפעוליות
אחד החידושים המרכזיים ב-Step 3.7 Flash הוא תמיכתו ב-Advisor Mode, יישום אסטרטגיית ה'יועץ' המאפשרת למודל להריץ לולאות סוכניות מקצה לקצה – קריאת כלים, ניתוח תוצאות וחזרה איטרטיבית – תוך הסלמה למודל יועץ גדול יותר רק בנקודות מפנה קריטיות, כמו תכנון או התאוששות מכשלונות חוזרים. StepFun מדווחת כי במצב זה, Step 3.7 Flash מגיע ל-97% מביצועי הקידוד של Claude Opus 4.6 בבנצ'מרק SWE-Bench Verified, אך בעלות משימתית הנמוכה פי תשעה בקירוב (0.19$ לעומת 1.76$ למשימה). נתון זה מהווה בשורה אדירה עבור ארגונים, ומאפשר להם לממש את מלוא הפוטנציאל של סוכני AI מורכבים תוך שמירה על יעילות תקציבית משמעותית.










