שיתוף | מירוץ ה-AI ממשיך להתקדם בקצב מסחרר - והפעם Grok 4 על הגריל

NH.LOCAL

האמת היא שזה הופך לאירוע כמעט משעמם וצפוי מראש.
פעם בחודשיים-שלושה, גוגל, OpenAI, Anthropic או xAI מוציאות מודל חדש ורענן שעוקף את כל שאר המודלים והופך ל"טוב ביותר בעולם".

יש אפילו תרשים נחמד (מם בלע"ז) שמתפרסם מפעם לפעם ומייצג היטב את המצב:

ועדיין, כעוקב מושבע אחר התחום, אי אפשר להתעלם מהשחרור החדש של גרוק 4, שמציג קפיצות ביצועים מרשימות למדי במגוון מדדים – וזאת רק חמישה חודשים אחרי שחרור גרוק 3.
(ואל תשכחו כמה זמן עבר בין GPT-3 ל-GPT-4... וכמה זמן עוד נצטרך לחכות ל-GPT-5.)

היום בבוקר, שחררה xAI את הגרסה החדשה כשתי מודלים, Grok 4 ו-Grok 4 Heavy. למי שלא מכיר, גרוק 4 הוא המודל של xAI, מבית X – החברה הפרטית של אילון מאסק.

המודל החדש זמין כרגע רק למנויים בתשלום, אך סביר להניח שמהר מאוד הוא יגיע לכולם.

וכעת, למדדים:

התוצאה המרשימה ביותר היא במבחן האחרון של האנושות (HLE), שבו גרוק מוביל בפער עצום עם 44.4%, לעומת Gemini 2.5 Pro שבמקום השני עם 26.9% "בלבד".

מדובר באוסף שאלות קשות ומורכבות להחריד מכל תחום אפשרי – מדע, משפט, רפואה, פילוסופיה, כלכלה – כשמו כן הוא: המבחן הקשה ביותר שיצרה האנושות עבור מודלי AI.

פריצה נוספת ומרשימה נרשמה במדד ARC-2 – מבחן חזותי מורכב.
קלוד 4 אופוס (Claude 4 Opus) הוביל עד כה עם 8.6%,
גרוק 4 מכפיל את התוצאה הזו ומגיע ל-15.9%!

ולנתונים המשעממים יותר, שהפכו כבר לשגרה בכל שחרור מודל:
שיפור כללי במדדים הקלאסיים – שכבר קרובים לגרד את ה-100%.

גרוק 4 מציג ביצועים חזקים גם כאן:

מדד AIME25 – 100%
מדד GPQA – 88.9%
ועוד...

הנתונים האלו מתייחסים לגרסה החזקה ביותר של המודל – Groq 4 Heavy.

עד כאן העדכון לפעם – העדכון הבא כנראה בקרוב, עם מודל הקוד הפתוח הצפוי של OpenAI, GPT-5 וכל מה שחם בתעשייה...

העשרה נוספת:

הכנסו לבלוג שלי למאמרים ותגליות אחרות:

https://blog.ze-kal.top

אלי ויל

HLE לא ממש ראיה כנראה שהם אימנו אותו ישירות לדברים כאלה, זה גם לא נוגע לסתם אנשים.
ברוב הדברים גרוק 4 לא עשה קפיצה משמעותית(כמו גמיני פרו 2.5 בזמנו) מהדגמים המובילים האחרים.
והחיסרון של גרוק שהוא עדיין לא עושה וידאו וכמובן שאין לו אפשרות חינמית לפחות כרגע
אגב זה פעם ראשונה שXAI מצליח להיכנס ל3 הגדולות, מאמין שבהמשך מטא תצטרף

צדיק תמים

@NH.LOCAL יש מקור רשמי? פה זה לא מופיע משום מה https://x.ai/news

אלי ויל

@צדיק-תמים https://grok.com/#subscribe

צדיק תמים

@אלי-ויל אין שם מידע חוץ ממחיר

NH.LOCAL

@צדיק-תמים כתב בשיתוף | מירוץ ה-AI ממשיך להתקדם בקצב מסחרר - והפעם Grok 4 על הגריל:

@NH.LOCAL יש מקור רשמי? פה זה לא מופיע משום מה https://x.ai/news

כל התעשייה מדברת על זה. לא חיפשתי את בלוג השחרור הרשמי, אבל זה פורסם בלי שום ספק

@אלי-ויל כתב בשיתוף | מירוץ ה-AI ממשיך להתקדם בקצב מסחרר - והפעם Grok 4 על הגריל:

HLE לא ממש ראיה כנראה שהם אימנו אותו ישירות לדברים כאלה, זה גם לא נוגע לסתם אנשים.

אומרים את הטיעון הזה על כל מדד אפשרי כבר שנים. אבל זה טיעון סרק.

לפי הטיעון שלך לא ברור למה גרוק 4 קיבל "רק" 44 אחוז, ולמה כל שאר המודלים לא הצליחו לעבור את סביבות ה-20 אחוז

מדובר במדד מאוד משמעותי, כי הוא מודד יכולות אינטליגנציה מאוד רחבות במגוון תחומים גדול. יכולת טובה במבחן הזה משיקה בבירור גם לתחומים אחרים

אלי ויל

@NH.LOCAL כתב בשיתוף | מירוץ ה-AI ממשיך להתקדם בקצב מסחרר - והפעם Grok 4 על הגריל:

אומרים את הטיעון הזה על כל מדד אפשרי כבר שנים. אבל זה טיעון סרק.
לפי הטיעון שלך לא ברור למה גרוק 4 קיבל "רק" 44 אחוז, ולמה כל שאר המודלים לא הצליחו לעבור את סביבות ה-20 אחוז

(בלאמה נטען שהיה זיהום)
עכ"פ לא התכוונתי שהם אימנו אותו על שאלות אלה ממש, אלא שמראש מאסק עם החלומות שלו על בינה מלאכותית שפותרת דברים קשים ושכותבת את ההיסטוריה מחדש, הם ניסו איתו לפתור כל מיני שאלות קשות ולכן נשאר לו מזה יותר ידע לעניינים אלו.
זה מסביר מדוע בשאר המבחנים הוא לא מתעלה משמעותית על המודלים המתקדמים, כמו במבחן זה.

NH.LOCAL

@אלי-ויל כתב בשיתוף | מירוץ ה-AI ממשיך להתקדם בקצב מסחרר - והפעם Grok 4 על הגריל:

עכ"פ לא התכוונתי שהם אימנו אותו על שאלות אלה ממש, אלא שמראש מאסק עם החלומות שלו על בינה מלאכותית שפותרת דברים קשים ושכותבת את ההיסטוריה מחדש, הם ניסו איתו לפתור כל מיני שאלות קשות ולכן נשאר לו מזה יותר ידע לעניינים אלו.
זה מסביר מדוע בשאר המבחנים הוא לא מתעלה משמעותית על המודלים המתקדמים, כמו במבחן זה.

הוא מתעלה על מודלים אחרים גם ב-ARC 2, ובעוד כמה וכמה מדדים.
במדדים כמו GPQA ודומיו די קשה להתעלות משמעותית על האחרים, כי כולם מגרדים גם ככה את ה-80-90.

אלא שמראש מאסק עם החלומות שלו על בינה מלאכותית שפותרת דברים קשים ושכותבת את ההיסטוריה מחדש, הם ניסו איתו לפתור כל מיני שאלות קשות ולכן נשאר לו מזה יותר ידע לעניינים אלו.

לא זכיתי להבין את הקשר בין הטיעון לבין המסקנה

נראה לי שאתה יכול להסכים איתי שמדובר בלא יותר מספקולציות והשערות לא מבוססות...

פראירי

@אלי-ויל כתב בשיתוף | מירוץ ה-AI ממשיך להתקדם בקצב מסחרר - והפעם Grok 4 על הגריל:

והחיסרון של גרוק שהוא עדיין לא עושה וידאו וכמובן שאין לו אפשרות חינמית לפחות כרגע

שטויות
בחינמי יש לו כרגע את התוכנית החינמית הכי גדולה...

aiib

@פראירי כתב בשיתוף | מירוץ ה-AI ממשיך להתקדם בקצב מסחרר - והפעם Grok 4 על הגריל:

@אלי-ויל כתב בשיתוף | מירוץ ה-AI ממשיך להתקדם בקצב מסחרר - והפעם Grok 4 על הגריל:

והחיסרון של גרוק שהוא עדיין לא עושה וידאו וכמובן שאין לו אפשרות חינמית לפחות כרגע

שטויות
בחינמי יש לו כרגע את התוכנית החינמית הכי גדולה...

למעט AI סטודיו לכאורה..

אריאלל

@פראירי אני משער שכוונתו לגרוק 4