שיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת
-
לפני מספר ימים פרסמתי פוסט המבשר על השחרור הקרב ובא של GPT 5. ביחס לדקות הספורות שהשקעתי בכתיבה שלו - זה כנראה הפוסט שקיבל הכי הרבה לייקים והתעניינות... מה שאומר דבר פשוט אחד: GPT 5 מעניין את הציבור כאן, וכמו שכתבתי - לפניכם הסקירה המלאה:
מה יש ב-GPT-5?
לפני שנעבור לנתונים, הנה סקירה קצרה:
GPT 5 נועד לסדר את הבאלגן בדגמים השונים של OpenAI. לא עוד o3-4o-o4-mini וכו', אלא סדרה אחת תחת השם GPT 5.
המודל החדש עדיין יכלול תתי מודלים, כמו GPT 5 mini, GPT 5 pro ו-GPT 5 thinking. אך הבחירה ביניהם תהיה הרבה יותר ברורה.אחד השיפורים המשמעותיים במודל החדש, היא שילוב של נתב אוטומטי, שבוחר את הדגם הרצוי בהתאם לשאילתא. דגם "טיפש" יותר לשאילתות פשוטות, וחכם יותר לשאילתות מורכבות.
זה מהווה שינוי נהדר עבור רוב מוחלט מהצרכנים של צ'אט GTP, שלא מכירים ויודעים יותר מידי, וכל תוספת או בחירה של דגמים רק מסבכת אותם. עבור המשתמשים המתקדמים מדובר על חיסרון מסויים, אך סם אלטמן הבטיח להוסיף בחירה ברורה ושקופה יותר בין הדגמים עבור המשתמשים החזקים.
על אלו נתונים צריך להסתכל?
הפעם, פחות אתמקד במדדים המלאים, כי לדעתי הם פחות חשובים, אלא אתמקד במה שבאמת חשוב באירוע.
היו הרבה דיבורים על זה שההתקדמות בין GPT 4 ל-GPT 5, היא יחסית מינורית, והרבה פחות משמעותית מההתקדמות בין GPT 3 ל-4. ואם לומר את האמת? הנתונים שפורסמו באמת קצת מאכזבים.
אמנם ישנה התקדמות מכובדת במספר מדדים משמעותיים, ואפילו קפיצות לא מעטות, למשל בבחינה האחרונה של האנושות, אך במובנים רבים הוא לא טוב בהרבה מהמתחרים כמו גרוק 4 למשל, שקיבל ציון דומה באותו מבחן, ואפילו קיבל ציון טוב בהרבה במדד ARC-2.
אז איפה הבשורה?
כאן מגיעות כמה נקודות חשובות שחשוב מאוד לשים לב אליהן.
הדגמים הכי חכמים מגיעים לכולם
שחרור GPT 5, הוא לא רק חשוב בגלל היותו הכי טוב בהכל, אלא בעובדה שהוא נותן (כמעט) את הטוב ביותר - ישר לצרכן החינמי הפשוט.
אם בעבר גישה למודל חכם כל כך הייתה מצריכה מנוי בתשלום, כעת הוא הופך נגיש לכולם בחינם.
למשל, ישנה שאלה פשוטה שאני בודק עם דגמים חדשים שיוצאים.
מה המשפט הבא בעברית, בהנחה שלחצתי בטעות על מקש הקפס-לוק במקלדת? AKUO KFK NH ACT KFTI VHUO/ TBH RUMV KVZNHI KCNV T, VTHA UVTDSV' FNR JHHO HJZETKUCH.W
המודל הראשון שהצליח לפתור אותה היה o1-preview. לאחריו רק Gemini 2.5 pro הצליח במשימה.
gpt 4o ושאר המודלים טרום עידן החשיבה, לא התקרבו לפתרון, וגם מודלי החשיבה הקטנים שכבר היו זמינים בחינם, כמו o3 mini ו-o4 mini, נכשלו במשימה באופן טוטאלי.GPT 5 משולב חשיבה - היה המודל החינמי הראשון בצ'אט-GPT שהצליח במשימה בצורה מושלמת!
תשוו את GPT 5 ל-GPT 4 המקורי, לא ל-O3!
הנקודה החשובה ביותר היא קריטית: אל תשוו את GPT 5 ל-O3, תשוו אותו ל-GPT 4 המקורי, זה שיצא במרץ 2023.
אחד המשפטים הרווחים עם השחרור הוא: "עברו שנתיים וזה כל מה שהם הצליחו להוציא??"
וכאן מגיע הקאצ' - לא. לא עברו שנתיים, עברו 3.5 חודשים. O3 יצא באפריל 2025, O3-pro יצא לפני 58 ימים. אתם משווים את GPT-5 ל-o3, לא ל-GPT-4. אמנם GPT-4 היה מדהים לתקופתו, אבל נראה שאנשים לא זוכרים עד כמה הוא היה חלש בפועל. לכו לקרוא את המאמר המקורי על GPT-4 – הם התגאו בזה שהוא קיבל 75% בבחינות שאף אחד כבר לא זוכר, כי הן נשחקו לחלוטין לפני שנה. GPT-4 קיבל 67% ב-humaneval. מתי בפעם האחרונה מישהו בכלל טרח לדווח על ציון humaneval? GPT-4 היה בתחתית 5% ב-codeforces.
אז סליחה שאתם מאוכזבים כי קוראים לזה GPT-5 וציפיתם להיות יותר המומים. אבל מאז GPT-4 קרו הרבה דברים, ואין ספק שהפער בין GPT-5 ל-GPT-4 דומה לפער בין GPT-4 ל-GPT-3. רק שעכשיו ההתקדמות היא כל כך מהירה, שעולם לא נחווה שוב את ההלם ש-GPT-4 נתן.
GPT 4 נגד GPT 5 - הנתונים
כאחד שאוהב להציג את הנתונים במספרים ברורים, חיפשתי מדדים שניתן להשוות ל־GPT-5. זה לא היה פשוט, אבל הנה כמה נבחרים:
GPQA – מבחן ידע מדעי ברמת מחקר אקדמית - GPT-4 קיבל 35.7% בלבד, בעוד GPT-5 קיבל 85.7%.
SWE-Bench – מבחן פתרון באגים ממשיים מקוד פתוח - GPT-4 פתר 2.8% מהמשימות בלבד, בעוד GPT-5 פתר 74.9%.
Codeforces – דירוג בתחרות קידוד אלגוריתמי מורכב- GPT-4 קיבל ציון 392, שממקם אותו טוב יותר מ־5% בלבד מהמתכנתים. ל-GPT-5 אין עדיין נתונים רשמיים, אך לפי ביצועי מודל O3 ניתן להעריך שהוא טוב יותר מ־99.99% מהמתכנתים.
את שאר המדדים לא היה ניתן להשוות – או כי הם ישנים וקלים מדי, או כי הם כה קשים כך ש-GPT-4 היה מקבל בהם קרוב ל־0%. כך או כך, העובדה הזו רק מחדדת את הפערים האדירים בין המודלים...
תסתכלו על מדד ההזיות
הנקודה השנייה אליה חשוב מאוד לשים לב היא מדד ההזיות.
הזיות הם למעשה מקרים בהם מודלים משקרים בביטחון, ופשוט מספקים עובדות לא נכונות על דברים שהם לא יודעים. מדובר על אחת הבעיות המשמעותיות ביותר בתעשיית הבינה המלאכותית שמלווה את המודלים כבר שנים.OpenAI הצליחה להפחית את ההזיות בשיעור מדהים של בין 45% ל-80%, והוכיחה שבעיית ההזיות מתקדמת לכיוון של פתרון.
לדעתי, זה אירוע דרמטי בסדר גודל, כי זה מאפשר להשתמש ב-AI גם בתעשיות הדורשות אמינות גבוהה, כמו רפואה למשל, או תחומים רגישים אחרים הכוללים סיכונים.
המדדים בספוילר:
העשרה נוספת ומקורות
-
מאמר הצגת gpt 5 של OpenAI:
https://openai.com/index/introducing-gpt-5 -
סקירה מעניינת עם שימוש בעולם האמיתי
https://www.latent.space/p/gpt-5-review
אם נסכם את הדברים - באופן אישי, כנראה שאמשיך להשתמש לרוב המשימות הקשות בג'מיני 2.5 פרו. אבל מה שבאמת חשוב זו המגמה הברורה של התקדמות עקבית של המודלים השונים.
האם OpenAI, גוגל או xAI יהיו המובילות - זה לא ממש חשוב - כי בסוף כך או כך, הצרכן בקצה ירוויח ובגדול
הכנסו לבלוג שלי למאמרים ותגליות אחרות:
@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
למשל, ישנה שאלה פשוטה שאני בודק עם דגמים חדשים שיוצאים.
מה המשפט הבא בעברית, בהנחה שלחצתי בטעות על מקש הקפס-לוק במקלדת?
AKUO KFK NH ACT KFTI VHUO/ TBH RUMV KVZNHI KCNV T, VTHA UVTDSV' FNR JHHO HJZETKUCH.W
המודל הראשון שהצליח לפתור אותה היה o1-preview. לאחריו רק Gemini 2.5 pro הצליח במשימה.
gpt 4o ושאר המודלים טרום עידן החשיבה, לא התקרבו לפתרון, וגם מודלי החשיבה הקטנים שכבר היו זמינים בחינם, כמו o3 mini ו-o4 mini, נכשלו במשימה באופן טוטאלי.GPT 5 משולב חשיבה - היה המודל החינמי הראשון בצ'אט-GPT שהצליח במשימה בצורה מושלמת!
התשובה שאני קיבלתי מGPT 5
אם נניח שהטקסט הזה הוקלד כשמקש Caps Lock היה דולק בטעות, המשמעות היא שבמקום האותיות ה"נכונות" (עברית) קיבלת את האותיות באנגלית שממוקמות על אותן מקשים של המקלדת שלך.
כלומר, אם נסתכל על כל אות באנגלית ונמיר אותה לאות העברית שנמצאת באותו מקום פיזי במקלדת – נקבל את המשפט המקורי.
המרה כזו נותנת:
"אם אתה לא יודע לקרוא את זה, אתה כנראה לא מבין במקלדות."
רוצה שאבצע לך את ההמרה שלב־שלב כדי שתראה איך זה יצא?
ניסיתי מספר פעמים ולא הצליח היו תוצאות שהיו קרובות ברעיון... כגון שהוא הצליח לתת לי טבלא של כל הואתיות בעברית למול האות בקפסלוק אבל הוא לא קלט שהטקסט צריך גם להפוך כיון...
בג'מיני ב2.5 פלאש הוא כתב
אם היית כותב את הטקסט שציינת כשהמקשים מותאמים לעברית ולחצת בטעות על Caps Lock, זה מה שהיה נכתב:
"ברוך דיין האמת וחי רוח על נשמות שומרי גבורי ישראל, ונפשנו תיכון לעולם ועד."
ב2.5 פרו הוא הצליח לחלוטין
-
-
@NH.LOCAL מוזר, הרגע נתתי לו סקריפט טמפרמונקי לשיפור, והוא במקום לתת לי את הסקריפט המשופר, נתן לי דרשה שלמה על הקובץ מניפסט של התוסף (כביכול...) ועל זה שהוא באמת עומד בתקני מניפסט 3...
כן, קובץ manifest.json של התוסף שלך נראה תקין ועומד בדרישות הבסיסיות של manifest v3.
אין בעיות תחביריות, וכל המאפיינים המרכזיים מוגדרים כמו שצריך:manifest_version: 3
– חובה בגרסאות החדשות של Chrome.name
ו־version
מוגדרים כמו שצריך.- ההרשאות (
permissions
) וההרשאות למקורות (host_permissions
) מופרדות לפי התקן של MV3. - ה־
content_scripts
מוגדרים נכון עםmatches
וקובץcontent.js
. - ה־
background
מוגדר עם"service_worker"
– שזה הפורמט הנכון במניפסט v3.
עם זאת, כדאי לשים לב לשתי נקודות לשיפור:
- תיאור (description) – כרגע כתוב
"Extension description"
. עדיף לשים תיאור אמיתי כי זה מה שמשתמשים יראו בחנות. - גרסת קובץ התוכן – כדאי לוודא שב־
content.js
עצמו יש קוד שעובד ב־MV3, כי בגרסה הזו הוא רץ ב־isolated world (סביבה מבודדת) וצריך לעיתים להתאים את הגישה ל־DOM או ל־background.
אם תרצה, אני יכול לתת לך גרסה משופרת ומסודרת של ה־manifest.json עם כמה אופטימיזציות כדי שיהיה מוכן לפרסום.
רוצה שאכין לך את זה?
ועל זה נאמר:
@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
הומצא ברגע של שעמום. למצולם אין כל קשר לכתבה...
רק לאחר שהעברתי אותו למצב חשיבה הוא הצליח לתת לי מענה נכון לסקריפט ה'מסובך' הזה...
כמו"כ, האם המגבלות על המודל אמורות להיפתח יותר באיזשהו שלב?
@לאצי כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
כמו"כ, האם המגבלות על המודל אמורות להיפתח יותר באיזשהו שלב?
סביר להניח. כרגע דווח שהם מתמודדים עם עומס עצום.
@2580 כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
בג'מיני ב2.5 פלאש הוא כתב
אם היית כותב את הטקסט שציינת כשהמקשים מותאמים לעברית ולחצת בטעות על Caps Lock, זה מה שהיה נכתב:
"ברוך דיין האמת וחי רוח על נשמות שומרי גבורי ישראל, ונפשנו תיכון לעולם ועד."
ב2.5 פרו הוא הצליח לחלוטין
בדיוק כפי שכתבתי, מודלים רגילים וגם מודלי חשיבה קטנים - נכשלים במשימה מהסוג הזה
@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
המודל הראשון שהצליח לפתור אותה היה o1-preview. לאחריו רק Gemini 2.5 pro הצליח במשימה.
gpt 4o ושאר המודלים טרום עידן החשיבה, לא התקרבו לפתרון, וגם מודלי החשיבה הקטנים שכבר היו זמינים בחינם, כמו o3 mini ו-o4 mini, נכשלו במשימה באופן טוטאלי. -
@לאצי כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
כמו"כ, האם המגבלות על המודל אמורות להיפתח יותר באיזשהו שלב?
סביר להניח. כרגע דווח שהם מתמודדים עם עומס עצום.
@2580 כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
בג'מיני ב2.5 פלאש הוא כתב
אם היית כותב את הטקסט שציינת כשהמקשים מותאמים לעברית ולחצת בטעות על Caps Lock, זה מה שהיה נכתב:
"ברוך דיין האמת וחי רוח על נשמות שומרי גבורי ישראל, ונפשנו תיכון לעולם ועד."
ב2.5 פרו הוא הצליח לחלוטין
בדיוק כפי שכתבתי, מודלים רגילים וגם מודלי חשיבה קטנים - נכשלים במשימה מהסוג הזה
@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
המודל הראשון שהצליח לפתור אותה היה o1-preview. לאחריו רק Gemini 2.5 pro הצליח במשימה.
gpt 4o ושאר המודלים טרום עידן החשיבה, לא התקרבו לפתרון, וגם מודלי החשיבה הקטנים שכבר היו זמינים בחינם, כמו o3 mini ו-o4 mini, נכשלו במשימה באופן טוטאלי. -
@NH.LOCAL אבל אצלי גם GPT 5 (החינמי) נכשל כישלון חרוץ שוב ושוב...
כך שלענ"ד עדיין לג'מיני 2.5 פרו יש יתרון
@2580 עכשיו ניסיתי בGPT 5 ובמצב חשיבה הוא כן הצליח. אם כי ארך לו קצת זמן, וגם זה לא באופן הכי ברור.
מעולה — הנה ההמרה לפי פריסת המקלדת הישראלית (Conversion אות־לאות) יחד עם הצעה לתיקון טבעי. יש שתי נקודות לא ברורות (ה־
/
, הגרש'
וסיום.W
) — סימנתי אותן והצעתי תיקון סביר.המרה מילולית (אות־לאות) — 그대로:
שלום לכל מי שבא לכאן היום/ אני רוצה להזמין לבמה א, האיש והאגדה' כמר חיים יחזקאלובי.ש
גרסה מתוקנת ונורמלית שהכי סבירה מבחינת משמעות:
שלום לכל מי שבא לכאן היום. אני רוצה להזמין לבמה את האיש והאגדה — כבוד חיים יחזקאלוביץ'.
הערות:
- המילה
VTHA
התגלתה כ־האיש
(ה־א־י־ש). - סימנתי את ה־
/
אחריהיום
כהפרדה; בהצעה התחלפתי לנקודה. - החלק האחרון נראה כמו שם משפחה (יחזקאלוביץ׳) — המרה ישירה נותנת
יחזקאלובי
+ תו אחר שלא ברור; לכן השערתי את הצורה הנפוצהיחזקאלוביץ'
. - המילה
FNR
התקבלה כ־כמר
במפת ההמרה המילולית — זה לא מילה תקינה בהקשר; ייתכן שניסית לכתובכבוד
אוכמו
ויצאה שגיאה בהקלדה.
רוצה שאשמור על המרה מדויקת־אות־לאות בלבד (בלי ניחושים), או שמעדיף שאתקן את שגיאות ההקלדה ונחזיר גרסה "נקייה" סופית? ואם החלק האחרון הוא שם — תוכל לאשר איך להגות/לכתוב אותו בדיוק?
- המילה
-
@2580 עכשיו ניסיתי בGPT 5 ובמצב חשיבה הוא כן הצליח. אם כי ארך לו קצת זמן, וגם זה לא באופן הכי ברור.
מעולה — הנה ההמרה לפי פריסת המקלדת הישראלית (Conversion אות־לאות) יחד עם הצעה לתיקון טבעי. יש שתי נקודות לא ברורות (ה־
/
, הגרש'
וסיום.W
) — סימנתי אותן והצעתי תיקון סביר.המרה מילולית (אות־לאות) — 그대로:
שלום לכל מי שבא לכאן היום/ אני רוצה להזמין לבמה א, האיש והאגדה' כמר חיים יחזקאלובי.ש
גרסה מתוקנת ונורמלית שהכי סבירה מבחינת משמעות:
שלום לכל מי שבא לכאן היום. אני רוצה להזמין לבמה את האיש והאגדה — כבוד חיים יחזקאלוביץ'.
הערות:
- המילה
VTHA
התגלתה כ־האיש
(ה־א־י־ש). - סימנתי את ה־
/
אחריהיום
כהפרדה; בהצעה התחלפתי לנקודה. - החלק האחרון נראה כמו שם משפחה (יחזקאלוביץ׳) — המרה ישירה נותנת
יחזקאלובי
+ תו אחר שלא ברור; לכן השערתי את הצורה הנפוצהיחזקאלוביץ'
. - המילה
FNR
התקבלה כ־כמר
במפת ההמרה המילולית — זה לא מילה תקינה בהקשר; ייתכן שניסית לכתובכבוד
אוכמו
ויצאה שגיאה בהקלדה.
רוצה שאשמור על המרה מדויקת־אות־לאות בלבד (בלי ניחושים), או שמעדיף שאתקן את שגיאות ההקלדה ונחזיר גרסה "נקייה" סופית? ואם החלק האחרון הוא שם — תוכל לאשר איך להגות/לכתוב אותו בדיוק?
- המילה
-
לפני מספר ימים פרסמתי פוסט המבשר על השחרור הקרב ובא של GPT 5. ביחס לדקות הספורות שהשקעתי בכתיבה שלו - זה כנראה הפוסט שקיבל הכי הרבה לייקים והתעניינות... מה שאומר דבר פשוט אחד: GPT 5 מעניין את הציבור כאן, וכמו שכתבתי - לפניכם הסקירה המלאה:
מה יש ב-GPT-5?
לפני שנעבור לנתונים, הנה סקירה קצרה:
GPT 5 נועד לסדר את הבאלגן בדגמים השונים של OpenAI. לא עוד o3-4o-o4-mini וכו', אלא סדרה אחת תחת השם GPT 5.
המודל החדש עדיין יכלול תתי מודלים, כמו GPT 5 mini, GPT 5 pro ו-GPT 5 thinking. אך הבחירה ביניהם תהיה הרבה יותר ברורה.אחד השיפורים המשמעותיים במודל החדש, היא שילוב של נתב אוטומטי, שבוחר את הדגם הרצוי בהתאם לשאילתא. דגם "טיפש" יותר לשאילתות פשוטות, וחכם יותר לשאילתות מורכבות.
זה מהווה שינוי נהדר עבור רוב מוחלט מהצרכנים של צ'אט GTP, שלא מכירים ויודעים יותר מידי, וכל תוספת או בחירה של דגמים רק מסבכת אותם. עבור המשתמשים המתקדמים מדובר על חיסרון מסויים, אך סם אלטמן הבטיח להוסיף בחירה ברורה ושקופה יותר בין הדגמים עבור המשתמשים החזקים.
על אלו נתונים צריך להסתכל?
הפעם, פחות אתמקד במדדים המלאים, כי לדעתי הם פחות חשובים, אלא אתמקד במה שבאמת חשוב באירוע.
היו הרבה דיבורים על זה שההתקדמות בין GPT 4 ל-GPT 5, היא יחסית מינורית, והרבה פחות משמעותית מההתקדמות בין GPT 3 ל-4. ואם לומר את האמת? הנתונים שפורסמו באמת קצת מאכזבים.
אמנם ישנה התקדמות מכובדת במספר מדדים משמעותיים, ואפילו קפיצות לא מעטות, למשל בבחינה האחרונה של האנושות, אך במובנים רבים הוא לא טוב בהרבה מהמתחרים כמו גרוק 4 למשל, שקיבל ציון דומה באותו מבחן, ואפילו קיבל ציון טוב בהרבה במדד ARC-2.
אז איפה הבשורה?
כאן מגיעות כמה נקודות חשובות שחשוב מאוד לשים לב אליהן.
הדגמים הכי חכמים מגיעים לכולם
שחרור GPT 5, הוא לא רק חשוב בגלל היותו הכי טוב בהכל, אלא בעובדה שהוא נותן (כמעט) את הטוב ביותר - ישר לצרכן החינמי הפשוט.
אם בעבר גישה למודל חכם כל כך הייתה מצריכה מנוי בתשלום, כעת הוא הופך נגיש לכולם בחינם.
למשל, ישנה שאלה פשוטה שאני בודק עם דגמים חדשים שיוצאים.
מה המשפט הבא בעברית, בהנחה שלחצתי בטעות על מקש הקפס-לוק במקלדת? AKUO KFK NH ACT KFTI VHUO/ TBH RUMV KVZNHI KCNV T, VTHA UVTDSV' FNR JHHO HJZETKUCH.W
המודל הראשון שהצליח לפתור אותה היה o1-preview. לאחריו רק Gemini 2.5 pro הצליח במשימה.
gpt 4o ושאר המודלים טרום עידן החשיבה, לא התקרבו לפתרון, וגם מודלי החשיבה הקטנים שכבר היו זמינים בחינם, כמו o3 mini ו-o4 mini, נכשלו במשימה באופן טוטאלי.GPT 5 משולב חשיבה - היה המודל החינמי הראשון בצ'אט-GPT שהצליח במשימה בצורה מושלמת!
תשוו את GPT 5 ל-GPT 4 המקורי, לא ל-O3!
הנקודה החשובה ביותר היא קריטית: אל תשוו את GPT 5 ל-O3, תשוו אותו ל-GPT 4 המקורי, זה שיצא במרץ 2023.
אחד המשפטים הרווחים עם השחרור הוא: "עברו שנתיים וזה כל מה שהם הצליחו להוציא??"
וכאן מגיע הקאצ' - לא. לא עברו שנתיים, עברו 3.5 חודשים. O3 יצא באפריל 2025, O3-pro יצא לפני 58 ימים. אתם משווים את GPT-5 ל-o3, לא ל-GPT-4. אמנם GPT-4 היה מדהים לתקופתו, אבל נראה שאנשים לא זוכרים עד כמה הוא היה חלש בפועל. לכו לקרוא את המאמר המקורי על GPT-4 – הם התגאו בזה שהוא קיבל 75% בבחינות שאף אחד כבר לא זוכר, כי הן נשחקו לחלוטין לפני שנה. GPT-4 קיבל 67% ב-humaneval. מתי בפעם האחרונה מישהו בכלל טרח לדווח על ציון humaneval? GPT-4 היה בתחתית 5% ב-codeforces.
אז סליחה שאתם מאוכזבים כי קוראים לזה GPT-5 וציפיתם להיות יותר המומים. אבל מאז GPT-4 קרו הרבה דברים, ואין ספק שהפער בין GPT-5 ל-GPT-4 דומה לפער בין GPT-4 ל-GPT-3. רק שעכשיו ההתקדמות היא כל כך מהירה, שעולם לא נחווה שוב את ההלם ש-GPT-4 נתן.
GPT 4 נגד GPT 5 - הנתונים
כאחד שאוהב להציג את הנתונים במספרים ברורים, חיפשתי מדדים שניתן להשוות ל־GPT-5. זה לא היה פשוט, אבל הנה כמה נבחרים:
GPQA – מבחן ידע מדעי ברמת מחקר אקדמית - GPT-4 קיבל 35.7% בלבד, בעוד GPT-5 קיבל 85.7%.
SWE-Bench – מבחן פתרון באגים ממשיים מקוד פתוח - GPT-4 פתר 2.8% מהמשימות בלבד, בעוד GPT-5 פתר 74.9%.
Codeforces – דירוג בתחרות קידוד אלגוריתמי מורכב- GPT-4 קיבל ציון 392, שממקם אותו טוב יותר מ־5% בלבד מהמתכנתים. ל-GPT-5 אין עדיין נתונים רשמיים, אך לפי ביצועי מודל O3 ניתן להעריך שהוא טוב יותר מ־99.99% מהמתכנתים.
את שאר המדדים לא היה ניתן להשוות – או כי הם ישנים וקלים מדי, או כי הם כה קשים כך ש-GPT-4 היה מקבל בהם קרוב ל־0%. כך או כך, העובדה הזו רק מחדדת את הפערים האדירים בין המודלים...
תסתכלו על מדד ההזיות
הנקודה השנייה אליה חשוב מאוד לשים לב היא מדד ההזיות.
הזיות הם למעשה מקרים בהם מודלים משקרים בביטחון, ופשוט מספקים עובדות לא נכונות על דברים שהם לא יודעים. מדובר על אחת הבעיות המשמעותיות ביותר בתעשיית הבינה המלאכותית שמלווה את המודלים כבר שנים.OpenAI הצליחה להפחית את ההזיות בשיעור מדהים של בין 45% ל-80%, והוכיחה שבעיית ההזיות מתקדמת לכיוון של פתרון.
לדעתי, זה אירוע דרמטי בסדר גודל, כי זה מאפשר להשתמש ב-AI גם בתעשיות הדורשות אמינות גבוהה, כמו רפואה למשל, או תחומים רגישים אחרים הכוללים סיכונים.
המדדים בספוילר:
העשרה נוספת ומקורות
-
מאמר הצגת gpt 5 של OpenAI:
https://openai.com/index/introducing-gpt-5 -
סקירה מעניינת עם שימוש בעולם האמיתי
https://www.latent.space/p/gpt-5-review
אם נסכם את הדברים - באופן אישי, כנראה שאמשיך להשתמש לרוב המשימות הקשות בג'מיני 2.5 פרו. אבל מה שבאמת חשוב זו המגמה הברורה של התקדמות עקבית של המודלים השונים.
האם OpenAI, גוגל או xAI יהיו המובילות - זה לא ממש חשוב - כי בסוף כך או כך, הצרכן בקצה ירוויח ובגדול
הכנסו לבלוג שלי למאמרים ותגליות אחרות:
@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
הנקודה החשובה ביותר היא קריטית: אל תשוו את GPT 5 ל-O3, תשוו אותו ל-GPT 4 המקורי, זה שיצא במרץ 2023.
למה לא להשוות ל-GPT 4o שטוב בהרבה מ-GPT 4 המקורי? ציפיתי לקפיצה בתחום הצ'אט הבסיסי למטרות רגילות, והיא לא קרתה. ובכלל, סם אלטמן התהדר לקראת יציאת GPT 5 בלי קשר למודלים ה"זמניים" - סדרת מודלי החשיבה "O", וטען שהם רק קפיצות מינוריות לעומת הקפיצה ש-GPT 5 יביא. אבל זה לא חדש אצלו - בדומה להמתנה ארוכת החודשים שהמתנו ליציאת המודלים בקוד פתוח (GPT OSS) שלא יכולים כמעט לרוץ על מחשבים סטנדרטיים וגם לא יכולים לעשות כמעט כלום בשל הגדרות בטיחות גבוהות, אותה דחה מחודש לחודש בתואנות של בדיקות בטיחות משונות.
@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
לדעתי, זה אירוע דרמטי בסדר גודל, כי זה מאפשר להשתמש ב-AI גם בתעשיות הדורשות אמינות גבוהה, כמו רפואה למשל, או תחומים רגישים אחרים הכוללים סיכונים.
אולי אפילו גם בנושאי הלכה וחיפוש תשובות תורניות, מי יודע... אם כי ייקח זמן עד שזה ייקבל אמון...
-
-
@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
הנקודה החשובה ביותר היא קריטית: אל תשוו את GPT 5 ל-O3, תשוו אותו ל-GPT 4 המקורי, זה שיצא במרץ 2023.
למה לא להשוות ל-GPT 4o שטוב בהרבה מ-GPT 4 המקורי? ציפיתי לקפיצה בתחום הצ'אט הבסיסי למטרות רגילות, והיא לא קרתה. ובכלל, סם אלטמן התהדר לקראת יציאת GPT 5 בלי קשר למודלים ה"זמניים" - סדרת מודלי החשיבה "O", וטען שהם רק קפיצות מינוריות לעומת הקפיצה ש-GPT 5 יביא. אבל זה לא חדש אצלו - בדומה להמתנה ארוכת החודשים שהמתנו ליציאת המודלים בקוד פתוח (GPT OSS) שלא יכולים כמעט לרוץ על מחשבים סטנדרטיים וגם לא יכולים לעשות כמעט כלום בשל הגדרות בטיחות גבוהות, אותה דחה מחודש לחודש בתואנות של בדיקות בטיחות משונות.
@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
לדעתי, זה אירוע דרמטי בסדר גודל, כי זה מאפשר להשתמש ב-AI גם בתעשיות הדורשות אמינות גבוהה, כמו רפואה למשל, או תחומים רגישים אחרים הכוללים סיכונים.
אולי אפילו גם בנושאי הלכה וחיפוש תשובות תורניות, מי יודע... אם כי ייקח זמן עד שזה ייקבל אמון...
@א.מ.ד. כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
למה לא להשוות ל-GPT 4o שטוב בהרבה מ-GPT 4 המקורי?
הנושא היה ההשוואה בין הפער בין gpt 3 מול gpt-4, לעומת gpt 4 מול 5.
אבל אתה מוזמן להשוות. GPT 5 טוב בפער עצום גם ממודל 4o.
וכמובן, למטרות יומיומיות בכל מקרה לא אמור להיות שום הבדל - כי כל המודלים היום גם ככה מספיק חכמים ל-98% מהמשימות.@א.מ.ד. כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
סם אלטמן התהדר לקראת יציאת GPT 5 בלי קשר למודלים ה"זמניים" - סדרת מודלי החשיבה "O", וטען שהם רק קפיצות מינוריות לעומת הקפיצה ש-GPT 5 יביא
לא שמעתי דבר כזה. אך כמובן שכגודל ההייפ גודל האכזבה.
@א.מ.ד. כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
בדומה להמתנה ארוכת החודשים שהמתנו ליציאת המודלים בקוד פתוח (GPT OSS) שלא יכולים כמעט לרוץ על מחשבים סטנדרטיים וגם לא יכולים לעשות כמעט כלום בשל הגדרות בטיחות גבוהות, אותה דחה מחודש לחודש בתואנות של בדיקות בטיחות משונות.
המודלים האלו לא יועדו מלכתחילה לשימוש במחשבים רגילים, הם מיועדים בעיקר לשימוש תעשייתי ולעסקים קטנים וכדומה, או למחשבים ביתיים חזקים עם מעבד RTX וכדומה.
פלח האוכלוסיה שמשתמש במודלי AI על מחשב ביתי רגיל, הוא די קרוב לאפס
-
@א.מ.ד. כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
למה לא להשוות ל-GPT 4o שטוב בהרבה מ-GPT 4 המקורי?
הנושא היה ההשוואה בין הפער בין gpt 3 מול gpt-4, לעומת gpt 4 מול 5.
אבל אתה מוזמן להשוות. GPT 5 טוב בפער עצום גם ממודל 4o.
וכמובן, למטרות יומיומיות בכל מקרה לא אמור להיות שום הבדל - כי כל המודלים היום גם ככה מספיק חכמים ל-98% מהמשימות.@א.מ.ד. כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
סם אלטמן התהדר לקראת יציאת GPT 5 בלי קשר למודלים ה"זמניים" - סדרת מודלי החשיבה "O", וטען שהם רק קפיצות מינוריות לעומת הקפיצה ש-GPT 5 יביא
לא שמעתי דבר כזה. אך כמובן שכגודל ההייפ גודל האכזבה.
@א.מ.ד. כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
בדומה להמתנה ארוכת החודשים שהמתנו ליציאת המודלים בקוד פתוח (GPT OSS) שלא יכולים כמעט לרוץ על מחשבים סטנדרטיים וגם לא יכולים לעשות כמעט כלום בשל הגדרות בטיחות גבוהות, אותה דחה מחודש לחודש בתואנות של בדיקות בטיחות משונות.
המודלים האלו לא יועדו מלכתחילה לשימוש במחשבים רגילים, הם מיועדים בעיקר לשימוש תעשייתי ולעסקים קטנים וכדומה, או למחשבים ביתיים חזקים עם מעבד RTX וכדומה.
פלח האוכלוסיה שמשתמש במודלי AI על מחשב ביתי רגיל, הוא די קרוב לאפס
@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
אתה מוזמן להשוות. GPT 5 טוב בפער עצום גם ממודל 4o.
אני מתכוון עבור המשתמש החינמי, שרוב שימושיו יהיו במודל ללא מצב חשיבה, אם בכלל לא במיני...
@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
הנושא היה ההשוואה בין הפער בין gpt 3 מול gpt-4, לעומת gpt 4 מול 5.
השאלה שלי היא למה זה הנושא. GPT 4o הוא לכל הדעות כמה וכמה רמות מעל GPT 4. זה כמו שנשווה את GEMINI 3 (שמתחמם בבתנור...) ל-GEMINI 2 במקום ל-2.5.
@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
המודלים האלו לא יועדו מלכתחילה לשימוש במחשבים רגילים, הם מיועדים בעיקר לשימוש תעשייתי ולעסקים קטנים וכדומה, או למחשבים ביתיים חזקים עם מעבד RTX וכדומה.
מי שמחזיק במעבדים כאלה מריץ כבר מודלים טובים ומשוחררים בהרבה כמו QWEN 3 235B או DEEPSEEK R1 או KIMI K2 וכו'. אין לו עניין להתעסק עם מודל שמסרב לבצע חצי מהמשימות.
מסתבר שהם לא רצו להוציא מודל גדול וחכם מידי שיישתלם עבור העסקים והשימוש התעשייתי, ומצד שני שלא ייפגע בשימוש ב-CHATGPT בקרב המשתמשים הפשוטים. אז הם הוציאו מודל אמצע שקרח מכאן ומכאן, ובנוסף הגנו עליו בכל ההגנות האפשריות עד שהוציאו אותו משמישות.@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
פלח האוכלוסיה שמשתמש במודלי AI על מחשב ביתי רגיל, הוא די קרוב לאפס
באופן כללי רוב המריצים מודלי AI על המחשב הביתי הם חובבנים ואוהדי קהילת הקוד הפתוח, יחד עם קונספירטורים למיניהם ששמעודדים את הדמוקרטיזציה של ה-AI, מחששות פרטיות. כמובן שיש נתח שוק משמעותי של חברות שמריצות מודלים שונים בשרתים שלהם לחיסכון בעלויות, אבל זה נדיר בשל המורכבות שבמימוש.
-
@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
אתה מוזמן להשוות. GPT 5 טוב בפער עצום גם ממודל 4o.
אני מתכוון עבור המשתמש החינמי, שרוב שימושיו יהיו במודל ללא מצב חשיבה, אם בכלל לא במיני...
@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
הנושא היה ההשוואה בין הפער בין gpt 3 מול gpt-4, לעומת gpt 4 מול 5.
השאלה שלי היא למה זה הנושא. GPT 4o הוא לכל הדעות כמה וכמה רמות מעל GPT 4. זה כמו שנשווה את GEMINI 3 (שמתחמם בבתנור...) ל-GEMINI 2 במקום ל-2.5.
@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
המודלים האלו לא יועדו מלכתחילה לשימוש במחשבים רגילים, הם מיועדים בעיקר לשימוש תעשייתי ולעסקים קטנים וכדומה, או למחשבים ביתיים חזקים עם מעבד RTX וכדומה.
מי שמחזיק במעבדים כאלה מריץ כבר מודלים טובים ומשוחררים בהרבה כמו QWEN 3 235B או DEEPSEEK R1 או KIMI K2 וכו'. אין לו עניין להתעסק עם מודל שמסרב לבצע חצי מהמשימות.
מסתבר שהם לא רצו להוציא מודל גדול וחכם מידי שיישתלם עבור העסקים והשימוש התעשייתי, ומצד שני שלא ייפגע בשימוש ב-CHATGPT בקרב המשתמשים הפשוטים. אז הם הוציאו מודל אמצע שקרח מכאן ומכאן, ובנוסף הגנו עליו בכל ההגנות האפשריות עד שהוציאו אותו משמישות.@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
פלח האוכלוסיה שמשתמש במודלי AI על מחשב ביתי רגיל, הוא די קרוב לאפס
באופן כללי רוב המריצים מודלי AI על המחשב הביתי הם חובבנים ואוהדי קהילת הקוד הפתוח, יחד עם קונספירטורים למיניהם ששמעודדים את הדמוקרטיזציה של ה-AI, מחששות פרטיות. כמובן שיש נתח שוק משמעותי של חברות שמריצות מודלים שונים בשרתים שלהם לחיסכון בעלויות, אבל זה נדיר בשל המורכבות שבמימוש.
@א.מ.ד. כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
השאלה שלי היא למה זה הנושא. GPT 4o הוא לכל הדעות כמה וכמה רמות מעל GPT 4. זה כמו שנשווה את GEMINI 3 (שמתחמם בבתנור...) ל-GEMINI 2 במקום ל-2.5.
השוואה ל-4o היא גם לא משקפת. כי 4o המקורי היה פחות חכם אפילו מ-GPT 4. היתרון היחיד שלו היה שהוא הרבה יותר זול לשימוש. השיפור וההתקדמות שלו הגיעו רק בשנה האחרונה.
הנושא פשוט: כשאנחנו באים למדוד התקדמות - שחרור GPT 4 מהווה נקודת ציון מרכזית.
אם אתה משווה למודל GPT 4o אתה לא משווה יכולות של מודל מלפני שנה, אלא יכולות עדכניות של מודל משופר ששוחרר לפני 4.5 חודשים בלבדוכן, עבור המשתמש החינמי הממוצע אין הבדל גדול, כי עבורו - GPT 4o היה המקסימום. הוא פשוט לא צריך יותר מזה, ואין שום סיבה לספק לו משהו מעבר לזה ולבזבז שרתים.
@א.מ.ד. כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
מי שמחזיק במעבדים כאלה מריץ כבר מודלים טובים ומשוחררים בהרבה כמו QWEN 3 235B או DEEPSEEK R1 או KIMI K2 וכו'. אין לו עניין להתעסק עם מודל שמסרב לבצע חצי מהמשימות.
QWEN 3 235B כשמו כן הוא - גדול פי 2 מודל ה-120B של OpenAI והעלות בהתאם. Deepseek r1 הוא בגודל של יותר מ-600B מה שאומר שעלות ההסקה היא פי כמה וכמה
@א.מ.ד. כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
באופן כללי רוב המריצים מודלי AI על המחשב הביתי הם חובבנים ואוהדי קהילת הקוד הפתוח, יחד עם קונספירטורים למיניהם ששמעודדים את הדמוקרטיזציה של ה-AI, מחששות פרטיות. כמובן שיש נתח שוק משמעותי של חברות שמריצות מודלים שונים בשרתים שלהם לחיסכון בעלויות, אבל זה נדיר בשל המורכבות שבמימוש.
אף אחד לא מריץ מודלים על מחשב אינטל i5. גם החובבנים למיניהם משתמשים במחשבי nvidia חזקים יותר, עם לפחות 12 גי'גה VRAM - שבהחלט מתאים למודל gpt oss 20B עם קוונטיזציה
למעשה, הבחירה בשחרור מודלים גדולים יותר במקום מודלים שמתאימים לסמארטפון, הייתה בהתאם לדרישת הציבור, כפי שהתבטאה בסקר שערך סם אלטמן בטוויטר לפני מספר חודשים. ראה כאן
אגב, יתרון משמעותי במודלי קוד פתוח, הוא עלויות נמוכות משמעותית ממודלים סגורים.
גם חברות שלא משתמשות בשרתים פרטיים - מרוויחים משימוש ב-API במחירים זולים על ידי חברות ספקים כמו open-router -
לפני מספר ימים פרסמתי פוסט המבשר על השחרור הקרב ובא של GPT 5. ביחס לדקות הספורות שהשקעתי בכתיבה שלו - זה כנראה הפוסט שקיבל הכי הרבה לייקים והתעניינות... מה שאומר דבר פשוט אחד: GPT 5 מעניין את הציבור כאן, וכמו שכתבתי - לפניכם הסקירה המלאה:
מה יש ב-GPT-5?
לפני שנעבור לנתונים, הנה סקירה קצרה:
GPT 5 נועד לסדר את הבאלגן בדגמים השונים של OpenAI. לא עוד o3-4o-o4-mini וכו', אלא סדרה אחת תחת השם GPT 5.
המודל החדש עדיין יכלול תתי מודלים, כמו GPT 5 mini, GPT 5 pro ו-GPT 5 thinking. אך הבחירה ביניהם תהיה הרבה יותר ברורה.אחד השיפורים המשמעותיים במודל החדש, היא שילוב של נתב אוטומטי, שבוחר את הדגם הרצוי בהתאם לשאילתא. דגם "טיפש" יותר לשאילתות פשוטות, וחכם יותר לשאילתות מורכבות.
זה מהווה שינוי נהדר עבור רוב מוחלט מהצרכנים של צ'אט GTP, שלא מכירים ויודעים יותר מידי, וכל תוספת או בחירה של דגמים רק מסבכת אותם. עבור המשתמשים המתקדמים מדובר על חיסרון מסויים, אך סם אלטמן הבטיח להוסיף בחירה ברורה ושקופה יותר בין הדגמים עבור המשתמשים החזקים.
על אלו נתונים צריך להסתכל?
הפעם, פחות אתמקד במדדים המלאים, כי לדעתי הם פחות חשובים, אלא אתמקד במה שבאמת חשוב באירוע.
היו הרבה דיבורים על זה שההתקדמות בין GPT 4 ל-GPT 5, היא יחסית מינורית, והרבה פחות משמעותית מההתקדמות בין GPT 3 ל-4. ואם לומר את האמת? הנתונים שפורסמו באמת קצת מאכזבים.
אמנם ישנה התקדמות מכובדת במספר מדדים משמעותיים, ואפילו קפיצות לא מעטות, למשל בבחינה האחרונה של האנושות, אך במובנים רבים הוא לא טוב בהרבה מהמתחרים כמו גרוק 4 למשל, שקיבל ציון דומה באותו מבחן, ואפילו קיבל ציון טוב בהרבה במדד ARC-2.
אז איפה הבשורה?
כאן מגיעות כמה נקודות חשובות שחשוב מאוד לשים לב אליהן.
הדגמים הכי חכמים מגיעים לכולם
שחרור GPT 5, הוא לא רק חשוב בגלל היותו הכי טוב בהכל, אלא בעובדה שהוא נותן (כמעט) את הטוב ביותר - ישר לצרכן החינמי הפשוט.
אם בעבר גישה למודל חכם כל כך הייתה מצריכה מנוי בתשלום, כעת הוא הופך נגיש לכולם בחינם.
למשל, ישנה שאלה פשוטה שאני בודק עם דגמים חדשים שיוצאים.
מה המשפט הבא בעברית, בהנחה שלחצתי בטעות על מקש הקפס-לוק במקלדת? AKUO KFK NH ACT KFTI VHUO/ TBH RUMV KVZNHI KCNV T, VTHA UVTDSV' FNR JHHO HJZETKUCH.W
המודל הראשון שהצליח לפתור אותה היה o1-preview. לאחריו רק Gemini 2.5 pro הצליח במשימה.
gpt 4o ושאר המודלים טרום עידן החשיבה, לא התקרבו לפתרון, וגם מודלי החשיבה הקטנים שכבר היו זמינים בחינם, כמו o3 mini ו-o4 mini, נכשלו במשימה באופן טוטאלי.GPT 5 משולב חשיבה - היה המודל החינמי הראשון בצ'אט-GPT שהצליח במשימה בצורה מושלמת!
תשוו את GPT 5 ל-GPT 4 המקורי, לא ל-O3!
הנקודה החשובה ביותר היא קריטית: אל תשוו את GPT 5 ל-O3, תשוו אותו ל-GPT 4 המקורי, זה שיצא במרץ 2023.
אחד המשפטים הרווחים עם השחרור הוא: "עברו שנתיים וזה כל מה שהם הצליחו להוציא??"
וכאן מגיע הקאצ' - לא. לא עברו שנתיים, עברו 3.5 חודשים. O3 יצא באפריל 2025, O3-pro יצא לפני 58 ימים. אתם משווים את GPT-5 ל-o3, לא ל-GPT-4. אמנם GPT-4 היה מדהים לתקופתו, אבל נראה שאנשים לא זוכרים עד כמה הוא היה חלש בפועל. לכו לקרוא את המאמר המקורי על GPT-4 – הם התגאו בזה שהוא קיבל 75% בבחינות שאף אחד כבר לא זוכר, כי הן נשחקו לחלוטין לפני שנה. GPT-4 קיבל 67% ב-humaneval. מתי בפעם האחרונה מישהו בכלל טרח לדווח על ציון humaneval? GPT-4 היה בתחתית 5% ב-codeforces.
אז סליחה שאתם מאוכזבים כי קוראים לזה GPT-5 וציפיתם להיות יותר המומים. אבל מאז GPT-4 קרו הרבה דברים, ואין ספק שהפער בין GPT-5 ל-GPT-4 דומה לפער בין GPT-4 ל-GPT-3. רק שעכשיו ההתקדמות היא כל כך מהירה, שעולם לא נחווה שוב את ההלם ש-GPT-4 נתן.
GPT 4 נגד GPT 5 - הנתונים
כאחד שאוהב להציג את הנתונים במספרים ברורים, חיפשתי מדדים שניתן להשוות ל־GPT-5. זה לא היה פשוט, אבל הנה כמה נבחרים:
GPQA – מבחן ידע מדעי ברמת מחקר אקדמית - GPT-4 קיבל 35.7% בלבד, בעוד GPT-5 קיבל 85.7%.
SWE-Bench – מבחן פתרון באגים ממשיים מקוד פתוח - GPT-4 פתר 2.8% מהמשימות בלבד, בעוד GPT-5 פתר 74.9%.
Codeforces – דירוג בתחרות קידוד אלגוריתמי מורכב- GPT-4 קיבל ציון 392, שממקם אותו טוב יותר מ־5% בלבד מהמתכנתים. ל-GPT-5 אין עדיין נתונים רשמיים, אך לפי ביצועי מודל O3 ניתן להעריך שהוא טוב יותר מ־99.99% מהמתכנתים.
את שאר המדדים לא היה ניתן להשוות – או כי הם ישנים וקלים מדי, או כי הם כה קשים כך ש-GPT-4 היה מקבל בהם קרוב ל־0%. כך או כך, העובדה הזו רק מחדדת את הפערים האדירים בין המודלים...
תסתכלו על מדד ההזיות
הנקודה השנייה אליה חשוב מאוד לשים לב היא מדד ההזיות.
הזיות הם למעשה מקרים בהם מודלים משקרים בביטחון, ופשוט מספקים עובדות לא נכונות על דברים שהם לא יודעים. מדובר על אחת הבעיות המשמעותיות ביותר בתעשיית הבינה המלאכותית שמלווה את המודלים כבר שנים.OpenAI הצליחה להפחית את ההזיות בשיעור מדהים של בין 45% ל-80%, והוכיחה שבעיית ההזיות מתקדמת לכיוון של פתרון.
לדעתי, זה אירוע דרמטי בסדר גודל, כי זה מאפשר להשתמש ב-AI גם בתעשיות הדורשות אמינות גבוהה, כמו רפואה למשל, או תחומים רגישים אחרים הכוללים סיכונים.
המדדים בספוילר:
העשרה נוספת ומקורות
-
מאמר הצגת gpt 5 של OpenAI:
https://openai.com/index/introducing-gpt-5 -
סקירה מעניינת עם שימוש בעולם האמיתי
https://www.latent.space/p/gpt-5-review
אם נסכם את הדברים - באופן אישי, כנראה שאמשיך להשתמש לרוב המשימות הקשות בג'מיני 2.5 פרו. אבל מה שבאמת חשוב זו המגמה הברורה של התקדמות עקבית של המודלים השונים.
האם OpenAI, גוגל או xAI יהיו המובילות - זה לא ממש חשוב - כי בסוף כך או כך, הצרכן בקצה ירוויח ובגדול
הכנסו לבלוג שלי למאמרים ותגליות אחרות:
@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
אז סליחה שאתם מאוכזבים כי קוראים לזה GPT-5 וציפיתם להיות יותר המומים. אבל מאז GPT-4 קרו הרבה דברים, ואין ספק שהפער בין GPT-5 ל-GPT-4 דומה לפער בין GPT-4 ל-GPT-3. רק שעכשיו ההתקדמות היא כל כך מהירה, שעולם לא נחווה שוב את ההלם ש-GPT-4 נתן.
בתור מי שזוכר את ההמתנה ל gpt-4 ואחרי זה את ההשקה שלו, אני חייב לציין שהוא הצטייר בימים הראשונים כאכזבה מסויימת, ולא ביג דייל בייחס לתקוות לפני, בדיוק כמו שקורה עכשיו עם gpt-5.
גם בgpt-4 בדקנו שוב ושוב כדי להגיד משהו כמו, כן הוא נשמע קצת יותר קולח יותר וקצת יותר אמין מGPT-3.5 אבל על זה כל ההיפ?
ממש כמו עכשיו. -
-
@א.מ.ד. כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
השאלה שלי היא למה זה הנושא. GPT 4o הוא לכל הדעות כמה וכמה רמות מעל GPT 4. זה כמו שנשווה את GEMINI 3 (שמתחמם בבתנור...) ל-GEMINI 2 במקום ל-2.5.
השוואה ל-4o היא גם לא משקפת. כי 4o המקורי היה פחות חכם אפילו מ-GPT 4. היתרון היחיד שלו היה שהוא הרבה יותר זול לשימוש. השיפור וההתקדמות שלו הגיעו רק בשנה האחרונה.
הנושא פשוט: כשאנחנו באים למדוד התקדמות - שחרור GPT 4 מהווה נקודת ציון מרכזית.
אם אתה משווה למודל GPT 4o אתה לא משווה יכולות של מודל מלפני שנה, אלא יכולות עדכניות של מודל משופר ששוחרר לפני 4.5 חודשים בלבדוכן, עבור המשתמש החינמי הממוצע אין הבדל גדול, כי עבורו - GPT 4o היה המקסימום. הוא פשוט לא צריך יותר מזה, ואין שום סיבה לספק לו משהו מעבר לזה ולבזבז שרתים.
@א.מ.ד. כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
מי שמחזיק במעבדים כאלה מריץ כבר מודלים טובים ומשוחררים בהרבה כמו QWEN 3 235B או DEEPSEEK R1 או KIMI K2 וכו'. אין לו עניין להתעסק עם מודל שמסרב לבצע חצי מהמשימות.
QWEN 3 235B כשמו כן הוא - גדול פי 2 מודל ה-120B של OpenAI והעלות בהתאם. Deepseek r1 הוא בגודל של יותר מ-600B מה שאומר שעלות ההסקה היא פי כמה וכמה
@א.מ.ד. כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
באופן כללי רוב המריצים מודלי AI על המחשב הביתי הם חובבנים ואוהדי קהילת הקוד הפתוח, יחד עם קונספירטורים למיניהם ששמעודדים את הדמוקרטיזציה של ה-AI, מחששות פרטיות. כמובן שיש נתח שוק משמעותי של חברות שמריצות מודלים שונים בשרתים שלהם לחיסכון בעלויות, אבל זה נדיר בשל המורכבות שבמימוש.
אף אחד לא מריץ מודלים על מחשב אינטל i5. גם החובבנים למיניהם משתמשים במחשבי nvidia חזקים יותר, עם לפחות 12 גי'גה VRAM - שבהחלט מתאים למודל gpt oss 20B עם קוונטיזציה
למעשה, הבחירה בשחרור מודלים גדולים יותר במקום מודלים שמתאימים לסמארטפון, הייתה בהתאם לדרישת הציבור, כפי שהתבטאה בסקר שערך סם אלטמן בטוויטר לפני מספר חודשים. ראה כאן
אגב, יתרון משמעותי במודלי קוד פתוח, הוא עלויות נמוכות משמעותית ממודלים סגורים.
גם חברות שלא משתמשות בשרתים פרטיים - מרוויחים משימוש ב-API במחירים זולים על ידי חברות ספקים כמו open-router@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
הנושא פשוט: כשאנחנו באים למדוד התקדמות - שחרור GPT 4 מהווה נקודת ציון מרכזית.
מדוע להשוות למודל 4?
זה נראה שאתה סבור שמודל 4 היה מצב גולמי שלקח להם זמן לשפר ועכשיו מודל 5 הוא מצב גולמי שיקח להם זמן לשפר.אבל אישית אני סבור שאת השיפורים שכבר למדו במודל 4 וכו' הם כבר ניסו לעשות מן הסתם במודל 5 ולכן ההשוואה צריכה להיות למודל O4 ו O3.
-
@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
הנושא פשוט: כשאנחנו באים למדוד התקדמות - שחרור GPT 4 מהווה נקודת ציון מרכזית.
מדוע להשוות למודל 4?
זה נראה שאתה סבור שמודל 4 היה מצב גולמי שלקח להם זמן לשפר ועכשיו מודל 5 הוא מצב גולמי שיקח להם זמן לשפר.אבל אישית אני סבור שאת השיפורים שכבר למדו במודל 4 וכו' הם כבר ניסו לעשות מן הסתם במודל 5 ולכן ההשוואה צריכה להיות למודל O4 ו O3.
@אלי-ויל כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
אבל אישית אני סבור שאת השיפורים שכבר למדו במודל 4 וכו' הם כבר ניסו לעשות מן הסתם במודל 5 ולכן ההשוואה צריכה להיות למודל O4 ו O3.
העניין הוא הפוך, והצוות של OpenAI אכן אמר את זה - למעשה, o3 ואפילו o1 היו יכולים להיות מוגדרים כ-GPT 5.
בפועל, הם לא עשו את זה, ובסופו של דבר מודל GPT 5 ששוחרר, הוא בערך ברמת o3 ולא הרבה מעבר.מה שחשוב להבין בהקשר לאימון מודלים - שהחלק המרכזי של השיפורים לא נובע משינויים באימון, אלא פשוט מהגדלה האימון, הן מבחינת גודל הדאטה, והן מבחינת ה-RL.
הגדלת האימון מוגבלת, בהתאם לכמות השרתים הזמינה, ולכן טכנית הם לא יכלו לבצע קפיצה משמעותית ביכולות - כל עוד סטארגייט - מרכז הנתונים החדש שלהם עוד לא נפרס.
כיום, החלק המשמעותי ביותר באימון הוא הגדלת ה-RL.
מודל o3 אומן עם פי 10 RL בהשוואה למודל o1, והוא אכן הביא קפיצת מדרגה עצומה.
מודל o4 mini התבסס על מודל GPT 4.1 במקום על gpt 4o מה שהוביל לשיפור מסויים. אך לא ברור האם הם הגדילו את ה-RL וכמה.
בכל אופן, לפי המדווח, OpenAI המתינה עם אימון o4 המלא, עם הגדלת RL כפול 100, בשל מגבלות השרתים שלהם.
מגבלות האימון הטכניות האלו הם לא משהו שאפשר "לסדר" בין רגע, והם פשוט לוקחים זמן.
-
@א.מ.ד. כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
השאלה שלי היא למה זה הנושא. GPT 4o הוא לכל הדעות כמה וכמה רמות מעל GPT 4. זה כמו שנשווה את GEMINI 3 (שמתחמם בבתנור...) ל-GEMINI 2 במקום ל-2.5.
השוואה ל-4o היא גם לא משקפת. כי 4o המקורי היה פחות חכם אפילו מ-GPT 4. היתרון היחיד שלו היה שהוא הרבה יותר זול לשימוש. השיפור וההתקדמות שלו הגיעו רק בשנה האחרונה.
הנושא פשוט: כשאנחנו באים למדוד התקדמות - שחרור GPT 4 מהווה נקודת ציון מרכזית.
אם אתה משווה למודל GPT 4o אתה לא משווה יכולות של מודל מלפני שנה, אלא יכולות עדכניות של מודל משופר ששוחרר לפני 4.5 חודשים בלבדוכן, עבור המשתמש החינמי הממוצע אין הבדל גדול, כי עבורו - GPT 4o היה המקסימום. הוא פשוט לא צריך יותר מזה, ואין שום סיבה לספק לו משהו מעבר לזה ולבזבז שרתים.
@א.מ.ד. כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
מי שמחזיק במעבדים כאלה מריץ כבר מודלים טובים ומשוחררים בהרבה כמו QWEN 3 235B או DEEPSEEK R1 או KIMI K2 וכו'. אין לו עניין להתעסק עם מודל שמסרב לבצע חצי מהמשימות.
QWEN 3 235B כשמו כן הוא - גדול פי 2 מודל ה-120B של OpenAI והעלות בהתאם. Deepseek r1 הוא בגודל של יותר מ-600B מה שאומר שעלות ההסקה היא פי כמה וכמה
@א.מ.ד. כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
באופן כללי רוב המריצים מודלי AI על המחשב הביתי הם חובבנים ואוהדי קהילת הקוד הפתוח, יחד עם קונספירטורים למיניהם ששמעודדים את הדמוקרטיזציה של ה-AI, מחששות פרטיות. כמובן שיש נתח שוק משמעותי של חברות שמריצות מודלים שונים בשרתים שלהם לחיסכון בעלויות, אבל זה נדיר בשל המורכבות שבמימוש.
אף אחד לא מריץ מודלים על מחשב אינטל i5. גם החובבנים למיניהם משתמשים במחשבי nvidia חזקים יותר, עם לפחות 12 גי'גה VRAM - שבהחלט מתאים למודל gpt oss 20B עם קוונטיזציה
למעשה, הבחירה בשחרור מודלים גדולים יותר במקום מודלים שמתאימים לסמארטפון, הייתה בהתאם לדרישת הציבור, כפי שהתבטאה בסקר שערך סם אלטמן בטוויטר לפני מספר חודשים. ראה כאן
אגב, יתרון משמעותי במודלי קוד פתוח, הוא עלויות נמוכות משמעותית ממודלים סגורים.
גם חברות שלא משתמשות בשרתים פרטיים - מרוויחים משימוש ב-API במחירים זולים על ידי חברות ספקים כמו open-router@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
אף אחד לא מריץ מודלים על מחשב אינטל i5. גם החובבנים למיניהם משתמשים במחשבי nvidia חזקים יותר, עם לפחות 12 גי'גה VRAM - שבהחלט מתאים למודל gpt oss 20B עם קוונטיזציה
אין בעיה במעבד אינטל, הבעיה בGPU וRAM למשל אחד כזה (הכי חזק כיום למשתמש ביתי, לא? מי לא היה רוצה...) לא יספיק לדיפ סיק אבל למשתמש ביתי יהיו מודלים אחרים אפשריים...
-
@אלי-ויל כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
אבל אישית אני סבור שאת השיפורים שכבר למדו במודל 4 וכו' הם כבר ניסו לעשות מן הסתם במודל 5 ולכן ההשוואה צריכה להיות למודל O4 ו O3.
העניין הוא הפוך, והצוות של OpenAI אכן אמר את זה - למעשה, o3 ואפילו o1 היו יכולים להיות מוגדרים כ-GPT 5.
בפועל, הם לא עשו את זה, ובסופו של דבר מודל GPT 5 ששוחרר, הוא בערך ברמת o3 ולא הרבה מעבר.מה שחשוב להבין בהקשר לאימון מודלים - שהחלק המרכזי של השיפורים לא נובע משינויים באימון, אלא פשוט מהגדלה האימון, הן מבחינת גודל הדאטה, והן מבחינת ה-RL.
הגדלת האימון מוגבלת, בהתאם לכמות השרתים הזמינה, ולכן טכנית הם לא יכלו לבצע קפיצה משמעותית ביכולות - כל עוד סטארגייט - מרכז הנתונים החדש שלהם עוד לא נפרס.
כיום, החלק המשמעותי ביותר באימון הוא הגדלת ה-RL.
מודל o3 אומן עם פי 10 RL בהשוואה למודל o1, והוא אכן הביא קפיצת מדרגה עצומה.
מודל o4 mini התבסס על מודל GPT 4.1 במקום על gpt 4o מה שהוביל לשיפור מסויים. אך לא ברור האם הם הגדילו את ה-RL וכמה.
בכל אופן, לפי המדווח, OpenAI המתינה עם אימון o4 המלא, עם הגדלת RL כפול 100, בשל מגבלות השרתים שלהם.
מגבלות האימון הטכניות האלו הם לא משהו שאפשר "לסדר" בין רגע, והם פשוט לוקחים זמן.
@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
והצוות של OpenAI אכן אמר את זה
זה כמובן לא אומר שזה נכון
@NH.LOCAL כתב בשיתוף | GPT 5 הגיע - הסקירה המלאה עם כל מה שחשוב לדעת:
למעשה, o3 ואפילו o1 היו יכולים להיות מוגדרים כ-GPT 5
במשימות רבות הם הרבה פחות יעילים מ-4o. זה פשוט זן אחר של דגמים (בשונה מ-GEMINI 2.5 שלמרות היותו מודל חשיבה הוא מותאם לכל המשימות).