הסבר | הי, עצור! עידן AI חדש לפניך!

NH.LOCAL

חברת OPENAI שחררו מודל חדש ניסיוני בשם O1!

נכון לעכשיו הוא זמין למנויים בתשלום דרך צ'אט GPT, בעתיד הוא צפוי להיות משוחרר לכלל המשתמשים.

שימו לב למדדים שלו בהשוואה לדגם האחרון שלהם - GPT4O
מדובר בקפיצה בלתי נתפסת ביכולות כמו קידוד, מתמטיקה, מדעים, פיזיקה ועוד!

הסבר מפורט על הגרפים

(הסיכום נכתב באמצעות צ'אט GPT, השתדלתי לתקן את הסיכום, אך יתכן וישנם עדיין טעויות קלות במספרים):

1. מבחני תחרויות חשיבה:

תחרות מתמטיקה (AIME 2024):
דגם GPT-4o הצליח רק ב-13.4% מהמבחן.
דגם o1 לעומתו הצליח ב-83.3%, שזה שיפור עצום. זו דוגמה לתחרות מתמטיקה מתקדמת מאוד, ודגם o1 מצליח בצורה מרשימה לעומת היכולות הקודמות של GPT-4o.
גרסת "preview" של o1 הצליחה במבחן עם ציון של 56.7%, מה שמעיד שגם בשלבי הפיתוח הוא היה טוב יותר מ-GPT-4o.

תחרות קוד (CodeForces):
גם כאן, הביצועים של GPT-4o היו נמוכים – הוא השיג רק 11%.
דגם o1 קיבל ציון גבוה מאוד של 89%, שזה שיפור ענק בתחרות שמצריכה פתרון בעיות קוד מורכבות בזמן אמת.

שאלות ברמת דוקטורט (PhD) במדעים (GPQA Diamond):
GPT-4o השיג 56.1% בשאלות מדעיות מסובכות ברמה אקדמית מתקדמת.
דגם o1 הצליח להגיע ל-78%, מה שמראה שהוא טוב יותר אפילו מאדם מומחה (שהצליח רק ב-69.7%).

2. מבחנים במערכות למידת מכונה (ML Benchmarks):

יש כאן סדרה של מבחנים שמודדים את יכולות הבינה המלאכותית במתמטיקה, בפתרון בעיות מבוססות טקסט, ובהבנה של מערכות מורכבות.

ב-MATH-500, למשל, GPT-4o השיג 60.3%, אבל דגם o1 קיבל ציון מדהים של 94.8%.
ב-MMLU, מבחן רחב נוסף, GPT-4o קיבל 88%, בעוד ש-dgmo o1 שיפר והגיע ל-92.3%.

3. שאלות מדעיות ברמת PhD (GPQA Diamond):

מדובר בבחינות בתחומים כמו כימיה, פיזיקה, וביולוגיה, שנשאלות ברמה אקדמית גבוהה (ברמת דוקטורט).

בכימיה, לדוגמה, GPT-4o קיבל 40.2%, בעוד ש-dgmo o1 השיג שיפור משמעותי והגיע ל-64.7%.

בפיזיקה הביצועים של o1 היו גם טובים יותר, כאשר הוא קיבל 92.8% בהשוואה ל-GPT-4o עם 59.5%.

בביולוגיה, דגם o1 קיבל ציון של 69.2%, הרבה יותר טוב מ-GPT-4o שקיבל 61.6%.

4. מבחני השכלה כללית (Exams):

כאן נמדדו היכולות של שני הדגמים במבחנים אקדמיים כמו מבחן AP, SAT ו-LSAT.

לדוגמה, במבחן AP English Literature, דגם GPT-4o קיבל 68.7%, בעוד ש-dgmo o1 שיפר מעט וקיבל 69%.

במבחנים אחרים, כמו AP Physics 2, דגם o1 הגיע ל-89%, הרבה מעל 69% של GPT-4o.

במבחן SAT במתמטיקה, o1 היה מדויק לגמרי עם ציון של 100%, בעוד ש-GPT-4o קיבל ציון דומה של 100%, אבל מדובר בבחינה יחסית פשוטה.

5. קטגוריות של מבחן MMLU:

מדובר במבחנים שבוחנים ידע בתחומים שונים כמו לוגיקה פורמלית, יחסי ציבור, כלכלה, מוסר, ועוד. כאן רואים ש-dgmo o1 משפר את התוצאות ברוב הקטגוריות.

לדוגמה, בתחום של מוסר, o1 קיבל 85.8%, בעוד ש-GPT-4o קיבל 80%.

בקטגוריות אחרות, כמו יחסי ציבור, o1 קיבל 75%, שוב הרבה יותר טוב מ-GPT-4o.

סיכום:

דגם o1 מציג שיפורים משמעותיים כמעט בכל תחום שנבדק בהשוואה ל-GPT-4o, במיוחד בתחומים שדורשים חשיבה עמוקה, פתרון בעיות מתמטיות מורכבות, ותשובות לשאלות מדעיות ברמה אקדמית גבוהה. הביצועים של o1 קרובים מאוד, ולעיתים עוקפים, את הביצועים של מומחים אנושיים בתחומים מסוימים.

בנוסף, השיפור שנראה בתמונה מתמקד בכך ש-o1 מצליח להיות יותר מדויק, להבין תהליכים מורכבים בצורה טובה יותר, ולספק תשובות ברורות ומהירות יותר, מה שיכול להפוך אותו לכלי יותר שימושי בתחומים כמו תחרויות מתמטיקה, פיזיקה, קידוד, והבנה מדעית רחבה.

מידע נוסף:

הכנסו לבלוג שלי למאמרים ותגליות נוספות

יעקב11

@NH-LOCAL איך מגיעים אליו?

NH.LOCAL

@יעקב11 דרך צ'אט GPT. אך כרגע זה זמין רק למנויים בתשלום, עם מגבלה של עד 30-50 הודעות בשבוע

יעקב11

@NH-LOCAL יש לי בתשלום, ולא מופיע לי.

NH.LOCAL

@יעקב11 זה שוחרר רק לפני 4 שעות. סביר להניח שתקבל את זה בשעות הקרובות או מחר

רק כשזה מגיע, תיזהר לא לבזבז את המכסה שלך אל שטויות - אלא תשאל שאלות קשות באמת! (נשמח לראות כאן דוגמאות לפתרון בעיות כמו חידות מורכבות, סודוקו, תשבץ וכו')

יעקב11

@NH-LOCAL כי הודעה מהם קיבלתי, מי שזה מעניין אותו.
Hi there,

Today we announced our new series of models, OpenAI o1. We’ve developed these models to spend more time thinking before they respond. They can reason through complex tasks and solve harder problems than previous models in science, coding, and math. Read more in our blog post.

You can try the o1 beta in ChatGPT Plus. We’re rolling out two models:

Our larger model, o1-preview, which has strong reasoning capabilities and broad world knowledge.
Our smaller model, o1-mini, which is faster and is competitive with o1-preview at coding tasks (you can see how it performs here).

These models aren’t available in the API for your account while we’re in this short beta period. (Developers on usage tier 5 will have access, but we’ll expand access to more tiers.) We’re continuing to improve o1 and we’ll be in touch as soon as it’s available to you in the API.

Best,
The OpenAI team

יעקב11

קיבלתי אותו, מישהו רוצה לנסות משהו?

יעקב11

הוא מעדכן אותך איך הוא חושב

NH.LOCAL

@יעקב11 זו שאלה מאוד פשוטה שגם המודלים הקודמים ידעו להתמודד אתה
כדאי לשאול חידות היגיון מורכבות בשביל לבחון את היכולות שלו

אני ממליץ לשאול כל שאלה את המודל הרגיל ואם הוא טועה - לבדוק אם המודל החדש כן מצליח

sivan22

@NH-LOCAL בעיני זה מאד מרשים כמה זה פשוט: הוא בהתחלה מדבר הרבה מאד עם עצמו, ובסוף הוא מחליט מה להגיד לך. או בעברית פשוטה: הוא חושב... הם מציינים שכמות הטוקנים שהוא מדבר לעצמו יכולה לנוע בין מאות בודדות לדברים פשוטים לעשרות אלפים לשאלות ממש קשות.

NH.LOCAL

@sivan22 זה לא ממש מדויק. למעשה openai אמרו שהם מסתירים את שרשרת החשיבה האמיתית שלו כדי למנוע העתקה על ידי המתחרים. מה שרואים במהלך החשיבה הוא למעשה סוג של סיכום שמודל חיצוני נותן (אולי אפילו gpt4o)

sivan22

@NH-LOCAL התכוונתי שבסוף זה מודל כמו כל מודל, כלומר מקבל סדרה של טוקנים ופולט טוקן. רק שאימנו אותו קודם כל לחשוב, דהיינו לפלוט טוקנים שלא מיועדים למשתמש אבל כן חוזרים כמובן למודל, ורק בסוף הטוקנים האחרונים מגיעים למשתמש.

NH.LOCAL

@sivan22 אז ניסיתי את המודל החדש, את הגרסה הפחות טובה ליתר דיוק - o1 mini. ואין ספק שמדובר בשדרוג מדהים, שהולך לשבור את השוק. זה שווה 20$ לחודש בלי שום ספק! (אם כי כרגע מגבלת ההודעות היא נוראית. כ-30 עד 50 לשבוע!)

הוא הצליח באופן יוצא מהכלל בפתרון בעיה פשוטה עם תשובה מידית:
זה המודל היחיד שהצליח ליצור לי כבר בניסיון הראשון משחק סולמות ונחשים בקוד HTML.
כלל המודלים המובילים בשוק (עד היום...) - קלוד 3.5, gpt4o, gemini pro 1.5 נכשלו כישלון מוחץ.
מודל o1-mini לעומתם, יצר קוד תקין באופן מיידי.
(אם כי מבדיקה חוזרת - gpt4o גם הצליח ליצור קוד תקין לאחר שכשניסיתי זאת בעבר הוא נכשל שוב ושוב)

הוא היה יוצא מהכלל גם בסקירת קוד ארוך ומורכב (כ-750 שורות!):
הוא נתן שורת תיקונים ושיפורים המחשבת את הקוד עם כל מורכבתו, כולל שימת לב לפרטים קטנים.
אך בפועל מודל ה-o1 mini יצר שגיאות די טיפשיות בקוד. מודל ה-preview יצר קוד תקני.
gpt4o נתן תשובה חלקית למדי, ו-gpt4 היה אפילו גרוע יותר

עריכה: חשוב לציין שעדיין יש לו מגבלות היגיון בניתוח כמויות נתונים גדולות מאוד

NH.LOCAL

ניסיון מעניין עם המודל בפתירת חידות:

gpt 4o צדק ב-2 מתוך 6 שאלות, ובשאלה אחת נוספת הוא ניחש למחצה את התשובה.

o1 mini צדק רק בשאלה 1 ולמעשה בלבל לגמרי את השכל בכל השאר.

o1 preview צדק ב-4 שאלות וניחש למחצה את שתי התשובות הנוספות.

המעניין הוא לראות את שרשרת המחשבה של מודל o1 שהובילה אותו לתשובה הכושלת אחרי 46 שניות!

https://chatgpt.com/share/66e3c4ab-ee2c-800d-b172-98c3ccc18f68

שמואל5

@יעקב11 כתב בהסבר | הי, עצור! עידן AI חדש לפניך!:

קיבלתי אותו, מישהו רוצה לנסות משהו?

אשמח אם תוכל להעלות לו את זה-שאלון-35481.zip

מויטיו

@NH-LOCAL שלשת הקישורים מגיעים לאותו המודל.

NH.LOCAL

@מויטיו כתב בהסבר | הי, עצור! עידן AI חדש לפניך!:

@NH-LOCAL שלשת הקישורים מגיעים לאותו המודל.

צודק. טעות שלי. שאלתי את אותה השאלה לשלושת המודלים באותו השרשור, אז בכל פעם שביצעתי שיתוף - זה החליף למעשה את התוכן הקודם... (כעת הגדרתי שהוא יציג את התשובה המשובשת של מודל המיני בלבד)

NH.LOCAL

@שמואל5 כתב בהסבר | הי, עצור! עידן AI חדש לפניך!:

@יעקב11 כתב בהסבר | הי, עצור! עידן AI חדש לפניך!:

קיבלתי אותו, מישהו רוצה לנסות משהו?

אשמח אם תוכל להעלות לו את זה-שאלון-35481.pdf

לא ניתן לגשת לקובץ בנטפרי. תעלה אותו בקובץ זיפ

שמואל5

@NH-LOCAL שאלון-35481.zip

NH.LOCAL

@שמואל5 יש לך את התשובות? כי כל העניין זה לבדוק אם הוא אכן צודק...

לפי איך שזה נראה, המודל החדש הולך לגרום כאב ראש רציני למשרד החינוך...
לימודי ליבה הופכים לדבר מיותר...

עריכה: על השאלות שלא כוללות שרטוטים, אפילו gpt4o ידע לענות. את השאלות האחרות אין אפשרות להעתיק בצורה תקינה, ולכן המודל כמובן לא יכול לענות עליהם