הסבר | הי, עצור! עידן AI חדש לפניך!

יעקב11

@NH-LOCAL כי הודעה מהם קיבלתי, מי שזה מעניין אותו.
Hi there,

Today we announced our new series of models, OpenAI o1. We’ve developed these models to spend more time thinking before they respond. They can reason through complex tasks and solve harder problems than previous models in science, coding, and math. Read more in our blog post.

You can try the o1 beta in ChatGPT Plus. We’re rolling out two models:

Our larger model, o1-preview, which has strong reasoning capabilities and broad world knowledge.
Our smaller model, o1-mini, which is faster and is competitive with o1-preview at coding tasks (you can see how it performs here).

These models aren’t available in the API for your account while we’re in this short beta period. (Developers on usage tier 5 will have access, but we’ll expand access to more tiers.) We’re continuing to improve o1 and we’ll be in touch as soon as it’s available to you in the API.

Best,
The OpenAI team

יעקב11

קיבלתי אותו, מישהו רוצה לנסות משהו?

יעקב11

הוא מעדכן אותך איך הוא חושב

NH.LOCAL

@יעקב11 זו שאלה מאוד פשוטה שגם המודלים הקודמים ידעו להתמודד אתה
כדאי לשאול חידות היגיון מורכבות בשביל לבחון את היכולות שלו

אני ממליץ לשאול כל שאלה את המודל הרגיל ואם הוא טועה - לבדוק אם המודל החדש כן מצליח

sivan22

@NH-LOCAL בעיני זה מאד מרשים כמה זה פשוט: הוא בהתחלה מדבר הרבה מאד עם עצמו, ובסוף הוא מחליט מה להגיד לך. או בעברית פשוטה: הוא חושב... הם מציינים שכמות הטוקנים שהוא מדבר לעצמו יכולה לנוע בין מאות בודדות לדברים פשוטים לעשרות אלפים לשאלות ממש קשות.

NH.LOCAL

@sivan22 זה לא ממש מדויק. למעשה openai אמרו שהם מסתירים את שרשרת החשיבה האמיתית שלו כדי למנוע העתקה על ידי המתחרים. מה שרואים במהלך החשיבה הוא למעשה סוג של סיכום שמודל חיצוני נותן (אולי אפילו gpt4o)

sivan22

@NH-LOCAL התכוונתי שבסוף זה מודל כמו כל מודל, כלומר מקבל סדרה של טוקנים ופולט טוקן. רק שאימנו אותו קודם כל לחשוב, דהיינו לפלוט טוקנים שלא מיועדים למשתמש אבל כן חוזרים כמובן למודל, ורק בסוף הטוקנים האחרונים מגיעים למשתמש.

NH.LOCAL

@sivan22 אז ניסיתי את המודל החדש, את הגרסה הפחות טובה ליתר דיוק - o1 mini. ואין ספק שמדובר בשדרוג מדהים, שהולך לשבור את השוק. זה שווה 20$ לחודש בלי שום ספק! (אם כי כרגע מגבלת ההודעות היא נוראית. כ-30 עד 50 לשבוע!)

הוא הצליח באופן יוצא מהכלל בפתרון בעיה פשוטה עם תשובה מידית:
זה המודל היחיד שהצליח ליצור לי כבר בניסיון הראשון משחק סולמות ונחשים בקוד HTML.
כלל המודלים המובילים בשוק (עד היום...) - קלוד 3.5, gpt4o, gemini pro 1.5 נכשלו כישלון מוחץ.
מודל o1-mini לעומתם, יצר קוד תקין באופן מיידי.
(אם כי מבדיקה חוזרת - gpt4o גם הצליח ליצור קוד תקין לאחר שכשניסיתי זאת בעבר הוא נכשל שוב ושוב)

הוא היה יוצא מהכלל גם בסקירת קוד ארוך ומורכב (כ-750 שורות!):
הוא נתן שורת תיקונים ושיפורים המחשבת את הקוד עם כל מורכבתו, כולל שימת לב לפרטים קטנים.
אך בפועל מודל ה-o1 mini יצר שגיאות די טיפשיות בקוד. מודל ה-preview יצר קוד תקני.
gpt4o נתן תשובה חלקית למדי, ו-gpt4 היה אפילו גרוע יותר

עריכה: חשוב לציין שעדיין יש לו מגבלות היגיון בניתוח כמויות נתונים גדולות מאוד

NH.LOCAL

ניסיון מעניין עם המודל בפתירת חידות:

gpt 4o צדק ב-2 מתוך 6 שאלות, ובשאלה אחת נוספת הוא ניחש למחצה את התשובה.

o1 mini צדק רק בשאלה 1 ולמעשה בלבל לגמרי את השכל בכל השאר.

o1 preview צדק ב-4 שאלות וניחש למחצה את שתי התשובות הנוספות.

המעניין הוא לראות את שרשרת המחשבה של מודל o1 שהובילה אותו לתשובה הכושלת אחרי 46 שניות!

https://chatgpt.com/share/66e3c4ab-ee2c-800d-b172-98c3ccc18f68

שמואל5

@יעקב11 כתב בהסבר | הי, עצור! עידן AI חדש לפניך!:

קיבלתי אותו, מישהו רוצה לנסות משהו?

אשמח אם תוכל להעלות לו את זה-שאלון-35481.zip

מויטיו

@NH-LOCAL שלשת הקישורים מגיעים לאותו המודל.

NH.LOCAL

@מויטיו כתב בהסבר | הי, עצור! עידן AI חדש לפניך!:

@NH-LOCAL שלשת הקישורים מגיעים לאותו המודל.

צודק. טעות שלי. שאלתי את אותה השאלה לשלושת המודלים באותו השרשור, אז בכל פעם שביצעתי שיתוף - זה החליף למעשה את התוכן הקודם... (כעת הגדרתי שהוא יציג את התשובה המשובשת של מודל המיני בלבד)

NH.LOCAL

@שמואל5 כתב בהסבר | הי, עצור! עידן AI חדש לפניך!:

@יעקב11 כתב בהסבר | הי, עצור! עידן AI חדש לפניך!:

קיבלתי אותו, מישהו רוצה לנסות משהו?

אשמח אם תוכל להעלות לו את זה-שאלון-35481.pdf

לא ניתן לגשת לקובץ בנטפרי. תעלה אותו בקובץ זיפ

שמואל5

@NH-LOCAL שאלון-35481.zip

NH.LOCAL

@שמואל5 יש לך את התשובות? כי כל העניין זה לבדוק אם הוא אכן צודק...

לפי איך שזה נראה, המודל החדש הולך לגרום כאב ראש רציני למשרד החינוך...
לימודי ליבה הופכים לדבר מיותר...

עריכה: על השאלות שלא כוללות שרטוטים, אפילו gpt4o ידע לענות. את השאלות האחרות אין אפשרות להעתיק בצורה תקינה, ולכן המודל כמובן לא יכול לענות עליהם

שמואל5

@NH-LOCAL כתב בהסבר | הי, עצור! עידן AI חדש לפניך!:

יש לך את התשובות?

וודאי-35481-פתרונות-סופיים-1.zip

מויטיו

@NH-LOCAL מעניין מה יקרה במהלך החשיבה שלו כאשר תטיח בו עלבון, או משהו רגשי.
מעניין לראות איך המודלים מתמודדים עם זה, והאם באמת לא אכפת להם והם לא מבינים ומרגישים כלום או שיש להם מעצור מלהגיב.....

NH.LOCAL

@מויטיו תהליך החשיבה שמוצג הוא לא באמת התהליך המקורי, אלא רק סוג של סיכום שנשלח למשתמש. אבל די משעשע לראות איך הוא מסביר לעצמו ש-OPENAI לא מסכימה ליצור קוד מסוג מסויים, ולכן הוא יצור קוד אחר וכן הלאה והלאה

בכל מקרה, מודלי שפה מחקים את סגנון ההתבטאות האנושית. לכן, בלי מעצורים מלאכותיים, המודל היה אמור להגיב כאילו הוא מרגיש. זה לא אומר שבאמת יש לו רגשות, אלא הוא בסך הכל חקיין טוב של דיבור אנושי

מויטיו

@NH-LOCAL כתב בהסבר | הי, עצור! עידן AI חדש לפניך!:

בכל מקרה, מודלי שפה מחקים את סגנון ההתבטאות האנושית. לכן, בלי מעצורים מלאכותיים, המודל היה אמור להגיב כאילו הוא מרגיש. זה לא אומר שבאמת יש לו רגשות, אלא הוא בסך הכל חקיין טוב של דיבור אנושי

אם באמת המודל הזה משתמש במושג חשיבה זה אומר שיש לו מודע ותת מודע
א”כ הוא אמור להגיב לרגשות כמו שבני אדם מגיבים - להרגיש
כשתעמיק בדבר תראה שה’אני’ של האדם קיים בגלל המודע שלו ולא אמורה להיות בעיה גדולה לחקות את זה
גם אצל אדם רגשות זו תגובה סטטיסטית של הבנת המוח שאירוע מסויים שייך לצד הלא טוב של הספקטרום ולכן ה’אני’ מרגיש משהו לא טוב ומתרגם את הרגש לרגש ספציפי,
אם אכן למודל שפה יש ספקטרום של טוב ורע ומודע ותת מודע הוא אמור להרגיש בדיוק כמוני וכמוך.
כמ”ש בחז”ל שרגשות זה עניין גשמי
תנו רבנן כליות יועצות לב מבין לשון מחתך פה גומר ושט מכניס ומוציא כל מיני מאכל קנה מוציא קול ריאה שואבת כל מיני משקין כבד כועס מרה זורקת בו טפה ומניחתו טחול שוחק

שמואל5

@NH-LOCAL כתב בהסבר | הי, עצור! עידן AI חדש לפניך!:

עריכה: על השאלות שלא כוללות שרטוטים, אפילו gpt4o ידע לענות. את השאלות האחרות אין אפשרות להעתיק בצורה תקינה, ולכן המודל כמובן לא יכול לענות עליהם

אתה יכול פשוט להעלות לו את כל הקובץ

הסבר | הי, עצור! עידן AI חדש לפניך!

חברת OPENAI שחררו מודל חדש ניסיוני בשם O1!

הסבר מפורט על הגרפים

1. מבחני תחרויות חשיבה:

2. מבחנים במערכות למידת מכונה (ML Benchmarks):

3. שאלות מדעיות ברמת PhD (GPQA Diamond):

4. מבחני השכלה כללית (Exams):

5. קטגוריות של מבחן MMLU:

סיכום:

מידע נוסף:

הכנסו לבלוג שלי למאמרים ותגליות נוספות