סקר | מהו הצ'אט AI המועדף עליך?

המלאך

@א.מ.ד. כתב בסקר | מהו הצ'אט AI המועדף עליך?:

קודם כל היה באמצע את GPT 4 אבל זה לא חשוב עכשיו.
בכל מקרה, באמת אז הגיעו לתקרת הזכוכית מבחינת נתונים אנושיים, וזה בדיוק מחזק את מה שכתבתי - שמאז השימוש בנתונים סינטטיים תופס חלק גדול מאוד מנתוני האימון.
עניין מודלי החשיבה פחות רלוונטי, כי מדובר בסך הכל בכוונון לצ'אט. עיקר העבודה היא באימון המקדים. הנתונים המשמשים לאימון לצ'אט הם בערך 1% בלבד מסך הנתונים. השיפור במודלים החדשים הוא בעיקר באימון המקדים ופחות בצורת החשיבה, למרות שגם זה קצת משפיע, כך שעדיין זקוקים לנתונים סינטטיים רבים.

מודלי חשיבה שינו הרבה יותר מכיוונון בצאט.
הם שינו בScaling.
פרט לכך.
על אף שהPost-training קטנים. האיכות שלהם היא זו ש(לדעתי) מכפילה את החוכמה של המודל.
הוא כפשוטו נהפך מטיפש לחכם.
ממש לא נראה לי שזה רק יותר דאטה..

א.מ.ד.

@המלאך כתב בסקר | מהו הצ'אט AI המועדף עליך?:

כוונתי לסיבה שהם הפתיעו את המערביים בהתחלה. (הם אלו שהשתמשו בהתחלה בזה..).

לא נכון. הראשונים שהשתמשו בזה הם המערב - מודל מיקסטרל של חברת מיסטרל הצרפתית, ומיד זה הפך לסטנדרט בתעשיית ה-AI. החברות הסגורות לא מנדבות מידע טכני על המודלים שלהם, אבל אפילו גרוק 2 המיושן ששוחרר בקוד פתוח כבר היה MoE.

@המלאך כתב בסקר | מהו הצ'אט AI המועדף עליך?:

מודלי חשיבה שינו הרבה יותר מכיוונון בצאט.
הם שינו בScaling.
פרט לכך.
על אף שהPost-training קטנים. האיכות שלהם היא זו ש(לדעתי) מכפילה את החוכמה של המודל.
הוא כפשוטו נהפך מטיפש לחכם.
ממש לא נראה לי שזה רק יותר דאטה..

ברור שזה לא רק דאטה, אבל רוב השיפור נובע משיפור באימון המקדים, שמורכב מכמות גדולה של נתונים סינטטיים.
כיום חלק גדול מהאימון המקדים מתבצע כבר על זוגות של שאלות ותשובות בפורמט צ'אט עם חשיבה כמובן, שזה ודאי סינטטי.

י. פל.

@א.מ.ד. כתב בסקר | מהו הצ'אט AI המועדף עליך?:

הסינים מקבלים סיוע עצום מהממשלה הסינית, כוח העבודה זול בהרבה

אין לי מה להגיב על מה שכתבת - למרות שתייגת... זה יחזור ע״ע בלופ.
אתה טוען שהשינוי באימון הוא הנתונים הסינטטיים. אני חושש שאתה טועה, אבל לא יודע לומר כלום בוודאות.

רק לגבי הפיסקה שציטטתי: בזה אתה טועה, העובדה היא עובדה, וניתנת שלחזור (כי הכל פתוח, גם מערכי הנתונים וגם קוד האימון וכולי): האימון שלהם זול מאוד, ללא קשר לממשל.

א.מ.ד.

@י.-פל. כתב בסקר | מהו הצ'אט AI המועדף עליך?:

רק לגבי הפיסקה שציטטתי: בזה אתה טועה, העובדה היא עובדה, וניתנת שלחזור (כי הכל פתוח, גם מערכי הנתונים וגם קוד האימון וכולי): האימון שלהם זול מאוד, ללא קשר לממשל.

שום דבר לא פתוח חוץ מהמשקלים של המודל. אין איך לשחזר את העבודה שלהם.
ולגבי הסיוע מהממשל, הוא לא מתבטא רק בכסף פיזי אלא בסבסוד משמעותי בעלות המים והחשמל האדירה הנדרשת לקירור חוות השבבים שהמודלים מאומנים בהם. זה בהחלט מחושב בתוך עלות האימון, ואפילו זה כמעט כל העלות.

י. פל.

@א.מ.ד. כתב בסקר | מהו הצ'אט AI המועדף עליך?:

שום דבר לא פתוח חוץ מהמשקלים של המודל. אין איך לשחזר את העבודה שלהם.

הכל שוחזר בhuggingface.

א.מ.ד.

@י.-פל. כתב בסקר | מהו הצ'אט AI המועדף עליך?:

הכל שוחזר בhuggingface.

איך בדיוק? זה קוד סגור... רק המשקלים פתוחים... אין איך לשחזר אא"כ מישהו הדליף הכל מתוך החברה, שעל זה היינו שומעים...

י. פל.

@א.מ.ד. כתב בסקר | מהו הצ'אט AI המועדף עליך?:

אין איך לשחזר

תחפש בבקשה Open-R1.
אין לי טעם להתווכח אתך: כנראה אתה יודע יותר ממני.
אבל אני חושב שאתה לא יודע הכל (לא שמישהו יודע...), ויתכן שאתה מפספס הרבה בדרך.
הראיה הגדולה, שאתה משתמש בג'מיני הטיפש לקוד
אגב, מוזר ש @sivan22 ו @nh.local לא הגיבו פה בכלל!!!

מתכנת חובב

@א.מ.ד. כתב בסקר | מהו הצ'אט AI המועדף עליך?:

ברור שזה לא רק דאטה, אבל רוב השיפור נובע משיפור באימון המקדים, שמורכב מכמות גדולה של נתונים סינטטיים.
כיום חלק גדול מהאימון המקדים מתבצע כבר על זוגות של שאלות ותשובות בפורמט צ'אט עם חשיבה כמובן, שזה ודאי סינטטי.

אתה כנראה מתכוון למה שנקרא mid training
כי אימון מודל בסיס על נתונים סינטטיים יוביל למודל גרוע
בדיוק השבוע יצא לי לקרוא כמה מאמרים על זה
נושא מבלבל ממש

א.מ.ד.

@מתכנת-חובב צריך לשלב הרבה נתונים סינטטיים. לא הייתי קורא למודלי qwen 3.5 מודלים גרועים (למעשה הם הטובים ביותר במשקלים פתוחים), והם אומנו בעיקר על נתונים סינטטיים.
אימון אמצע מורכב בדרך כלל מנתונים סינטטיים, וזה מה שנותן להם את האיכות.
אין חולק שנתונים סינטטיים נחשבים איכותיים יותר. כל מי שמתעסק בתחום יודע את זה. אבל כמו כל דבר טוב, אי אפשר יותר מידי כי זה מזיק. לכן זה איפשהו באמצע - 50% מהנתונים בערך הם סינטטיים, ומשתמשים בהם בעיקר באימון האמצעי אבל לא רק.

א.מ.ד.

@י.-פל. כתב בסקר | מהו הצ'אט AI המועדף עליך?:

תחפש בבקשה Open-R1.

אתה צוחק?
זה פרוייקט שמזקק נתונים מתוך דיפסיק R1 המקורי, ומנסה לשחזר את האימון לפי הדו"ח הטכנולוגי של דיפסיק...
אני לא יודע אם לקרוא לזה גימיק או קוריוז...
אתה יכול באותה מידה בדיוק "לשחזר" את אופוס 4.7...

מתכנת חובב

@א.מ.ד. גם בשלב ה pre training?
מוזר מאוד
אפשר מקורות?
באופן כללי מה שכתבת קצת מוזר
על פי מה שקראתי גם בשלב אימון האמצע לא משתמשים ביותר מידי נתונים סטטיסטיים אלא אם כן רוצים לחזק יכולות ספציפיות ותוך שימוש בשיטות מורכבות יחסית כמו שעשו ב phi4
בשלב אימון הבסיס אם משתמשים בנתונים סינטטיים זה מידע שעבר rephrasing ולא מידע שמקורו סינטטי
כמו כן למה אתה חושב שמידי סינטטי הוא טוב יותר? (אלא אם כן אתה מתכוון לעובדה שאפשר לייצר מידע סינטטי מסודר ובאיכות יחסית גם אם נגמרו מאגרי המידע האיכותי הלא סינטטי אבל אז זה לא שהוא איכותי אלא שהוא פשוט יותר טוב מכלום)

המלאך

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

. גם בשלב ה pre training?
מוזר מאוד
אפשר מקורות?

אכן. גם בשלב באימון המקדים משתמשים כיום בדאטה מזוקק.
דאטה מזוקק יעיל הרבה יותר בכמות קטנה יותר מדאטה לא מזוקק.
מאמר מעניין שראיתי בנושא.

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

כמו כן למה אתה חושב שמידי סינטטי הוא טוב יותר? (אלא אם כן אתה מתכוון לעובדה שאפשר לייצר מידע סינטטי מסודר ובאיכות יחסית גם אם נגמרו מאגרי המידע האיכותי הלא סינטטי אבל אז זה לא שהוא איכותי אלא שהוא פשוט יותר טוב מכלום)

העניין הוא שישנה מגבלה טכנית.
כל הטקסטים באינטרנט נגמרו.
דאטה סינטטי רגיל יעיל בגלל האיכות שלו.
אבל עיקר החיסרון הוא הלולאה שנוצרת כמו שאמרתי לעיל.
ככל שמשתמשים יותר בדאטה סינטטי דברים יותר נדירים נעלמים. [המודל חושב הסתברותית כן? - פחות רואה באימון את הדבר הנדיר - פחות מסתבר בשבילו להגיב אותו בצאט.]

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

על פי מה שקראתי גם בשלב אימון האמצע לא משתמשים ביותר מידי נתונים סטטיסטיים אלא אם כן רוצים לחזק יכולות ספציפיות ותוך שימוש בשיטות מורכבות יחסית כמו שעשו ב phi4

כך היה בעבר.
כיום הטקסט האנושי כאמור נגמר.
[לפחות לא האלה בתשלום. - דרך אגב גם בתשלום הבנתי שהחברות כבר קונות]
אין דרך אחרת טכנית לעקוף את המגבלה מלבד נתונים סינטטיים.
אבל וודאי שזה כאמור יגרום לירידה ביצירתיות וכו'..

מתכנת חובב

@המלאך כתב בסקר | מהו הצ'אט AI המועדף עליך?:

אכן. גם בשלב באימון המקדים משתמשים כיום בדאטה מזוקק.
דאטה מזוקק יעיל הרבה יותר בכמות קטנה יותר מדאטה לא מזוקק.
מאמר מעניין שראיתי בנושא.

מה? הבנת על מה הפוסט הזה מדבר? (ואגב זה לא מאמר)

@המלאך כתב בסקר | מהו הצ'אט AI המועדף עליך?:

העניין הוא שישנה מגבלה טכנית.
כל הטקסטים באינטרנט נגמרו.
דאטה סינטטי רגיל יעיל בגלל האיכות שלו.
אבל עיקר החיסרון הוא הלולאה שנוצרת כמו שאמרתי לעיל.
ככל שמשתמשים יותר בדאטה סינטטי דברים יותר נדירים נעלמים. [המודל חושב הסתברותית כן? - פחות רואה באימון את הדבר הנדיר - פחות מסתבר בשבילו להגיב אותו בצאט.]

מה חידשת על מה שכתבתי?

@המלאך כתב בסקר | מהו הצ'אט AI המועדף עליך?:

כך היה בעבר.
כיום הטקסט האנושי כאמור נגמר.
[לפחות לא האלה בתשלום. - דרך אגב גם בתשלום הבנתי שהחברות כבר קונות]
אין דרך אחרת טכנית לעקוף את המגבלה מלבד נתונים סינטטיים.
אבל וודאי שזה כאמור יגרום לירידה ביצירתיות וכו'..

לא יודע על מה אתה מסתמך
אני הסתמכתי על המקורות האלו

מחקר של HF
דו"ח של מיקרוסופט על Phi-4
אחד המאמרים המרכזיים בתחום
מאמר נוסף
שני האחרונים נכתבו בעיקר על ידי חוקרים ממטא
הם מורכבים ממש אבל מספיק לקרוא רק את ה abstract שלהם כדי להבין

י.ר.ק

@חובבן-מקצועי בחתול השחור העלו את הסקר שלך פה

המלאך

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

מה? הבנת על מה הפוסט הזה מדבר? (ואגב זה לא מאמר)

לא באתי להביא מקורות.
סתם משהו מעניין בנושא שראיתי.

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

לא יודע על מה אתה מסתמך

על כל מה שאני רואה באינטרנט בנושא.
כן.
ראיתי גם את האלה ממטא.

אפשר בקשה קטנה? קצת יותר לכבד.
יש לי קצת ידע בנושא.
יש לי דעה ומותר לי להגיד אותה.
לא אהדתי את הנימה שהתייחסת אלי.

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

מה חידשת על מה שכתבתי?

שגם באימון המקדים משתמשים במידע מזוקק.

מתכנת חובב

@המלאך
א. המאמר ההוא לא בנושא הזה - מאמר על שימוש בבינה מלאכותית לצורך זיהוי שרפות היה רלוונטי באותה מידה
ב. נשמח למקורות שיתמכו במה שאמרת כי הנ"ל טענו אחרת

ג. אם תכבד יכבדו אותך - אם היית קורא ברצינות את הפוסט שלי היית מבין שאני יודע על מה אני מדבר ואין צורך להסביר לי כאילו היום שמעתי מה זה chatGPT - זה קצת פוגע כשמסבירים ככה
אמנם זה אגו אבל עדיין טבע האדם

ד. שוב, אם אתה מדבר עם ה pre training אתה טועה או לא מדייק - לא מצאתי עדויות לזה שמידע מזוקק משמש באימון הזה ולהיפך - כל מה שמצאתי טוען שהמקסימום זה מידע אמיתי שעבר ניסוח מחודש

המלאך

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

נשמח למקורות שיתמכו במה שאמרת כי הנ"ל טענו אחרת

לא כך הבנתי מהם.
אבל ייתכן.
בכל מקרה.
הנה:
https://hyper.ai/en/papers/2508.10975
והנה:
https://huggingface.co/papers/2509.01649?.com

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

. אם תכבד יכבדו אותך - אם היית קורא ברצינות את הפוסט שלי היית מבין שאני יודע על מה אני מדבר ואין צורך להסביר לי כאילו היום שמעתי מה זה chatGPT - זה קצת פוגע כשמסבירים ככה
אמנם זה אגו אבל עדיין טבע האדם

אם כך אבקש מחילה.
אני מאוד מכבד ומעריך אותך.
לרגע לא חשבתי שאתה לא יודע את זה..

מתכנת חובב

~~@המלאך הקישור הראשון למיטב הבנתי לא מדבר על זה (אם כי קראתי רק את התקציר)~~
השני נראה מעניין - אני קורא אותו עכשיו
תודה

יעקב ישראל

@המלאך האם השתמשת בAntigravity ?

המלאך

@יעקב-ישראל האמת? אתמול ממש הורדתי אותו.
אבל נתקעתי בהתחברות לחשבון גוגל.
חיפשתי וראיתי שהרבה מתלוננים על זה.
וגוגל עצמה אמרה שהיא מתכננת להוציא עדכון שיטפל.
בינתיים אני מחכה.