סקר | מהו הצ'אט AI המועדף עליך?

מתכנת חובב

@א.מ.ד. כתב בסקר | מהו הצ'אט AI המועדף עליך?:

ברור שזה לא רק דאטה, אבל רוב השיפור נובע משיפור באימון המקדים, שמורכב מכמות גדולה של נתונים סינטטיים.
כיום חלק גדול מהאימון המקדים מתבצע כבר על זוגות של שאלות ותשובות בפורמט צ'אט עם חשיבה כמובן, שזה ודאי סינטטי.

אתה כנראה מתכוון למה שנקרא mid training
כי אימון מודל בסיס על נתונים סינטטיים יוביל למודל גרוע
בדיוק השבוע יצא לי לקרוא כמה מאמרים על זה
נושא מבלבל ממש

א.מ.ד.

@מתכנת-חובב צריך לשלב הרבה נתונים סינטטיים. לא הייתי קורא למודלי qwen 3.5 מודלים גרועים (למעשה הם הטובים ביותר במשקלים פתוחים), והם אומנו בעיקר על נתונים סינטטיים.
אימון אמצע מורכב בדרך כלל מנתונים סינטטיים, וזה מה שנותן להם את האיכות.
אין חולק שנתונים סינטטיים נחשבים איכותיים יותר. כל מי שמתעסק בתחום יודע את זה. אבל כמו כל דבר טוב, אי אפשר יותר מידי כי זה מזיק. לכן זה איפשהו באמצע - 50% מהנתונים בערך הם סינטטיים, ומשתמשים בהם בעיקר באימון האמצעי אבל לא רק.

א.מ.ד.

@י.-פל. כתב בסקר | מהו הצ'אט AI המועדף עליך?:

תחפש בבקשה Open-R1.

אתה צוחק?
זה פרוייקט שמזקק נתונים מתוך דיפסיק R1 המקורי, ומנסה לשחזר את האימון לפי הדו"ח הטכנולוגי של דיפסיק...
אני לא יודע אם לקרוא לזה גימיק או קוריוז...
אתה יכול באותה מידה בדיוק "לשחזר" את אופוס 4.7...

מתכנת חובב

@א.מ.ד. גם בשלב ה pre training?
מוזר מאוד
אפשר מקורות?
באופן כללי מה שכתבת קצת מוזר
על פי מה שקראתי גם בשלב אימון האמצע לא משתמשים ביותר מידי נתונים סטטיסטיים אלא אם כן רוצים לחזק יכולות ספציפיות ותוך שימוש בשיטות מורכבות יחסית כמו שעשו ב phi4
בשלב אימון הבסיס אם משתמשים בנתונים סינטטיים זה מידע שעבר rephrasing ולא מידע שמקורו סינטטי
כמו כן למה אתה חושב שמידי סינטטי הוא טוב יותר? (אלא אם כן אתה מתכוון לעובדה שאפשר לייצר מידע סינטטי מסודר ובאיכות יחסית גם אם נגמרו מאגרי המידע האיכותי הלא סינטטי אבל אז זה לא שהוא איכותי אלא שהוא פשוט יותר טוב מכלום)

המלאך

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

. גם בשלב ה pre training?
מוזר מאוד
אפשר מקורות?

אכן. גם בשלב באימון המקדים משתמשים כיום בדאטה מזוקק.
דאטה מזוקק יעיל הרבה יותר בכמות קטנה יותר מדאטה לא מזוקק.
מאמר מעניין שראיתי בנושא.

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

כמו כן למה אתה חושב שמידי סינטטי הוא טוב יותר? (אלא אם כן אתה מתכוון לעובדה שאפשר לייצר מידע סינטטי מסודר ובאיכות יחסית גם אם נגמרו מאגרי המידע האיכותי הלא סינטטי אבל אז זה לא שהוא איכותי אלא שהוא פשוט יותר טוב מכלום)

העניין הוא שישנה מגבלה טכנית.
כל הטקסטים באינטרנט נגמרו.
דאטה סינטטי רגיל יעיל בגלל האיכות שלו.
אבל עיקר החיסרון הוא הלולאה שנוצרת כמו שאמרתי לעיל.
ככל שמשתמשים יותר בדאטה סינטטי דברים יותר נדירים נעלמים. [המודל חושב הסתברותית כן? - פחות רואה באימון את הדבר הנדיר - פחות מסתבר בשבילו להגיב אותו בצאט.]

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

על פי מה שקראתי גם בשלב אימון האמצע לא משתמשים ביותר מידי נתונים סטטיסטיים אלא אם כן רוצים לחזק יכולות ספציפיות ותוך שימוש בשיטות מורכבות יחסית כמו שעשו ב phi4

כך היה בעבר.
כיום הטקסט האנושי כאמור נגמר.
[לפחות לא האלה בתשלום. - דרך אגב גם בתשלום הבנתי שהחברות כבר קונות]
אין דרך אחרת טכנית לעקוף את המגבלה מלבד נתונים סינטטיים.
אבל וודאי שזה כאמור יגרום לירידה ביצירתיות וכו'..

מתכנת חובב

@המלאך כתב בסקר | מהו הצ'אט AI המועדף עליך?:

אכן. גם בשלב באימון המקדים משתמשים כיום בדאטה מזוקק.
דאטה מזוקק יעיל הרבה יותר בכמות קטנה יותר מדאטה לא מזוקק.
מאמר מעניין שראיתי בנושא.

מה? הבנת על מה הפוסט הזה מדבר? (ואגב זה לא מאמר)

@המלאך כתב בסקר | מהו הצ'אט AI המועדף עליך?:

העניין הוא שישנה מגבלה טכנית.
כל הטקסטים באינטרנט נגמרו.
דאטה סינטטי רגיל יעיל בגלל האיכות שלו.
אבל עיקר החיסרון הוא הלולאה שנוצרת כמו שאמרתי לעיל.
ככל שמשתמשים יותר בדאטה סינטטי דברים יותר נדירים נעלמים. [המודל חושב הסתברותית כן? - פחות רואה באימון את הדבר הנדיר - פחות מסתבר בשבילו להגיב אותו בצאט.]

מה חידשת על מה שכתבתי?

@המלאך כתב בסקר | מהו הצ'אט AI המועדף עליך?:

כך היה בעבר.
כיום הטקסט האנושי כאמור נגמר.
[לפחות לא האלה בתשלום. - דרך אגב גם בתשלום הבנתי שהחברות כבר קונות]
אין דרך אחרת טכנית לעקוף את המגבלה מלבד נתונים סינטטיים.
אבל וודאי שזה כאמור יגרום לירידה ביצירתיות וכו'..

לא יודע על מה אתה מסתמך
אני הסתמכתי על המקורות האלו

מחקר של HF
דו"ח של מיקרוסופט על Phi-4
אחד המאמרים המרכזיים בתחום
מאמר נוסף
שני האחרונים נכתבו בעיקר על ידי חוקרים ממטא
הם מורכבים ממש אבל מספיק לקרוא רק את ה abstract שלהם כדי להבין

י.ר.ק

@חובבן-מקצועי בחתול השחור העלו את הסקר שלך פה

המלאך

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

מה? הבנת על מה הפוסט הזה מדבר? (ואגב זה לא מאמר)

לא באתי להביא מקורות.
סתם משהו מעניין בנושא שראיתי.

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

לא יודע על מה אתה מסתמך

על כל מה שאני רואה באינטרנט בנושא.
כן.
ראיתי גם את האלה ממטא.

אפשר בקשה קטנה? קצת יותר לכבד.
יש לי קצת ידע בנושא.
יש לי דעה ומותר לי להגיד אותה.
לא אהדתי את הנימה שהתייחסת אלי.

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

מה חידשת על מה שכתבתי?

שגם באימון המקדים משתמשים במידע מזוקק.

מתכנת חובב

@המלאך
א. המאמר ההוא לא בנושא הזה - מאמר על שימוש בבינה מלאכותית לצורך זיהוי שרפות היה רלוונטי באותה מידה
ב. נשמח למקורות שיתמכו במה שאמרת כי הנ"ל טענו אחרת

ג. אם תכבד יכבדו אותך - אם היית קורא ברצינות את הפוסט שלי היית מבין שאני יודע על מה אני מדבר ואין צורך להסביר לי כאילו היום שמעתי מה זה chatGPT - זה קצת פוגע כשמסבירים ככה
אמנם זה אגו אבל עדיין טבע האדם

ד. שוב, אם אתה מדבר עם ה pre training אתה טועה או לא מדייק - לא מצאתי עדויות לזה שמידע מזוקק משמש באימון הזה ולהיפך - כל מה שמצאתי טוען שהמקסימום זה מידע אמיתי שעבר ניסוח מחודש

המלאך

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

נשמח למקורות שיתמכו במה שאמרת כי הנ"ל טענו אחרת

לא כך הבנתי מהם.
אבל ייתכן.
בכל מקרה.
הנה:
https://hyper.ai/en/papers/2508.10975
והנה:
https://huggingface.co/papers/2509.01649?.com

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

. אם תכבד יכבדו אותך - אם היית קורא ברצינות את הפוסט שלי היית מבין שאני יודע על מה אני מדבר ואין צורך להסביר לי כאילו היום שמעתי מה זה chatGPT - זה קצת פוגע כשמסבירים ככה
אמנם זה אגו אבל עדיין טבע האדם

אם כך אבקש מחילה.
אני מאוד מכבד ומעריך אותך.
לרגע לא חשבתי שאתה לא יודע את זה..

מתכנת חובב

~~@המלאך הקישור הראשון למיטב הבנתי לא מדבר על זה (אם כי קראתי רק את התקציר)~~
השני נראה מעניין - אני קורא אותו עכשיו
תודה

יעקב ישראל

@המלאך האם השתמשת בAntigravity ?

המלאך

@יעקב-ישראל האמת? אתמול ממש הורדתי אותו.
אבל נתקעתי בהתחברות לחשבון גוגל.
חיפשתי וראיתי שהרבה מתלוננים על זה.
וגוגל עצמה אמרה שהיא מתכננת להוציא עדכון שיטפל.
בינתיים אני מחכה.

יעקב ישראל

@המלאך אני נתקלתי ביכולות מפתיעות ממש אצלי עובד חלק
אבל הוא אוכל קרדיטים לא קטן

המלאך

@יעקב-ישראל הקרדיטים אמרו לי שאם יש פרו זה בסדר.
איך טיפלת בהתחברות? היה לך חלק?

יעקב ישראל

@המלאך אני הייתי צריך לשדרג לאולטרא
כן חלק לגמרי

מתכנת חובב

@המלאך הבנתי מה פספסתי
באמת יצירת טקסטים על ידי בינה מלאכותית והזנה שלהם כקלט אימון הוא לא יעיל
המחקרים שהבאת מדברים על למידה לצד מודל קיים שבו למודל הלומד יש גישה לכל שכבת הפלט של המודל בתהליך קריאת טקסט משותף
לא היה לי זמן לעבור על הכל אז סיכמתי את זה עם ג'מיני

א.מ.ד.

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

לא יודע על מה אתה מסתמך
אני הסתמכתי על המקורות האלו

מחקר של HF
דו"ח של מיקרוסופט על Phi-4
אחד המאמרים המרכזיים בתחום
מאמר נוסף
שני האחרונים נכתבו בעיקר על ידי חוקרים ממטא
הם מורכבים ממש אבל מספיק לקרוא רק את ה abstract שלהם כדי להבין

טוב, אז שני המאמרים הראשונים דווקא טוענים בתקיפות שנתונים סינטטיים הם יעילים מאוד, והם הגורמים לקפיצה המשמעותית ביכולת המודלים בשנים האחרונות, ושהם באים לידי שימוש גם באימון המקדים וגם באימון באמצע. חסכת לי את הצורך לאתר מאמרים ספציפיים שמצדדים במה שטענתי. תודה.
שני המאמרים האחרונים טוענים שזה עשוי בסיטואציות מסוימות להביא לקריסת המודל, תלוי בסוג הנתונים, אבל שניהם נכתבו על ידי חוקרים ממטא, אז אולי מצאת את הסיבה לאי-ההצלחה של מטא בתחום ה-AI בשנתיים האחרונות.
את דעתי כתבתי אחרי שנים שאני מתעסק בתחום וקורא הרבה על אימון והרצת מודלים, וגם התנסיתי ואני מתנסה בזה בעצמי.
והמציאות שאני רואה, שהולכת ומתבססת ככל שעובר הזמן, היא שנתונים סינטטיים הם ליבת ההצלחה של חברות ה-AI בשנים האחרונות, ועיקר התקדמות הטכנולוגיה בתחום היא בטכניקות זיקוק וייצור נתונים סינטטיים מתקדמות יותר ויותר. זאת מציאות, וכמה מאמרים שתביא לי לא ישנו את דעתי, כי זו המציאות שאני חי אותה כבר כמה שנים.

יש גם מאמרים אקדמיים מוערכים שלא היתה נחיתה על הירח...

אם אתה מתעניין ספציפית איך זה משפר את המודלים החדשים, וכמו שהקשה @המלאך אאל"ט למעלה שלכאורה מודל שמבוסס על מודל ישן יותר לא יכול להיות טוב ממנו, אז ככה:

המודל הישן מייצר לדוגמא 2 מתוך 10 תשובות שנחשבות תשובות מלאות ומדוייקות. אם מאמנים את המודל החדש רק על 2 התשובות האלו ולא על כל ה-10, המודל החדש יהיה חכם יותר.
המודל הישן לוקח את מערכי הנתונים המבולגנים שאומן עליהם, לדוגמא מאגרי קוד בגיטהאב של תוכנת מחשבון, וכותב מהם מדריך מסודר ליצירת תוכנת מחשבון. המודל החדש שמאומן רק על המדריך הזה במקום על הקודים המבולגנים, יהיה חכם ויעיל בהרבה מהישן.
הנתונים באינטרנט בדרך כלל לא מסודרים בצורה ברורה כך שהקורא האנושי ידע לפתור את הבעיה צעד אחר צעד, אלא פתרונות חלקיים, סלנגיים, סקירות וכדומה. כשהמודל הישן יוצר סימולציית חשיבה צעד אחר צעד על בסיס המידע החלקי שאומן עליו, והמודל החדש מאומן על סימולציית החשיבה הזו בלבד, הוא יהיה יותר חכם.
כיום המודלים מאומנים גם בלמידת חיזוק, שבה המודל מדרג את הפלטים שהוא יצר, ומתקן את עצמו. ככה המודלים מאומנים באמצעות נתונים סינטטיים שהם עצמם יצרו.

מתכנת חובב

@א.מ.ד. אולי פספסתי משהו?
המאמר של HF טוען שהוא בדק נתונים שעברו ניסוח מחדש ולא נתונים סינטטיים לגמרי
הנה לינק למקטע הספציפי
לגבי Phi-4 די ברור מהדיווח שהם האכילו אותו בכפית ולא ייצרו ערימת טקסט לאימון
אשמח אם תסביר לי מה לא הבנתי נכון ואם הבנתי נכון אז מה בעצם ענית - את כל זה כבר כתבתי קודם
ואגב אני לא חושב שחכם לזלזל במחקרים עם מעל 80 ציטוטים של חוקרים מוכרים מהתחום

א.מ.ד.

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

@א.מ.ד. אולי פספסתי משהו?
המאמר של HF טוען שהוא בדק נתונים שעברו ניסוח מחדש ולא נתונים סינטטיים לגמרי
הנה לינק למקטע הספציפי
לגבי Phi-4 די ברור מהדיווח שהם האכילו אותו בכפית ולא ייצרו ערימת טקסט לאימון
אשמח אם תסביר לי מה לא הבנתי נכון ואם הבנתי נכון אז מה בעצם ענית - את כל זה כבר כתבתי קודם

הבנת נכון, אבל אומנם תייגתי אותך כי עניתי לך באופן ישיר (עכשיו חזרתי אחורה לפוסט הראשון שכתבת וראיתי שמה שאתה טוען לא כל כך רחוק ממה שאני אומר), אבל התכוונתי לכל מי שטען שכמעט ולא משתמשים בנתונים סינטטיים לאימון מודלים ושהם פוגעים במודל. המאמרים האלו מראים ההיפך, וגם המציאות ככה.

@מתכנת-חובב כתב בסקר | מהו הצ'אט AI המועדף עליך?:

ואגב אני לא חושב שחכם לזלזל במחקרים עם מעל 80 ציטוטים של חוקרים מוכרים מהתחום

אחד מהמאמרים בן יותר משנה וחצי. שניהם נכתבו ע"י חוקרים שסביר להניח שפוטרו יחד עם כל צמרת ה-AI של מטא בשל חוסר יכולת להתקדם מעבר ל-LLAMA 3.3. רוב המחקרים העדכניים בתחום, יחד עם המציאות כנ"ל היא הפוכה. לכן אני מרשה לעצמי לפקפק בהם.
אגב במאמר המוסגר, נתקלתי בימים האחרונים במודל של 124M פרמטרים בלבד, שזוקק באופן מוקפד מקלוד אופוס 4.6, והפלטים שלו לא היו מביישים את GPT 3.5 מלפני 3 שנים, או מודלי 8B מלפני שנתיים. סתם להמחיש את היכולות המרשימות של זיקוק מודלים על מלא.
גם מודלי הדיפסיק המזוקקים זוקקו מאפס מהמודל הגדול, והם עלו בזמנו על כל המודלים בטווחי הגודל שלהם.