בקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית

המתכנת התותח

@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

מה לא ברור? אתה אמרת שאתה מאמן את Qwen3-0.6B. שאלתי למה הלכת על מודל ישן, תלך על המודל החדש - Qwen3.5-0.8B שהוא גם יותר טוב בעברית, אז אמרת שהוא כבד לך מידי, אז עניתי שהפער קטן מאוד, ואם תאמן אותו בלי רכיב הראיה שלו שתופס בערך רבע מגודלו אז הוא אותו גודל כמו Qwen3-0.6B. זה הכל. לא הבנתי מה הסתבכת.

@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

מה זאת אומרת אם אני יקח את מודל של 8B של Qwen3 ויוריד לו את רכיב הראיה מה זה יתן לי? זה כמעט ולא יוריד כלום?

@css-0 התבלבלת בין המודלים... זה לא Qwen3 -8.0B זה Qwen3.5-0.8B

CSS 0

@המתכנת-התותח האא ואי צודק @א.מ.ד. סליחה... טעות שלי...

המלאך

@עידו300 מה עשית תכלס' עם שלך? ראג'?

CSS 0

@א.מ.ד. טוב החלטתי ללכת על Qwen3.5-2B

א.מ.ד.

@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

@א.מ.ד. טוב החלטתי ללכת על Qwen3.5-2B

מעולה, גם יש לו בסיס טוב בהבנת עברית גם אם לדבר בעברית הוא לא מצליח. לדוגמא אם תבקש ממנו באנגלית שיסביר לך באנגלית מילה עברית, הוא יצליח.

CSS 0

@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

האא מצויין! אז אני עושה לו כוונון על 70GB של טקסט איכותי בעברית, ככה שהעברית שלו ככל הנראה תעקוף את Qwen3.5-8B אני צודק?

CSS 0

נפגש עוד 20 שעות כוונון שיקח ל GPU T4 X2...

א.מ.ד.

@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

האא מצויין! אז אני עושה לו כוונון על 70GB של טקסט איכותי בעברית, ככה שהעברית שלו ככל הנראה תעקוף את Qwen3.5-8B אני צודק?

כוונון על כזה הרבה חומר לוקח שבועות רצופים עם כזו חומרה, אם לא חודשים.
די מהר תגיע לשלב שכל שורה נוספת שתאמן רק תהרוס את המודל ותגרום לו לאימון יתר ואיבוד יכולת ההכללה.

כדאי שתהיה ערני לבדוק מידי פעם את ה-LOSS של האימון ביחס ל-LOSS של ההכללה, ולראות שהפער ביניהם לא גדול מידי ושאין עליה באף אחד מהם.

המתכנת התותח

@css-0 אל תאמן אותו ישירות כדי שלא יקח מלא זמן וגם כדי לא לשרוף לא את המח אל תעשה את זה כ LoRA.

CSS 0

@המתכנת-התותח ככה אני עושה

תודה על העצה, העיקר הרצון הטוב