בקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
מה זאת אומרת אם אני יקח את מודל של 8B של Qwen3 ויוריד לו את רכיב הראיה מה זה יתן לי? זה כמעט ולא יוריד כלום?
מה לא ברור? אתה אמרת שאתה מאמן את Qwen3-0.6B. שאלתי למה הלכת על מודל ישן, תלך על המודל החדש - Qwen3.5-0.8B שהוא גם יותר טוב בעברית, אז אמרת שהוא כבד לך מידי, אז עניתי שהפער קטן מאוד, ואם תאמן אותו בלי רכיב הראיה שלו שתופס בערך רבע מגודלו אז הוא אותו גודל כמו Qwen3-0.6B. זה הכל. לא הבנתי מה הסתבכת.
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
מה לא ברור? אתה אמרת שאתה מאמן את Qwen3-0.6B. שאלתי למה הלכת על מודל ישן, תלך על המודל החדש - Qwen3.5-0.8B שהוא גם יותר טוב בעברית, אז אמרת שהוא כבד לך מידי, אז עניתי שהפער קטן מאוד, ואם תאמן אותו בלי רכיב הראיה שלו שתופס בערך רבע מגודלו אז הוא אותו גודל כמו Qwen3-0.6B. זה הכל. לא הבנתי מה הסתבכת.
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
מה זאת אומרת אם אני יקח את מודל של 8B של Qwen3 ויוריד לו את רכיב הראיה מה זה יתן לי? זה כמעט ולא יוריד כלום?
@css-0 התבלבלת בין המודלים... זה לא Qwen3 -8.0B זה Qwen3.5-0.8B
-
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
מה לא ברור? אתה אמרת שאתה מאמן את Qwen3-0.6B. שאלתי למה הלכת על מודל ישן, תלך על המודל החדש - Qwen3.5-0.8B שהוא גם יותר טוב בעברית, אז אמרת שהוא כבד לך מידי, אז עניתי שהפער קטן מאוד, ואם תאמן אותו בלי רכיב הראיה שלו שתופס בערך רבע מגודלו אז הוא אותו גודל כמו Qwen3-0.6B. זה הכל. לא הבנתי מה הסתבכת.
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
מה זאת אומרת אם אני יקח את מודל של 8B של Qwen3 ויוריד לו את רכיב הראיה מה זה יתן לי? זה כמעט ולא יוריד כלום?
@css-0 התבלבלת בין המודלים... זה לא Qwen3 -8.0B זה Qwen3.5-0.8B
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
מה זאת אומרת אם אני יקח את מודל של 8B של Qwen3 ויוריד לו את רכיב הראיה מה זה יתן לי? זה כמעט ולא יוריד כלום?
מה לא ברור? אתה אמרת שאתה מאמן את Qwen3-0.6B. שאלתי למה הלכת על מודל ישן, תלך על המודל החדש - Qwen3.5-0.8B שהוא גם יותר טוב בעברית, אז אמרת שהוא כבד לך מידי, אז עניתי שהפער קטן מאוד, ואם תאמן אותו בלי רכיב הראיה שלו שתופס בערך רבע מגודלו אז הוא אותו גודל כמו Qwen3-0.6B. זה הכל. לא הבנתי מה הסתבכת.
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. טוב החלטתי ללכת על Qwen3.5-2B
מעולה, גם יש לו בסיס טוב בהבנת עברית גם אם לדבר בעברית הוא לא מצליח. לדוגמא אם תבקש ממנו באנגלית שיסביר לך באנגלית מילה עברית, הוא יצליח.
-
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
האא מצויין! אז אני עושה לו כוונון על 70GB של טקסט איכותי בעברית, ככה שהעברית שלו ככל הנראה תעקוף את Qwen3.5-8B אני צודק?
-
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
האא מצויין! אז אני עושה לו כוונון על 70GB של טקסט איכותי בעברית, ככה שהעברית שלו ככל הנראה תעקוף את Qwen3.5-8B אני צודק?
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
האא מצויין! אז אני עושה לו כוונון על 70GB של טקסט איכותי בעברית, ככה שהעברית שלו ככל הנראה תעקוף את Qwen3.5-8B אני צודק?
- כוונון על כזה הרבה חומר לוקח שבועות רצופים עם כזו חומרה, אם לא חודשים.
- די מהר תגיע לשלב שכל שורה נוספת שתאמן רק תהרוס את המודל ותגרום לו לאימון יתר ואיבוד יכולת ההכללה.
כדאי שתהיה ערני לבדוק מידי פעם את ה-LOSS של האימון ביחס ל-LOSS של ההכללה, ולראות שהפער ביניהם לא גדול מידי ושאין עליה באף אחד מהם.
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
האא מצויין! אז אני עושה לו כוונון על 70GB של טקסט איכותי בעברית, ככה שהעברית שלו ככל הנראה תעקוף את Qwen3.5-8B אני צודק?
- כוונון על כזה הרבה חומר לוקח שבועות רצופים עם כזו חומרה, אם לא חודשים.
- די מהר תגיע לשלב שכל שורה נוספת שתאמן רק תהרוס את המודל ותגרום לו לאימון יתר ואיבוד יכולת ההכללה.
כדאי שתהיה ערני לבדוק מידי פעם את ה-LOSS של האימון ביחס ל-LOSS של ההכללה, ולראות שהפער ביניהם לא גדול מידי ושאין עליה באף אחד מהם.
@css-0 אל תאמן אותו ישירות כדי שלא יקח מלא זמן וגם כדי לא לשרוף לא את המח אל תעשה את זה כ LoRA.
-
@css-0 אל תאמן אותו ישירות כדי שלא יקח מלא זמן וגם כדי לא לשרוף לא את המח אל תעשה את זה כ LoRA.