בקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית

CSS 0

@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

AI כמו ג'ימיני, לא AI אופליין....

המלאך

@CSS-0 כמובן.
תחקור טיפה.
זה עושה עיוותים.
או שפשוט תשאל את הבינה הקרובה למגוריך..

CSS 0

@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

או שפשוט תשאל את הבינה הקרובה למגוריך..

מה זאת אומרת? אני הבנתי שהכי טוב לכוונון לצ'אט זה מה שה AIS הגדולים מכינים לכוונון המודלים הקטנים, הבנתי שכל המודלים הכי טובים באופליין הדאטה שלהם נוצר ב AI...

המלאך

@CSS-0 נכון.
אבל רק מודל מאומן.
לא בתור משהו לסמוך עליו, אחרי שאימנת על כמה שיותר מידע אתה יכול לעבור ללימוד ממודלים גדולים.

CSS 0

@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

לא בתור משהו לסמוך עליו, אחרי שאימנת על כמה שיותר מידע אתה יכול לעבור ללימוד ממודלים גדולים.

כמובן, זה רק לכיוונון לצ'אט לא לשפה....

א.מ.ד.

@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

@א.מ.ד. רכיב הראיה לא שוקל יותר מ - 1B אז ככה שזה לא משמעותי, אז מה הרעיון?

???
הגודל של המודל החדש בלי רכיב הראיה קטן יותר מהגודל של המודל הישן, אז אמרתי שכבר עדיף שתאמן את החדש.

CSS 0

@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

מה זאת אומרת אם אני יקח את מודל של 8B של Qwen3 ויוריד לו את רכיב הראיה מה זה יתן לי? זה כמעט ולא יוריד כלום?

עידו300

פשש מעל 70 הודעות לאחר שהנושא נפתר!

המלאך

@עידו300

שיניתי במיוחד בשבילך.

א.מ.ד.

@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

מה זאת אומרת אם אני יקח את מודל של 8B של Qwen3 ויוריד לו את רכיב הראיה מה זה יתן לי? זה כמעט ולא יוריד כלום?

מה לא ברור? אתה אמרת שאתה מאמן את Qwen3-0.6B. שאלתי למה הלכת על מודל ישן, תלך על המודל החדש - Qwen3.5-0.8B שהוא גם יותר טוב בעברית, אז אמרת שהוא כבד לך מידי, אז עניתי שהפער קטן מאוד, ואם תאמן אותו בלי רכיב הראיה שלו שתופס בערך רבע מגודלו אז הוא אותו גודל כמו Qwen3-0.6B. זה הכל. לא הבנתי מה הסתבכת.

עידו300

@המלאך

המתכנת התותח

@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

מה לא ברור? אתה אמרת שאתה מאמן את Qwen3-0.6B. שאלתי למה הלכת על מודל ישן, תלך על המודל החדש - Qwen3.5-0.8B שהוא גם יותר טוב בעברית, אז אמרת שהוא כבד לך מידי, אז עניתי שהפער קטן מאוד, ואם תאמן אותו בלי רכיב הראיה שלו שתופס בערך רבע מגודלו אז הוא אותו גודל כמו Qwen3-0.6B. זה הכל. לא הבנתי מה הסתבכת.

@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

מה זאת אומרת אם אני יקח את מודל של 8B של Qwen3 ויוריד לו את רכיב הראיה מה זה יתן לי? זה כמעט ולא יוריד כלום?

@css-0 התבלבלת בין המודלים... זה לא Qwen3 -8.0B זה Qwen3.5-0.8B

CSS 0

@המתכנת-התותח האא ואי צודק @א.מ.ד. סליחה... טעות שלי...

המלאך

@עידו300 מה עשית תכלס' עם שלך? ראג'?

CSS 0

@א.מ.ד. טוב החלטתי ללכת על Qwen3.5-2B

א.מ.ד.

@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

@א.מ.ד. טוב החלטתי ללכת על Qwen3.5-2B

מעולה, גם יש לו בסיס טוב בהבנת עברית גם אם לדבר בעברית הוא לא מצליח. לדוגמא אם תבקש ממנו באנגלית שיסביר לך באנגלית מילה עברית, הוא יצליח.

CSS 0

@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

האא מצויין! אז אני עושה לו כוונון על 70GB של טקסט איכותי בעברית, ככה שהעברית שלו ככל הנראה תעקוף את Qwen3.5-8B אני צודק?

CSS 0

נפגש עוד 20 שעות כוונון שיקח ל GPU T4 X2...

א.מ.ד.

@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

האא מצויין! אז אני עושה לו כוונון על 70GB של טקסט איכותי בעברית, ככה שהעברית שלו ככל הנראה תעקוף את Qwen3.5-8B אני צודק?

כוונון על כזה הרבה חומר לוקח שבועות רצופים עם כזו חומרה, אם לא חודשים.
די מהר תגיע לשלב שכל שורה נוספת שתאמן רק תהרוס את המודל ותגרום לו לאימון יתר ואיבוד יכולת ההכללה.

כדאי שתהיה ערני לבדוק מידי פעם את ה-LOSS של האימון ביחס ל-LOSS של ההכללה, ולראות שהפער ביניהם לא גדול מידי ושאין עליה באף אחד מהם.

המתכנת התותח

@css-0 אל תאמן אותו ישירות כדי שלא יקח מלא זמן וגם כדי לא לשרוף לא את המח אל תעשה את זה כ LoRA.