בקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית
-
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
מה לא ברור? אתה אמרת שאתה מאמן את Qwen3-0.6B. שאלתי למה הלכת על מודל ישן, תלך על המודל החדש - Qwen3.5-0.8B שהוא גם יותר טוב בעברית, אז אמרת שהוא כבד לך מידי, אז עניתי שהפער קטן מאוד, ואם תאמן אותו בלי רכיב הראיה שלו שתופס בערך רבע מגודלו אז הוא אותו גודל כמו Qwen3-0.6B. זה הכל. לא הבנתי מה הסתבכת.
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
מה זאת אומרת אם אני יקח את מודל של 8B של Qwen3 ויוריד לו את רכיב הראיה מה זה יתן לי? זה כמעט ולא יוריד כלום?
@css-0 התבלבלת בין המודלים... זה לא Qwen3 -8.0B זה Qwen3.5-0.8B
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
מה זאת אומרת אם אני יקח את מודל של 8B של Qwen3 ויוריד לו את רכיב הראיה מה זה יתן לי? זה כמעט ולא יוריד כלום?
מה לא ברור? אתה אמרת שאתה מאמן את Qwen3-0.6B. שאלתי למה הלכת על מודל ישן, תלך על המודל החדש - Qwen3.5-0.8B שהוא גם יותר טוב בעברית, אז אמרת שהוא כבד לך מידי, אז עניתי שהפער קטן מאוד, ואם תאמן אותו בלי רכיב הראיה שלו שתופס בערך רבע מגודלו אז הוא אותו גודל כמו Qwen3-0.6B. זה הכל. לא הבנתי מה הסתבכת.
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. טוב החלטתי ללכת על Qwen3.5-2B
מעולה, גם יש לו בסיס טוב בהבנת עברית גם אם לדבר בעברית הוא לא מצליח. לדוגמא אם תבקש ממנו באנגלית שיסביר לך באנגלית מילה עברית, הוא יצליח.
-
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
האא מצויין! אז אני עושה לו כוונון על 70GB של טקסט איכותי בעברית, ככה שהעברית שלו ככל הנראה תעקוף את Qwen3.5-8B אני צודק?
-
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
האא מצויין! אז אני עושה לו כוונון על 70GB של טקסט איכותי בעברית, ככה שהעברית שלו ככל הנראה תעקוף את Qwen3.5-8B אני צודק?
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
האא מצויין! אז אני עושה לו כוונון על 70GB של טקסט איכותי בעברית, ככה שהעברית שלו ככל הנראה תעקוף את Qwen3.5-8B אני צודק?
- כוונון על כזה הרבה חומר לוקח שבועות רצופים עם כזו חומרה, אם לא חודשים.
- די מהר תגיע לשלב שכל שורה נוספת שתאמן רק תהרוס את המודל ותגרום לו לאימון יתר ואיבוד יכולת ההכללה.
כדאי שתהיה ערני לבדוק מידי פעם את ה-LOSS של האימון ביחס ל-LOSS של ההכללה, ולראות שהפער ביניהם לא גדול מידי ושאין עליה באף אחד מהם.
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
האא מצויין! אז אני עושה לו כוונון על 70GB של טקסט איכותי בעברית, ככה שהעברית שלו ככל הנראה תעקוף את Qwen3.5-8B אני צודק?
- כוונון על כזה הרבה חומר לוקח שבועות רצופים עם כזו חומרה, אם לא חודשים.
- די מהר תגיע לשלב שכל שורה נוספת שתאמן רק תהרוס את המודל ותגרום לו לאימון יתר ואיבוד יכולת ההכללה.
כדאי שתהיה ערני לבדוק מידי פעם את ה-LOSS של האימון ביחס ל-LOSS של ההכללה, ולראות שהפער ביניהם לא גדול מידי ושאין עליה באף אחד מהם.
@css-0 אל תאמן אותו ישירות כדי שלא יקח מלא זמן וגם כדי לא לשרוף לא את המח אל תעשה את זה כ LoRA.
-
@css-0 אל תאמן אותו ישירות כדי שלא יקח מלא זמן וגם כדי לא לשרוף לא את המח אל תעשה את זה כ LoRA.
-
@css-0 אל תאמן אותו ישירות כדי שלא יקח מלא זמן וגם כדי לא לשרוף לא את המח אל תעשה את זה כ LoRA.
@המתכנת-התותח כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
אל תעשה את זה כ LoRA.
הפוך, תעשה את זה רק LoRA. אפילו QLoRA.
-
@המתכנת-התותח כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
אל תעשה את זה כ LoRA.
הפוך, תעשה את זה רק LoRA. אפילו QLoRA.
-
@המתכנת-התותח כן כמובן..
-
@המתכנת-התותח כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
אל תעשה את זה כ LoRA.
הפוך, תעשה את זה רק LoRA. אפילו QLoRA.
-
@א.מ.ד. לא רעיון כזה טוב.
הוא אמר שהוא משתמש במודל קוואן.
מה שאומר שהוא לא כזה טוב בעברית [בלשון מעטה].
וQLoRA וLoRA לא משנים את היכולות שלו בצורה ממשית.
לכן זה רעיון גרוע למודל שלא מבין עברית טוב.
אולי על דיקטה זה יהיה טוב. -
@המלאך זה ברור, כבר אמרתי את זה בהתחלה אם אני לא טועה, אבל בגלל שהוא התעקש על Qwen אז הכוונתי אותו למודל המתאים ביותר.
לא בטוח שהם לא מבינים טוב עברית, למרות שבלדבר עברית הם גרועים. -
@א.מ.ד. לא רעיון כזה טוב.
הוא אמר שהוא משתמש במודל קוואן.
מה שאומר שהוא לא כזה טוב בעברית [בלשון מעטה].
וQLoRA וLoRA לא משנים את היכולות שלו בצורה ממשית.
לכן זה רעיון גרוע למודל שלא מבין עברית טוב.
אולי על דיקטה זה יהיה טוב.@המלאך
דיווח: שכחתי להגדיר שגם עם השרת נכבה לשמור את המודל והוא נמחק לדעבוני הרב אחרי האימוןוהחלטתי לעבור למודל DictaLM 3.0 1.7B Base
(לא ידעתי על המודל הזה עד לרגע זה...)
מה שטוב בקאגל שיש 120 שעות בחודש... (כל שבוע 30) ויש לי שלוש חשבונות גוגל מה שאומר שיש לי בחודש 360 שעות של GPU..
-
@המלאך
דיווח: שכחתי להגדיר שגם עם השרת נכבה לשמור את המודל והוא נמחק לדעבוני הרב אחרי האימוןוהחלטתי לעבור למודל DictaLM 3.0 1.7B Base
(לא ידעתי על המודל הזה עד לרגע זה...)
מה שטוב בקאגל שיש 120 שעות בחודש... (כל שבוע 30) ויש לי שלוש חשבונות גוגל מה שאומר שיש לי בחודש 360 שעות של GPU..
טוב, האימון החל הוא יקח 14 שעות שאני ישתדל לעלות את ההתקדמות שלו בספוילר:
כל הדפסה של שלב כל שהוא באימון מופרדת בשורה, יש משפטים קטועים כי לא נתתי לו לכתוב בלי הגבלה.... ורואים איך הוא מקבל את הסלנג הישראלי..
הטקסט שניתן לו להשלים זה:
"הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה ש"
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שפע של מוצרים חדשים אשר יחליפו את מוצרי הקיטור והמיקרוגל.תאגיד הגז הטבעי "נפטיה" הכריז על
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שמשהו יקרה בכל הקשור להחלפת מכוניות. ה"פושטיות החשמליות" והרכבי היוקרה בעלי האנרג
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שיותר ויותר חנויות יחליפו את מערכות הדלפקים האנושיות. זה נכון לגבי כל החברות הגדולות וגם לכאלו שב
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שיפורים טכנולוגיים משמעותיים. הלקוחות שלנו יראו את הטכנולוגיה מוכנה ומסוגלת להתמודד עם האתגרים של היום ושל העתיד
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שחקנים כמו אלופי ספורט וירטואליים. אני מקווה שאנשים לא יפסיקו לנסות להצליח בספורט כי זה מצריך הרבה
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שורה של טכנולוגיות חדשות שהולכות להשתלט על התעשיה. לכן כדאי להכיר את הטכנולוגיה החדשה ולהבין איך היא פועלת
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שפע של דברים שאף אחד מאיתנו לא היה מאמין שניתן להכניס לבובות האלה ולייצר מהן כל כך הרבה תוכן.גרד
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שחקנים נוספים בתחום הטכנולוגי כמו אלו שהזכרתי כאן. עם זאת קבוצות שונות יוכלו לנצל את המגמה הזו לטובתן ובכך
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שיווקי ויראליים שנוטלים חלק בהם את האינטרנט. דוגמא טובה לכך היא התופעה הנרגשת של "צ'אט-בוט"
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שילובים של צורות תצפית ותקשורת בין סוגי כלבי עובדים למיניהם.תודה לאל על אליוט סלואן שהצליח
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שיותר ויותר חברות יתחילו לייצר מוצרים בסביבות וירטואליות בהן הן יכולות לנצל את המוצרים שלהם למגוון שימושים
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שsuty ייוצרו בשיטת עיבוד סטארית. לא רק במוצרים, אבל גם בהתקנים וברבות כרטיסים. המ
-
טוב, האימון החל הוא יקח 14 שעות שאני ישתדל לעלות את ההתקדמות שלו בספוילר:
כל הדפסה של שלב כל שהוא באימון מופרדת בשורה, יש משפטים קטועים כי לא נתתי לו לכתוב בלי הגבלה.... ורואים איך הוא מקבל את הסלנג הישראלי..
הטקסט שניתן לו להשלים זה:
"הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה ש"
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שפע של מוצרים חדשים אשר יחליפו את מוצרי הקיטור והמיקרוגל.תאגיד הגז הטבעי "נפטיה" הכריז על
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שמשהו יקרה בכל הקשור להחלפת מכוניות. ה"פושטיות החשמליות" והרכבי היוקרה בעלי האנרג
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שיותר ויותר חנויות יחליפו את מערכות הדלפקים האנושיות. זה נכון לגבי כל החברות הגדולות וגם לכאלו שב
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שיפורים טכנולוגיים משמעותיים. הלקוחות שלנו יראו את הטכנולוגיה מוכנה ומסוגלת להתמודד עם האתגרים של היום ושל העתיד
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שחקנים כמו אלופי ספורט וירטואליים. אני מקווה שאנשים לא יפסיקו לנסות להצליח בספורט כי זה מצריך הרבה
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שורה של טכנולוגיות חדשות שהולכות להשתלט על התעשיה. לכן כדאי להכיר את הטכנולוגיה החדשה ולהבין איך היא פועלת
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שפע של דברים שאף אחד מאיתנו לא היה מאמין שניתן להכניס לבובות האלה ולייצר מהן כל כך הרבה תוכן.גרד
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שחקנים נוספים בתחום הטכנולוגי כמו אלו שהזכרתי כאן. עם זאת קבוצות שונות יוכלו לנצל את המגמה הזו לטובתן ובכך
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שיווקי ויראליים שנוטלים חלק בהם את האינטרנט. דוגמא טובה לכך היא התופעה הנרגשת של "צ'אט-בוט"
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שילובים של צורות תצפית ותקשורת בין סוגי כלבי עובדים למיניהם.תודה לאל על אליוט סלואן שהצליח
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שיותר ויותר חברות יתחילו לייצר מוצרים בסביבות וירטואליות בהן הן יכולות לנצל את המוצרים שלהם למגוון שימושים
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שsuty ייוצרו בשיטת עיבוד סטארית. לא רק במוצרים, אבל גם בהתקנים וברבות כרטיסים. המ
@CSS-0 ואו!! רואים איך מרגע לרגע הוא נהיה יותר ויותר חכם!
-
@א.מ.ד. כלומר? מה זה יועיל? אם המודל לא יודע לדבר, אז ירד הנושא.
כל המטרה של @css-0 הייתה לאמן מודל שיהיה טוב בעברית.
בכל מקרה @css-0 מציע לך לעבור לדיקטה.
האימון עצמו יהיה יותר מהיר וקל.
כנ"ל @המתכנת-התותח לתשומת ליבך.@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. כלומר? מה זה יועיל? אם המודל לא יודע לדבר, אז ירד הנושא.
מודל שמבין את השפה העברית מבחינת משמעות, הרבה יותר קל לו ללמוד לדבר אותה.
אבל כמובן שהמודל המומלץ הוא דיקטה 3, שגם מחזיק בטוקנייזר עברי מצויין. -
@המלאך
דיווח: שכחתי להגדיר שגם עם השרת נכבה לשמור את המודל והוא נמחק לדעבוני הרב אחרי האימוןוהחלטתי לעבור למודל DictaLM 3.0 1.7B Base
(לא ידעתי על המודל הזה עד לרגע זה...)
מה שטוב בקאגל שיש 120 שעות בחודש... (כל שבוע 30) ויש לי שלוש חשבונות גוגל מה שאומר שיש לי בחודש 360 שעות של GPU..