בקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית
-
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
האא מצויין! אז אני עושה לו כוונון על 70GB של טקסט איכותי בעברית, ככה שהעברית שלו ככל הנראה תעקוף את Qwen3.5-8B אני צודק?
-
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
האא מצויין! אז אני עושה לו כוונון על 70GB של טקסט איכותי בעברית, ככה שהעברית שלו ככל הנראה תעקוף את Qwen3.5-8B אני צודק?
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
האא מצויין! אז אני עושה לו כוונון על 70GB של טקסט איכותי בעברית, ככה שהעברית שלו ככל הנראה תעקוף את Qwen3.5-8B אני צודק?
- כוונון על כזה הרבה חומר לוקח שבועות רצופים עם כזו חומרה, אם לא חודשים.
- די מהר תגיע לשלב שכל שורה נוספת שתאמן רק תהרוס את המודל ותגרום לו לאימון יתר ואיבוד יכולת ההכללה.
כדאי שתהיה ערני לבדוק מידי פעם את ה-LOSS של האימון ביחס ל-LOSS של ההכללה, ולראות שהפער ביניהם לא גדול מידי ושאין עליה באף אחד מהם.
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
האא מצויין! אז אני עושה לו כוונון על 70GB של טקסט איכותי בעברית, ככה שהעברית שלו ככל הנראה תעקוף את Qwen3.5-8B אני צודק?
- כוונון על כזה הרבה חומר לוקח שבועות רצופים עם כזו חומרה, אם לא חודשים.
- די מהר תגיע לשלב שכל שורה נוספת שתאמן רק תהרוס את המודל ותגרום לו לאימון יתר ואיבוד יכולת ההכללה.
כדאי שתהיה ערני לבדוק מידי פעם את ה-LOSS של האימון ביחס ל-LOSS של ההכללה, ולראות שהפער ביניהם לא גדול מידי ושאין עליה באף אחד מהם.
@css-0 אל תאמן אותו ישירות כדי שלא יקח מלא זמן וגם כדי לא לשרוף לא את המח אל תעשה את זה כ LoRA.
-
@css-0 אל תאמן אותו ישירות כדי שלא יקח מלא זמן וגם כדי לא לשרוף לא את המח אל תעשה את זה כ LoRA.
-
@css-0 אל תאמן אותו ישירות כדי שלא יקח מלא זמן וגם כדי לא לשרוף לא את המח אל תעשה את זה כ LoRA.
@המתכנת-התותח כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
אל תעשה את זה כ LoRA.
הפוך, תעשה את זה רק LoRA. אפילו QLoRA.
-
@המתכנת-התותח כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
אל תעשה את זה כ LoRA.
הפוך, תעשה את זה רק LoRA. אפילו QLoRA.
-
@המתכנת-התותח כן כמובן..
-
@המתכנת-התותח כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
אל תעשה את זה כ LoRA.
הפוך, תעשה את זה רק LoRA. אפילו QLoRA.
-
@א.מ.ד. לא רעיון כזה טוב.
הוא אמר שהוא משתמש במודל קוואן.
מה שאומר שהוא לא כזה טוב בעברית [בלשון מעטה].
וQLoRA וLoRA לא משנים את היכולות שלו בצורה ממשית.
לכן זה רעיון גרוע למודל שלא מבין עברית טוב.
אולי על דיקטה זה יהיה טוב. -
@המלאך זה ברור, כבר אמרתי את זה בהתחלה אם אני לא טועה, אבל בגלל שהוא התעקש על Qwen אז הכוונתי אותו למודל המתאים ביותר.
לא בטוח שהם לא מבינים טוב עברית, למרות שבלדבר עברית הם גרועים. -
@א.מ.ד. לא רעיון כזה טוב.
הוא אמר שהוא משתמש במודל קוואן.
מה שאומר שהוא לא כזה טוב בעברית [בלשון מעטה].
וQLoRA וLoRA לא משנים את היכולות שלו בצורה ממשית.
לכן זה רעיון גרוע למודל שלא מבין עברית טוב.
אולי על דיקטה זה יהיה טוב.@המלאך
דיווח: שכחתי להגדיר שגם עם השרת נכבה לשמור את המודל והוא נמחק לדעבוני הרב אחרי האימוןוהחלטתי לעבור למודל DictaLM 3.0 1.7B Base
(לא ידעתי על המודל הזה עד לרגע זה...)
מה שטוב בקאגל שיש 120 שעות בחודש... (כל שבוע 30) ויש לי שלוש חשבונות גוגל מה שאומר שיש לי בחודש 360 שעות של GPU..
-
@המלאך
דיווח: שכחתי להגדיר שגם עם השרת נכבה לשמור את המודל והוא נמחק לדעבוני הרב אחרי האימוןוהחלטתי לעבור למודל DictaLM 3.0 1.7B Base
(לא ידעתי על המודל הזה עד לרגע זה...)
מה שטוב בקאגל שיש 120 שעות בחודש... (כל שבוע 30) ויש לי שלוש חשבונות גוגל מה שאומר שיש לי בחודש 360 שעות של GPU..
טוב, האימון החל הוא יקח 14 שעות שאני ישתדל לעלות את ההתקדמות שלו בספוילר:
כל הדפסה של שלב כל שהוא באימון מופרדת בשורה, יש משפטים קטועים כי לא נתתי לו לכתוב בלי הגבלה.... ורואים איך הוא מקבל את הסלנג הישראלי..
הטקסט שניתן לו להשלים זה:
"הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה ש"
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שפע של מוצרים חדשים אשר יחליפו את מוצרי הקיטור והמיקרוגל.תאגיד הגז הטבעי "נפטיה" הכריז על
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שמשהו יקרה בכל הקשור להחלפת מכוניות. ה"פושטיות החשמליות" והרכבי היוקרה בעלי האנרג
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שיותר ויותר חנויות יחליפו את מערכות הדלפקים האנושיות. זה נכון לגבי כל החברות הגדולות וגם לכאלו שב
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שיפורים טכנולוגיים משמעותיים. הלקוחות שלנו יראו את הטכנולוגיה מוכנה ומסוגלת להתמודד עם האתגרים של היום ושל העתיד
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שחקנים כמו אלופי ספורט וירטואליים. אני מקווה שאנשים לא יפסיקו לנסות להצליח בספורט כי זה מצריך הרבה
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שורה של טכנולוגיות חדשות שהולכות להשתלט על התעשיה. לכן כדאי להכיר את הטכנולוגיה החדשה ולהבין איך היא פועלת
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שפע של דברים שאף אחד מאיתנו לא היה מאמין שניתן להכניס לבובות האלה ולייצר מהן כל כך הרבה תוכן.גרד
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שחקנים נוספים בתחום הטכנולוגי כמו אלו שהזכרתי כאן. עם זאת קבוצות שונות יוכלו לנצל את המגמה הזו לטובתן ובכך
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שיווקי ויראליים שנוטלים חלק בהם את האינטרנט. דוגמא טובה לכך היא התופעה הנרגשת של "צ'אט-בוט"
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שילובים של צורות תצפית ותקשורת בין סוגי כלבי עובדים למיניהם.תודה לאל על אליוט סלואן שהצליח
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שיותר ויותר חברות יתחילו לייצר מוצרים בסביבות וירטואליות בהן הן יכולות לנצל את המוצרים שלהם למגוון שימושים
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שsuty ייוצרו בשיטת עיבוד סטארית. לא רק במוצרים, אבל גם בהתקנים וברבות כרטיסים. המ
-
טוב, האימון החל הוא יקח 14 שעות שאני ישתדל לעלות את ההתקדמות שלו בספוילר:
כל הדפסה של שלב כל שהוא באימון מופרדת בשורה, יש משפטים קטועים כי לא נתתי לו לכתוב בלי הגבלה.... ורואים איך הוא מקבל את הסלנג הישראלי..
הטקסט שניתן לו להשלים זה:
"הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה ש"
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שפע של מוצרים חדשים אשר יחליפו את מוצרי הקיטור והמיקרוגל.תאגיד הגז הטבעי "נפטיה" הכריז על
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שמשהו יקרה בכל הקשור להחלפת מכוניות. ה"פושטיות החשמליות" והרכבי היוקרה בעלי האנרג
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שיותר ויותר חנויות יחליפו את מערכות הדלפקים האנושיות. זה נכון לגבי כל החברות הגדולות וגם לכאלו שב
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שיפורים טכנולוגיים משמעותיים. הלקוחות שלנו יראו את הטכנולוגיה מוכנה ומסוגלת להתמודד עם האתגרים של היום ושל העתיד
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שחקנים כמו אלופי ספורט וירטואליים. אני מקווה שאנשים לא יפסיקו לנסות להצליח בספורט כי זה מצריך הרבה
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שורה של טכנולוגיות חדשות שהולכות להשתלט על התעשיה. לכן כדאי להכיר את הטכנולוגיה החדשה ולהבין איך היא פועלת
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שפע של דברים שאף אחד מאיתנו לא היה מאמין שניתן להכניס לבובות האלה ולייצר מהן כל כך הרבה תוכן.גרד
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שחקנים נוספים בתחום הטכנולוגי כמו אלו שהזכרתי כאן. עם זאת קבוצות שונות יוכלו לנצל את המגמה הזו לטובתן ובכך
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שיווקי ויראליים שנוטלים חלק בהם את האינטרנט. דוגמא טובה לכך היא התופעה הנרגשת של "צ'אט-בוט"
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שילובים של צורות תצפית ותקשורת בין סוגי כלבי עובדים למיניהם.תודה לאל על אליוט סלואן שהצליח
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שיותר ויותר חברות יתחילו לייצר מוצרים בסביבות וירטואליות בהן הן יכולות לנצל את המוצרים שלהם למגוון שימושים
המודל עונה:
הטכנולוגיה מתפתחת בקצב מסחרר, ולכן בעתיד הקרוב אנחנו נראה שsuty ייוצרו בשיטת עיבוד סטארית. לא רק במוצרים, אבל גם בהתקנים וברבות כרטיסים. המ
@CSS-0 ואו!! רואים איך מרגע לרגע הוא נהיה יותר ויותר חכם!
-
@א.מ.ד. כלומר? מה זה יועיל? אם המודל לא יודע לדבר, אז ירד הנושא.
כל המטרה של @css-0 הייתה לאמן מודל שיהיה טוב בעברית.
בכל מקרה @css-0 מציע לך לעבור לדיקטה.
האימון עצמו יהיה יותר מהיר וקל.
כנ"ל @המתכנת-התותח לתשומת ליבך.@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. כלומר? מה זה יועיל? אם המודל לא יודע לדבר, אז ירד הנושא.
מודל שמבין את השפה העברית מבחינת משמעות, הרבה יותר קל לו ללמוד לדבר אותה.
אבל כמובן שהמודל המומלץ הוא דיקטה 3, שגם מחזיק בטוקנייזר עברי מצויין. -
@המלאך
דיווח: שכחתי להגדיר שגם עם השרת נכבה לשמור את המודל והוא נמחק לדעבוני הרב אחרי האימוןוהחלטתי לעבור למודל DictaLM 3.0 1.7B Base
(לא ידעתי על המודל הזה עד לרגע זה...)
מה שטוב בקאגל שיש 120 שעות בחודש... (כל שבוע 30) ויש לי שלוש חשבונות גוגל מה שאומר שיש לי בחודש 360 שעות של GPU..
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@המלאך
דיווח: שכחתי להגדיר שגם עם השרת נכבה לשמור את המודל והוא נמחק לדעבוני הרב אחרי האימוןעושים שמירת צ'קפויינטים בדרייב כל כמה מאות צעדים.
-
@א.מ.ד. עם Qwen מצליחה להוציא מודל בגודל 27B יותר טוב ממודל 370B למה היא לא מוציא מודל בגול 4B יותר טוב ממודל של 70B למשל?
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. עם Qwen מצליחה להוציא מודל בגודל 27B יותר טוב ממודל 370B למה היא לא מוציא מודל בגול 4B יותר טוב ממודל של 70B למשל?
קודם כל, המודל של 397B הוא MOE עם רק 17B מופעלים על כל טוקן, אז מודל של 27B יכול לעקוף אותו תוך תקופה קצרה. בסוף זה מחושב כאילו זה מודל של 27B מול מודל של 17B, אבל מצד שני זה כמו הרבה מודלי 17B... בקיצור, זה איפשהו באמצע, אז אמנם זה הישג אדיר ל-Qwen אבל זה לא היה מדע בדיוני.
בנוסף, באמת Qwen3.5-4B יותר טוב מ-Llama3 70B, המודל שאתה חולם עליו, ואפילו מ-GPT 4 במדדים רבים. שלא לדבר על Qwen3.5-9B.
זה רק עניין של זמן שמודלי 2B יגיעו לאיכות הזאת, ואידך זיל גמור... -
@א.מ.ד. מה דעתך על ללכת על מודל Hebrew Encoder?
איזה אתה ממליץ לי?
AlephBERT, או HeBERT?
דרך אגב במה אתה משתמש לסמארטי שלך? מודל LLM קטן?@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. מה דעתך על ללכת על מודל Hebrew Encoder?
איזה אתה ממליץ לי?
AlephBERT, או HeBERT?מודלי Encoder (מקודד - החצי הראשון של הטרנספורמר המקורי) הם מודלי הטמעה. לא מודלי שפה שנקראים Decoder (מפענח - החצי השני).
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
דרך אגב במה אתה משתמש לסמארטי שלך? מודל LLM קטן?
בסמארטי לווינדוס אני לא מתעסק בהרצה עצמה אלא תומך במגוון ספקי api כולל שרת מקומי. כרגע זה מתאים רק למודלים גדולים של 27B בערך. אולי ג'מה 4 הקטנים יוכלו לבצע חלק מהמדינות אבל לא הייתי ממליץ לתת להם גישה חופשית. מן הסתם תוך כמה חודשים יצאו מודלים שמתאימים לכל חומרה עם אותן יכולות.
בסמארטי לאנדרואיד כרגע אין תמיכה במודלים מקומיים אבל אני מנסה לאמן את המודל הקטן של דיקטה (1.7B) כך שיתאים להפעלת משימות קבועות.