בקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית
-
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@CSS-0 הוא נראה פחות איכותי. אולי זה תרגום מכונה כלשהו.
מה זה מה שאתה מצאת?
-
@עידו300 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
כמה המירך צריך להיות גדול?
ומה צריך להיות כתוב בוצריך להיות בו לפחות מיליארד טוקנים בשביל מודל בסביבות ה-2B, אבל הם צריכים להיות נקיים ואיכותיים, בלי זבל אינטרנט ותגיות HTML וכדומה.
-
@עידו300 זה תלוי בשפה.
עברית לדוגמא זה די מורכב.
בגדול בשפות רגילות זה מחולק למילה.
בעברית זה תלוי איזה מילים.
לדוגמא "הלכתי" מחולק ל2- "הלכ" "תי".
זה קצת קשה להסבר.. [סתם כך יש כמה סוגי דרכים לפרק מילה לטוקנים..]
בכל מקרה האתר הזה לדוגמא [בלי להיכנס לעניין משפטי שזה כמובן אסור ומוגן בזכויות יוצרים] יש הרבה תגיות html יש צורך להוריד רווחים וכותרות.
אחרי זה מחלקים לקטעים, אחרי זה אתה משתמש tokenizer של המודל לפירוק לטוקנים..
לדעתי לא נראה לי אפשרי לצורך שלך לעשות אימון מלא של מודל.
זה פשוט לא יהיה יעיל יחסית להשקעה.
פשוט תלך על ראג'. -
-
@עידו300 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
אם לדוגמא נבקש מהם להשתמש בגליונות, יש שם המון חומר איכותי מקצועי בעברית ולא שטויות. אני פשוט לא יודע כמה זה כל טוקן.
אני חושב שלא ממש הבנת מה הכמויות שצריך בשביל לאמן מודל מאפס. קח את כל האינטרנט העברי, וזה לא יספיק לאימון של מודל קטן.
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@עידו300 זה תלוי בשפה.
עברית לדוגמא זה די מורכב.
בגדול בשפות רגילות זה מחולק למילה.
בעברית זה תלוי איזה מילים.
לדוגמא "הלכתי" מחולק ל2- "הלכ" "תי".
זה קצת קשה להסבר.. [סתם כך יש כמה סוגי דרכים לפרק מילה לטוקנים..]כיום במודלים החדשים אין הבדל משמעותי בין עברית לאנגלית. הכל עניין של אימון הטוקנייזר.
-
@עידו300 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
אם לדוגמא נבקש מהם להשתמש בגליונות, יש שם המון חומר איכותי מקצועי בעברית ולא שטויות. אני פשוט לא יודע כמה זה כל טוקן.
אני חושב שלא ממש הבנת מה הכמויות שצריך בשביל לאמן מודל מאפס. קח את כל האינטרנט העברי, וזה לא יספיק לאימון של מודל קטן.
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@עידו300 זה תלוי בשפה.
עברית לדוגמא זה די מורכב.
בגדול בשפות רגילות זה מחולק למילה.
בעברית זה תלוי איזה מילים.
לדוגמא "הלכתי" מחולק ל2- "הלכ" "תי".
זה קצת קשה להסבר.. [סתם כך יש כמה סוגי דרכים לפרק מילה לטוקנים..]כיום במודלים החדשים אין הבדל משמעותי בין עברית לאנגלית. הכל עניין של אימון הטוקנייזר.
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
קח את כל האינטרנט העברי, וזה לא יספיק לאימון של מודל קטן.
מקווה בשביך שאתה אמרת בציניות.... ולא ברצינות
(אלא עם אתה אוחז שכל האינטרנט העברי שוקל 250GB של נתונים שהשגתי לאימון... זה כל האינטרנט העברי.)שדרך אגב בשעות אלה אני עושה כוונות למודל על 70GB של טקסט בעברית איכותי להביא אותו ל LOSS של 2.00000))
הגדרתי לו לרוץ עד 2,500 STOPS אבל כנראה שהו יצתרך פחות ומקווה שה 30 שעות בחודש של kaggle יספיקו לכוונון מודל... -
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
קח את כל האינטרנט העברי, וזה לא יספיק לאימון של מודל קטן.
מקווה בשביך שאתה אמרת בציניות.... ולא ברצינות
(אלא עם אתה אוחז שכל האינטרנט העברי שוקל 250GB של נתונים שהשגתי לאימון... זה כל האינטרנט העברי.)שדרך אגב בשעות אלה אני עושה כוונות למודל על 70GB של טקסט בעברית איכותי להביא אותו ל LOSS של 2.00000))
הגדרתי לו לרוץ עד 2,500 STOPS אבל כנראה שהו יצתרך פחות ומקווה שה 30 שעות בחודש של kaggle יספיקו לכוונון מודל...@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
מקווה בשביך שאתה אמרת בציניות.... ולא ברצינות
ברצינות גמורה!
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
(אלא עם אתה אוחז שכל האינטרנט העברי שוקל 250GB של נתונים שהשגתי לאימון... זה כל האינטרנט העברי.)
זה כמעט כל האינטרנט העברי (הטקסטואלי), סביר להניח עם כפילויות רבות. רוב מערכי הנתונים בעברית חוזרים על עצמם. מציע לך לזרוק את כולם ולהשאיר את הנקי ביותר.
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
שדרך אגב בשעות אלה אני עושה כוונות למודל על 70GB של טקסט בעברית איכותי להביא אותו ל LOSS של 2.00000))
הגדרתי לו לרוץ עד 2,500 STOPS אבל כנראה שהו יצתרך פחות ומקווה שה 30 שעות בחודש של kaggle יספיקו לכוונון מודל...כוונון זה סיפור אחר לגמרי, מספיק אפילו 500-2000 דוגמאות בלבד. כבר יש מודל תקין ורק צריך לכוונן אותו.
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
מקווה בשביך שאתה אמרת בציניות.... ולא ברצינות
ברצינות גמורה!
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
(אלא עם אתה אוחז שכל האינטרנט העברי שוקל 250GB של נתונים שהשגתי לאימון... זה כל האינטרנט העברי.)
זה כמעט כל האינטרנט העברי (הטקסטואלי), סביר להניח עם כפילויות רבות. רוב מערכי הנתונים בעברית חוזרים על עצמם. מציע לך לזרוק את כולם ולהשאיר את הנקי ביותר.
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
שדרך אגב בשעות אלה אני עושה כוונות למודל על 70GB של טקסט בעברית איכותי להביא אותו ל LOSS של 2.00000))
הגדרתי לו לרוץ עד 2,500 STOPS אבל כנראה שהו יצתרך פחות ומקווה שה 30 שעות בחודש של kaggle יספיקו לכוונון מודל...כוונון זה סיפור אחר לגמרי, מספיק אפילו 500-2000 דוגמאות בלבד. כבר יש מודל תקין ורק צריך לכוונן אותו.
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
מקווה בשביך שאתה אמרת בציניות.... ולא ברצינות
ברצינות גמורה!
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
(אלא עם אתה אוחז שכל האינטרנט העברי שוקל 250GB של נתונים שהשגתי לאימון... זה כל האינטרנט העברי.)
זה כמעט כל האינטרנט העברי (הטקסטואלי), סביר להניח עם כפילויות רבות. רוב מערכי הנתונים בעברית חוזרים על עצמם. מציע לך לזרוק את כולם ולהשאיר את הנקי ביותר.
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
שדרך אגב בשעות אלה אני עושה כוונות למודל על 70GB של טקסט בעברית איכותי להביא אותו ל LOSS של 2.00000))
הגדרתי לו לרוץ עד 2,500 STOPS אבל כנראה שהו יצתרך פחות ומקווה שה 30 שעות בחודש של kaggle יספיקו לכוונון מודל...כוונון זה סיפור אחר לגמרי, מספיק אפילו 500-2000 דוגמאות בלבד. כבר יש מודל תקין ורק צריך לכוונן אותו.
-
@א.מ.ד. אמממ המודל שלקחתי העברית שלו בלתי תקנית בעליל ככה שהכונון הזה די דרסטי (המודל שלקחתי זה: Qwen3-0.6B) ואני לא יודע כמה STOPS הוא יצתרך נחייה ונראה... (ב STOP ה 85 הוא אחז ב 3.4 כשב STOP ה 5 הוא אחז על 3.9
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. אמממ המודל שלקחתי העברית שלו בלתי תקנית בעליל ככה שהכונון הזה די דרסטי (המודל שלקחתי זה: Qwen3-0.6B) ואני לא יודע כמה STOPS הוא יצתרך נחייה ונראה... (ב STOP ה 85 הוא אחז ב 3.4 כשב STOP ה 5 הוא אחז על 3.9
אתה מתכוון ל-steps...
לדעתי זה בזבוז משאבים. המודל הזה לא ייקלוט עברית. תנסה לכוונן מודל עם כיוון טוב בעברית, תחזק אצלו את הנושא הזה.
ואם כבר Qwen, למה לא Qwen3.5-0.8B?@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. ודרך אגב אתה אמרת שיש לך רק 3 שעות של כח חישוב כל יום, איך זה? ואיך אתה מסתדר עם זה? ולה אתה לא עובר ל kaggle? אומנם בסך הכללי זה פחות אבל ברצף זה יותר והמומחיות שלו זה שאתה מקבל GPU T4 X2 ל 30 שעות כל חודש...
כי בקולאב יש לי בסה"כ כ-100 שעות GPU בחודש, וגם הוא הרבה יותר נוח.
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. אמממ המודל שלקחתי העברית שלו בלתי תקנית בעליל ככה שהכונון הזה די דרסטי (המודל שלקחתי זה: Qwen3-0.6B) ואני לא יודע כמה STOPS הוא יצתרך נחייה ונראה... (ב STOP ה 85 הוא אחז ב 3.4 כשב STOP ה 5 הוא אחז על 3.9
אתה מתכוון ל-steps...
לדעתי זה בזבוז משאבים. המודל הזה לא ייקלוט עברית. תנסה לכוונן מודל עם כיוון טוב בעברית, תחזק אצלו את הנושא הזה.
ואם כבר Qwen, למה לא Qwen3.5-0.8B?@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. ודרך אגב אתה אמרת שיש לך רק 3 שעות של כח חישוב כל יום, איך זה? ואיך אתה מסתדר עם זה? ולה אתה לא עובר ל kaggle? אומנם בסך הכללי זה פחות אבל ברצף זה יותר והמומחיות שלו זה שאתה מקבל GPU T4 X2 ל 30 שעות כל חודש...
כי בקולאב יש לי בסה"כ כ-100 שעות GPU בחודש, וגם הוא הרבה יותר נוח.
-
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
ואם כבר Qwen, למה לא Qwen3.5-0.8B?
כי זה יקח מלא זמן ואני חסר סבלנות.
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
כי זה יקח מלא זמן ואני חסר סבלנות.
אפשר לחשוב מה הפער בגודל... ואתה יכול גם לאמן בלי רכיב הראיה ואז זה אותו גודל...
-
@א.מ.ד. ניסיתי על המודל של ה 4B וזה היה ממש איטי ולא היה לי סבלנות (זה היה לוקח יותר מה 30 שעות של החודש ואין לי כח לחכות לחודש הבא...) אז העדפתי לקחת מודל שזה יטוס בו על טיל, ויהיה מטורף אחרי 70GB של טקסט בעברית...
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. ניסיתי על המודל של ה 4B וזה היה ממש איטי
מה הקשר? 0.8B זה לא 4B... ובלי רכיב הראיה הוא בערך 0.5B...
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
אז העדפתי לקחת מודל שזה יטוס בו על טיל, ויהיה מטורף אחרי 70GB של טקסט בעברית...
מי אמר לך?
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. ניסיתי על המודל של ה 4B וזה היה ממש איטי ולא היה לי סבלנות (זה היה לוקח יותר מה 30 שעות של החודש ואין לי כח לחכות לחודש הבא...)
כוונון עדין אפשר לעשות עם QLORA תוך כמה שעות גם למודל 7B.
-
@עידו300 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
אם לדוגמא נבקש מהם להשתמש בגליונות, יש שם המון חומר איכותי מקצועי בעברית ולא שטויות. אני פשוט לא יודע כמה זה כל טוקן.
אני חושב שלא ממש הבנת מה הכמויות שצריך בשביל לאמן מודל מאפס. קח את כל האינטרנט העברי, וזה לא יספיק לאימון של מודל קטן.
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@עידו300 זה תלוי בשפה.
עברית לדוגמא זה די מורכב.
בגדול בשפות רגילות זה מחולק למילה.
בעברית זה תלוי איזה מילים.
לדוגמא "הלכתי" מחולק ל2- "הלכ" "תי".
זה קצת קשה להסבר.. [סתם כך יש כמה סוגי דרכים לפרק מילה לטוקנים..]כיום במודלים החדשים אין הבדל משמעותי בין עברית לאנגלית. הכל עניין של אימון הטוקנייזר.