בקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית
-
@א.מ.ד. אמממ המודל שלקחתי העברית שלו בלתי תקנית בעליל ככה שהכונון הזה די דרסטי (המודל שלקחתי זה: Qwen3-0.6B) ואני לא יודע כמה STOPS הוא יצתרך נחייה ונראה... (ב STOP ה 85 הוא אחז ב 3.4 כשב STOP ה 5 הוא אחז על 3.9
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. אמממ המודל שלקחתי העברית שלו בלתי תקנית בעליל ככה שהכונון הזה די דרסטי (המודל שלקחתי זה: Qwen3-0.6B) ואני לא יודע כמה STOPS הוא יצתרך נחייה ונראה... (ב STOP ה 85 הוא אחז ב 3.4 כשב STOP ה 5 הוא אחז על 3.9
אתה מתכוון ל-steps...
לדעתי זה בזבוז משאבים. המודל הזה לא ייקלוט עברית. תנסה לכוונן מודל עם כיוון טוב בעברית, תחזק אצלו את הנושא הזה.
ואם כבר Qwen, למה לא Qwen3.5-0.8B?@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. ודרך אגב אתה אמרת שיש לך רק 3 שעות של כח חישוב כל יום, איך זה? ואיך אתה מסתדר עם זה? ולה אתה לא עובר ל kaggle? אומנם בסך הכללי זה פחות אבל ברצף זה יותר והמומחיות שלו זה שאתה מקבל GPU T4 X2 ל 30 שעות כל חודש...
כי בקולאב יש לי בסה"כ כ-100 שעות GPU בחודש, וגם הוא הרבה יותר נוח.
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. אמממ המודל שלקחתי העברית שלו בלתי תקנית בעליל ככה שהכונון הזה די דרסטי (המודל שלקחתי זה: Qwen3-0.6B) ואני לא יודע כמה STOPS הוא יצתרך נחייה ונראה... (ב STOP ה 85 הוא אחז ב 3.4 כשב STOP ה 5 הוא אחז על 3.9
אתה מתכוון ל-steps...
לדעתי זה בזבוז משאבים. המודל הזה לא ייקלוט עברית. תנסה לכוונן מודל עם כיוון טוב בעברית, תחזק אצלו את הנושא הזה.
ואם כבר Qwen, למה לא Qwen3.5-0.8B?@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. ודרך אגב אתה אמרת שיש לך רק 3 שעות של כח חישוב כל יום, איך זה? ואיך אתה מסתדר עם זה? ולה אתה לא עובר ל kaggle? אומנם בסך הכללי זה פחות אבל ברצף זה יותר והמומחיות שלו זה שאתה מקבל GPU T4 X2 ל 30 שעות כל חודש...
כי בקולאב יש לי בסה"כ כ-100 שעות GPU בחודש, וגם הוא הרבה יותר נוח.
-
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
ואם כבר Qwen, למה לא Qwen3.5-0.8B?
כי זה יקח מלא זמן ואני חסר סבלנות.
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
כי זה יקח מלא זמן ואני חסר סבלנות.
אפשר לחשוב מה הפער בגודל... ואתה יכול גם לאמן בלי רכיב הראיה ואז זה אותו גודל...
-
@א.מ.ד. ניסיתי על המודל של ה 4B וזה היה ממש איטי ולא היה לי סבלנות (זה היה לוקח יותר מה 30 שעות של החודש ואין לי כח לחכות לחודש הבא...) אז העדפתי לקחת מודל שזה יטוס בו על טיל, ויהיה מטורף אחרי 70GB של טקסט בעברית...
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. ניסיתי על המודל של ה 4B וזה היה ממש איטי
מה הקשר? 0.8B זה לא 4B... ובלי רכיב הראיה הוא בערך 0.5B...
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
אז העדפתי לקחת מודל שזה יטוס בו על טיל, ויהיה מטורף אחרי 70GB של טקסט בעברית...
מי אמר לך?
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. ניסיתי על המודל של ה 4B וזה היה ממש איטי ולא היה לי סבלנות (זה היה לוקח יותר מה 30 שעות של החודש ואין לי כח לחכות לחודש הבא...)
כוונון עדין אפשר לעשות עם QLORA תוך כמה שעות גם למודל 7B.
-
@עידו300 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
אם לדוגמא נבקש מהם להשתמש בגליונות, יש שם המון חומר איכותי מקצועי בעברית ולא שטויות. אני פשוט לא יודע כמה זה כל טוקן.
אני חושב שלא ממש הבנת מה הכמויות שצריך בשביל לאמן מודל מאפס. קח את כל האינטרנט העברי, וזה לא יספיק לאימון של מודל קטן.
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@עידו300 זה תלוי בשפה.
עברית לדוגמא זה די מורכב.
בגדול בשפות רגילות זה מחולק למילה.
בעברית זה תלוי איזה מילים.
לדוגמא "הלכתי" מחולק ל2- "הלכ" "תי".
זה קצת קשה להסבר.. [סתם כך יש כמה סוגי דרכים לפרק מילה לטוקנים..]כיום במודלים החדשים אין הבדל משמעותי בין עברית לאנגלית. הכל עניין של אימון הטוקנייזר.
-
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
כיום במודלים החדשים אין הבדל משמעותי בין עברית לאנגלית. הכל עניין של אימון הטוקנייזר.
כלומר? הדאטה חייב להיות עברית.
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
כלומר? הדאטה חייב להיות עברית.
אני מתכוון, שאם תאמן בהתאם את הטוקנייזר על דאטה עברי בעיקר, כך שהוא ייתמקד בעברית, הוא יחליט לפרק כל מילה לטוקן אחד בדר"כ ולא ליותר. ככה זה הטוקנייזר של דיקטה 3.0.
המודלים הגדולים כמו ג'מיני מכילים כנראה טוקנייזר גדול שמסוגל להתמקד גם בשפות נוספות מלבד אנגלית, ולכן גם בהם מילה בעברית היא לרוב טוקן אחד. -
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
כלומר? הדאטה חייב להיות עברית.
אני מתכוון, שאם תאמן בהתאם את הטוקנייזר על דאטה עברי בעיקר, כך שהוא ייתמקד בעברית, הוא יחליט לפרק כל מילה לטוקן אחד בדר"כ ולא ליותר. ככה זה הטוקנייזר של דיקטה 3.0.
המודלים הגדולים כמו ג'מיני מכילים כנראה טוקנייזר גדול שמסוגל להתמקד גם בשפות נוספות מלבד אנגלית, ולכן גם בהם מילה בעברית היא לרוב טוקן אחד.@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
המודלים הגדולים כמו ג'מיני מכילים כנראה טוקנייזר גדול שמסוגל להתמקד גם בשפות נוספות מלבד אנגלית, ולכן גם בהם מילה בעברית היא לרוב טוקן אחד.
טוב, אני יוצר דאטה לכווונון מודלים לצ'אט בעברית ענק, ואיכותי ביותר! (AI יוצר אותו...)
-
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
המודלים הגדולים כמו ג'מיני מכילים כנראה טוקנייזר גדול שמסוגל להתמקד גם בשפות נוספות מלבד אנגלית, ולכן גם בהם מילה בעברית היא לרוב טוקן אחד.
טוב, אני יוצר דאטה לכווונון מודלים לצ'אט בעברית ענק, ואיכותי ביותר! (AI יוצר אותו...)
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
כי זה יקח מלא זמן ואני חסר סבלנות.
אפשר לחשוב מה הפער בגודל... ואתה יכול גם לאמן בלי רכיב הראיה ואז זה אותו גודל...
-
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
AI כמו ג'ימיני, לא AI אופליין....
-
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
או שפשוט תשאל את הבינה הקרובה למגוריך..
מה זאת אומרת? אני הבנתי שהכי טוב לכוונון לצ'אט זה מה שה AIS הגדולים מכינים לכוונון המודלים הקטנים, הבנתי שכל המודלים הכי טובים באופליין הדאטה שלהם נוצר ב AI...
-
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
או שפשוט תשאל את הבינה הקרובה למגוריך..
מה זאת אומרת? אני הבנתי שהכי טוב לכוונון לצ'אט זה מה שה AIS הגדולים מכינים לכוונון המודלים הקטנים, הבנתי שכל המודלים הכי טובים באופליין הדאטה שלהם נוצר ב AI...
-
@CSS-0 נכון.
אבל רק מודל מאומן.
לא בתור משהו לסמוך עליו, אחרי שאימנת על כמה שיותר מידע אתה יכול לעבור ללימוד ממודלים גדולים. -
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
אפשר לחשוב מה הפער בגודל... ואתה יכול גם לאמן בלי רכיב הראיה ואז זה אותו גודל...
@א.מ.ד. רכיב הראיה לא שוקל יותר מ - 1B אז ככה שזה לא משמעותי, אז מה הרעיון?
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. רכיב הראיה לא שוקל יותר מ - 1B אז ככה שזה לא משמעותי, אז מה הרעיון?
???
הגודל של המודל החדש בלי רכיב הראיה קטן יותר מהגודל של המודל הישן, אז אמרתי שכבר עדיף שתאמן את החדש. -
ה המלאך סימן נושא זה כלא נפתר
-
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
מה זאת אומרת אם אני יקח את מודל של 8B של Qwen3 ויוריד לו את רכיב הראיה מה זה יתן לי? זה כמעט ולא יוריד כלום?
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
מה זאת אומרת אם אני יקח את מודל של 8B של Qwen3 ויוריד לו את רכיב הראיה מה זה יתן לי? זה כמעט ולא יוריד כלום?
מה לא ברור? אתה אמרת שאתה מאמן את Qwen3-0.6B. שאלתי למה הלכת על מודל ישן, תלך על המודל החדש - Qwen3.5-0.8B שהוא גם יותר טוב בעברית, אז אמרת שהוא כבד לך מידי, אז עניתי שהפער קטן מאוד, ואם תאמן אותו בלי רכיב הראיה שלו שתופס בערך רבע מגודלו אז הוא אותו גודל כמו Qwen3-0.6B. זה הכל. לא הבנתי מה הסתבכת.
-
ה המלאך סימן נושא זה כנושא רגיל
כמובן.