בקשת מידע | מהו מודל השפה הכי גדול שניתן להרצה באופן מקומי?
-
@חנוך-הכהן כתב בבקשת מידע | מהו מודל השפה הכי גדול שניתן להרצה באופן מקומי?:
אני רוצה לצרכים לימודיים מודל שפה לא מורכב מידי - שיהיה ניתן להתקין על מחשב
כמה RAM יש לך?
-
@חנוך-הכהן כתב בבקשת מידע | מהו מודל השפה הכי גדול שניתן להרצה באופן מקומי?:
@א-מ-ד יש לי מחשב של 16 ומחשב של 32 (מחשב נייח, כך שאני יכול להרחיב את הRAM להרבה יותר מזה)
במחשב הייתי אומר שאתה יכול להריץ עד מודל שגודלו עד חצי מה-RAM שלך, אבל כמובן זה אינדיבידואלי... תבדוק שזה לא תוקע לך את ה-RAM. נפח דיסק לא רלוונטי.
הייתי ממליץ על מודל GEMMA 3 שהוא מעולה בעברית. תיקח כמה שיותר גדול (בהתאם ליכולת של המחשב).
כדאי שתיקח בקוונטיזציית Q_8, ותעלה בכמות הפרמטרים ככל האפשר. -
-
@חנוך-הכהן כתב בבקשת מידע | מהו מודל השפה הכי גדול שניתן להרצה באופן מקומי?:
אני רוצה לצרכים לימודיים מודל שפה לא מורכב מידי - שיהיה ניתן להתקין על מחשב
כמו שכבר כתבו לך, גם אם תריץ על ה 32 ראם זה עדין יהיה איטי בצורה מתסכלת, במיוחד אם תשתמש במודל שרק "מתרגם" את האימון שלו לעברית (כמו GEEMA).
אז או שתריץ על GPU חיצוני, או שתשתמש במודל 'דיקטה' שאומן על עברית וכך זה יהיה יותר מהיר. החיסרון הוא שהוא לא כ"כ חכם כמו שאר המודלים הקיימים.
אם תרצה, העליתי פה תוכנה פשוטה להרצת מודלים מכווצים מקומית -
@א-מ כתב בבקשת מידע | מהו מודל השפה הכי גדול שניתן להרצה באופן מקומי?:
המודל הכי איכותי שניתן להריץ כיום על מחשב מקומי הוא DeepSeek שדורש 24 GB (לגרסה הכי איכותית שלו).
- לא מצטיין בעברית
- זו ממש לא הגרסא הכי איכותית (היא שוקלת מאות ג'יגה)
- אתה מדבר על מודל V3 שהוא לא הכי חכם שלהם בלשון המעטה
@א-מ כתב בבקשת מידע | מהו מודל השפה הכי גדול שניתן להרצה באופן מקומי?:
למודלים של 14B – 32B:
זה לא מחושב לפי מספר הפרמטרים אלא לפי המשקל בג'יגות
@אריאלל כתב בבקשת מידע | מהו מודל השפה הכי גדול שניתן להרצה באופן מקומי?:
גם אם תריץ על ה 32 ראם זה עדין יהיה איטי בצורה מתסכלת
לא נכון לגבי gemma 3
@אריאלל כתב בבקשת מידע | מהו מודל השפה הכי גדול שניתן להרצה באופן מקומי?:
במיוחד אם תשתמש במודל שרק "מתרגם" את האימון שלו לעברית (כמו GEEMA)
????????????
@א-מ כתב בבקשת מידע | מהו מודל השפה הכי גדול שניתן להרצה באופן מקומי?:
אני הייתי הכי ממליץ על המודל הזה הוא שילוב סביר בין איכות לביצועים
בדיוק המודל שהעליתי למעלה
-
@א-מ-ד כתב בבקשת מידע | מהו מודל השפה הכי גדול שניתן להרצה באופן מקומי?:
במיוחד אם תשתמש במודל שרק "מתרגם" את האימון שלו לעברית (כמו GEEMA)
????????????
תנסה את GEEMA באנגלית ובעברית ותראה את הפער במהירות התגובה.
(מה שהמודלים האלה תומכים בעברית זה בעצם על ידי תרגום ולא שהם באמת אומנו על עברית) -
@אריאלל כתב בבקשת מידע | מהו מודל השפה הכי גדול שניתן להרצה באופן מקומי?:
תנסה את GEEMA באנגלית ובעברית ותראה את הפער במהירות התגובה.
בדקתי. זהה לחלוטין בממוצע.
@אריאלל כתב בבקשת מידע | מהו מודל השפה הכי גדול שניתן להרצה באופן מקומי?:
(מה שהמודלים האלה תומכים בעברית זה בעצם על ידי תרגום ולא שהם באמת אומנו על עברית)
אתה בעצם טוען שבכל שאילתא המודל מתרגם את השאלה לאנגלית, עונה עליה, ומתרגם חזרה לעברית? יש לך מקור לזה?
-
@א-מ-ד א. אצלי ישנו הבדל יחסית משמעותי.
ב. אין לי מקור לזה, אבל אני חושב שזה דבר פשוט. תסתכל במודלים שאתה יכול לראות את החשיבה שלהם, גם אם שאלת והוא עונה בעברית המחשבות הם באנגלית. ס"ס הוא אומן 95% על השפה האנגלית ואין לו באמת את כל הידע לכל השפות. -
@אריאלל כתב בבקשת מידע | מהו מודל השפה הכי גדול שניתן להרצה באופן מקומי?:
תסתכל במודלים שאתה יכול לראות את החשיבה שלהם, גם אם שאלת והוא עונה בעברית המחשבות הם באנגלית
זה לא באמת המחשבות שהוא חושב... הוא סתם מראה לך "הסבר בדיעבד" (post-hoc explanation)...הסיבה שהחשיבה מופיעה באנגלית היא שהטכניקות של ה"חשיבה" שנועדו לחשוף את שלבי ההסקה של המודל פותחו באנגלית, והם אומנו להציג את ה"חשיבה" שלהם באנגלית, בערך כמו אדם שיודע כמה שפות אבל שפת האם שלו היא אנגלית שגם כשהוא משוחח בעברית הוא חושב באנגלית... לא נראה לי שיש להם צורך ועניין להשקיע כדי שגם זה יהיה בעברית.
בכל אופן, כשהמודל מקבל ממך שאלה, בין באנגלית בין בעברית, הוא מפענח אותה לשפה פנימית של וקטורים מספריים (embeddings) שמייצגים את המשמעות וההקשר של המילה, ללא קשר לשפה הספציפית שבה השאלה נשאלה. הרב לשוניות של המודל מתבטאת בזה שהוא אומן לפענח יותר ויותר שפות לשפה הפנימית שלו.אגב, יש יכולת ב-API של GEMINI או GPT שנקראת embedding שמטרתה היא לזהות אם שני טקסטים שונים (לדוגמא בשפות שונות) זהים מבחינה ווקטורית, כלומר האם הייצוג של שניהם בשפה הפנימית של המודל זהה.אחר כך, המודל חושב בתוך מרחב הייצוג הפנימי הזה, ומשתמש בקשרים שלמד ממאגר הנתונים שלו (שכולל הרבה מאוד שפות, כמובן עם דומיננטיות לאנגלית אבל כמו שכתבתי הוא לא רואה את זה כאנגלית אלא כווקטורים פנימיים) כדי לעבד את השאלה, לגשת לידע הרלוונטי, ולגבש תגובה.
אחרי שהמודל סיים את תהליך העיבוד הפנימי והגיע לתשובה במרחב הפנימי, הוא מפענח (Decode) את הייצוג הפנימי הזה בחזרה לשפת היעד שבה נשאלה השאלה - במקרה הזה עברית.כשהמודל מתמלל בדיעבד את תהליך החשיבה שהוא עשה, הוא מושפע מנתוני האימון שעליהם אומן באנגלית כשהוא מפענח את תשובתו לשפה אנושית.למעשה, המודל למד לקשר ישירות בין ייצוגים לשוניים בשפות שונות לבין הייצוג הפנימי הווקטורי, והוא לא צריך שלב ביניים של תרגום לאנגלית ואז חזרה לעברית. היכולת הרב-לשונית שלו מאפשרת לו לעבור ישירות מהשפה המקורית (עברית) לייצוג הפנימי, ולחזור מהייצוג הפנימי לשפת היעד (עברית).