בקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית
-
@mefateach כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. אם אתה מאמן למשימות ספציפיות לדעתי האימון הכי טוב זה לשימוש בכלים, וידע כללי, אף אחד לא ינסה לתכנת עם כזה מודל וגם לא לפתור בעיות מורכבות, לדעתי מה שהכי צריך זה מודל שיודע להשתמש בכלים בצורה טובה, זה לא מדי מסובך ועם אימון טוב זה יכול לעבוד פצצה (נניח אני מחפש אחד כזה בשביל הומ אססיטנט שיוכל לשלוט על הבית) אבל אני מאמין שזה מאוד שימושי בכללי
שימוש בכלים זה האימון הכי קשה, כי המודל צריך ללמוד לא לשבור את הקריאות לכלי ולשמור על לולאת פעולות מורכבת לאורך שיחה ארוכה... כיום אין עדיין מודל גם לא בשפות אחרות שמוצלח בקריאה לכלי פחות מ-4B.
דווקא ידע עולם אי אפשר טכנית להכניס במודלים קטנים, וההתקדמות בתחום הזה מינורית יחסית, אבל קידוד לא דורש הרבה ידע אלא בעיקר לוגיקה שבזה המודלים הקטנים משתפרים בשנים האחרונות.@א.מ.ד. נו באמת תכנות ברובו מבוסס על ידע, צריך לדעת באיזה ספריות להשתמש מה הפרמטרים הנכונים וכו'
בכל מקרה לא הבנתי מה כזה מסובך בכלים, אומנם הוא צריך להיות מדויק אבל לא צריך להיות כזה חכם (אולי לכלים מסובכים זה כן אבל לעשות כמה פעולות פשוטות כמו ליצור תזכורת להתקשר למישהו וכדומה הוא לא יכול לעשות?) -
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
שמירה של הזיכרון זמני, @א.מ.ד. אתה גם עשית כך?
כן כמובן.
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
הבעיה היא שזה לוקח כמה שבועות אם לא חודשים, אין לי זמן וכוח לזה.
בהחלט, ובשביל שיהיה בחינם צריך להפעיל את זה מחדש כל יום.
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
חוץ מזה זה דורש דאטה..
@א.מ.ד. מאיפה הדאטה שלך? הורדת את המכלול?הלוואי שהמכלול היה מספיק...
מערך הנתונים שמצאתי כולל 50 מיליון פיסקאות...
האמת היא שזה תלוי בגודל המודל. לדוגמא מודל ה-0.6B שלי השתמש רק בשבריר מהחומר, ואז מיצה את הלמידה ממנו.
אבל בשביל לאמן מודל יותר גדול, צריך GPU יותר חזק וזה כבר עולה כסף והרבה...
תראה את דיקטה, שיש להם מערכי נתונים עצומים בעברית, מימון (ממשלתי אם אני לא טועה) ושיתוף פעולה עמוק עם אנבידיה, ומודל ה-1.7B שלהם גרוע יחסית למודלים בשפות אחרות וחסר יכולות אמיתיות.
מה שאני חשבתי לעשות זה לכוונן את דיקטה למשימות ספציפיות.
אם יהיה מימון לזה אין לי בעיה לעשות את זה, אבל כמו שכתבתי זה לא כל כך פשוט... -
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
שמירה של הזיכרון זמני, @א.מ.ד. אתה גם עשית כך?
כן כמובן.
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
הבעיה היא שזה לוקח כמה שבועות אם לא חודשים, אין לי זמן וכוח לזה.
בהחלט, ובשביל שיהיה בחינם צריך להפעיל את זה מחדש כל יום.
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
חוץ מזה זה דורש דאטה..
@א.מ.ד. מאיפה הדאטה שלך? הורדת את המכלול?הלוואי שהמכלול היה מספיק...
מערך הנתונים שמצאתי כולל 50 מיליון פיסקאות...
האמת היא שזה תלוי בגודל המודל. לדוגמא מודל ה-0.6B שלי השתמש רק בשבריר מהחומר, ואז מיצה את הלמידה ממנו.
אבל בשביל לאמן מודל יותר גדול, צריך GPU יותר חזק וזה כבר עולה כסף והרבה...
תראה את דיקטה, שיש להם מערכי נתונים עצומים בעברית, מימון (ממשלתי אם אני לא טועה) ושיתוף פעולה עמוק עם אנבידיה, ומודל ה-1.7B שלהם גרוע יחסית למודלים בשפות אחרות וחסר יכולות אמיתיות.
מה שאני חשבתי לעשות זה לכוונן את דיקטה למשימות ספציפיות.
אם יהיה מימון לזה אין לי בעיה לעשות את זה, אבל כמו שכתבתי זה לא כל כך פשוט... -
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
ואז מיצה את הלמידה ממנו.
מה זה אומר לפי מה אתה מחליט שהוא מיצה?
@mefateach על פי ה loss
-
@mefateach כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. אם אתה מאמן למשימות ספציפיות לדעתי האימון הכי טוב זה לשימוש בכלים, וידע כללי, אף אחד לא ינסה לתכנת עם כזה מודל וגם לא לפתור בעיות מורכבות, לדעתי מה שהכי צריך זה מודל שיודע להשתמש בכלים בצורה טובה, זה לא מדי מסובך ועם אימון טוב זה יכול לעבוד פצצה (נניח אני מחפש אחד כזה בשביל הומ אססיטנט שיוכל לשלוט על הבית) אבל אני מאמין שזה מאוד שימושי בכללי
שימוש בכלים זה האימון הכי קשה, כי המודל צריך ללמוד לא לשבור את הקריאות לכלי ולשמור על לולאת פעולות מורכבת לאורך שיחה ארוכה... כיום אין עדיין מודל גם לא בשפות אחרות שמוצלח בקריאה לכלי פחות מ-4B.
דווקא ידע עולם אי אפשר טכנית להכניס במודלים קטנים, וההתקדמות בתחום הזה מינורית יחסית, אבל קידוד לא דורש הרבה ידע אלא בעיקר לוגיקה שבזה המודלים הקטנים משתפרים בשנים האחרונות. -
@א.מ.ד. הגישה היותר נכונה לדעתי היא לא לחפש מאגרי נתונים אלא לסנתז אותם, כמו שהזכרת לעיל. כך מאמנים היום את רוב/כל המודלים החדשים.
אתה יכול לקרוא לזה גם תהליך שבו המודל הגדול (קלוד) "מלמד" את המודל הקטן. -
@א.מ.ד. הגישה היותר נכונה לדעתי היא לא לחפש מאגרי נתונים אלא לסנתז אותם, כמו שהזכרת לעיל. כך מאמנים היום את רוב/כל המודלים החדשים.
אתה יכול לקרוא לזה גם תהליך שבו המודל הגדול (קלוד) "מלמד" את המודל הקטן.@sivan22 אתה מתכוון לזיקוק.
אבל בדרך כלל משתמשים בזה על מודל קיים, כמו המודלים הקטנים של דיפסיק שבנויים על המודלים של Qwen ו-Llama.
בשביל לבנות מאפס צריך ליצור מאות אלפי ואפילו מיליוני קטעים כאלו, ואז באמת האיכות גבוהה מאוד (מודלי Phi של מיקרוסופט אומנו בעיקר על נתונים כאלו, ונחשבו פריצת דרך בזמנם), אבל זו עבודה מטורפת ועלות גבוהה מאוד. אפשר להשתמש בזה מקסימום בשביל כוונון עדין מינימלי. -
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
שמירה של הזיכרון זמני, @א.מ.ד. אתה גם עשית כך?
כן כמובן.
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
הבעיה היא שזה לוקח כמה שבועות אם לא חודשים, אין לי זמן וכוח לזה.
בהחלט, ובשביל שיהיה בחינם צריך להפעיל את זה מחדש כל יום.
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
חוץ מזה זה דורש דאטה..
@א.מ.ד. מאיפה הדאטה שלך? הורדת את המכלול?הלוואי שהמכלול היה מספיק...
מערך הנתונים שמצאתי כולל 50 מיליון פיסקאות...
האמת היא שזה תלוי בגודל המודל. לדוגמא מודל ה-0.6B שלי השתמש רק בשבריר מהחומר, ואז מיצה את הלמידה ממנו.
אבל בשביל לאמן מודל יותר גדול, צריך GPU יותר חזק וזה כבר עולה כסף והרבה...
תראה את דיקטה, שיש להם מערכי נתונים עצומים בעברית, מימון (ממשלתי אם אני לא טועה) ושיתוף פעולה עמוק עם אנבידיה, ומודל ה-1.7B שלהם גרוע יחסית למודלים בשפות אחרות וחסר יכולות אמיתיות.
מה שאני חשבתי לעשות זה לכוונן את דיקטה למשימות ספציפיות.
אם יהיה מימון לזה אין לי בעיה לעשות את זה, אבל כמו שכתבתי זה לא כל כך פשוט... -
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
מערך הנתונים שמצאתי כולל 50 מיליון פיסקאות...
איזה?
(ת'אמת ראיתי משהו והוא שוקל 47GB זה זה?)
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
איזה?
(ת'אמת ראיתי משהו והוא שוקל 47GB זה זה?)
איך קוראים לו? אני יגיד לך אם כן... בגדול אין יותר מידי מערכים גדולים בעברית אז סביר להניח שזה זה.
-
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@CSS-0 הוא נראה פחות איכותי. אולי זה תרגום מכונה כלשהו.
מה זה מה שאתה מצאת?