בקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית
-
@המלאך
דיווח: שכחתי להגדיר שגם עם השרת נכבה לשמור את המודל והוא נמחק לדעבוני הרב אחרי האימוןוהחלטתי לעבור למודל DictaLM 3.0 1.7B Base
(לא ידעתי על המודל הזה עד לרגע זה...)
מה שטוב בקאגל שיש 120 שעות בחודש... (כל שבוע 30) ויש לי שלוש חשבונות גוגל מה שאומר שיש לי בחודש 360 שעות של GPU..
-
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@המלאך
דיווח: שכחתי להגדיר שגם עם השרת נכבה לשמור את המודל והוא נמחק לדעבוני הרב אחרי האימוןעושים שמירת צ'קפויינטים בדרייב כל כמה מאות צעדים.
-
@א.מ.ד. עם Qwen מצליחה להוציא מודל בגודל 27B יותר טוב ממודל 370B למה היא לא מוציא מודל בגול 4B יותר טוב ממודל של 70B למשל?
@CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. עם Qwen מצליחה להוציא מודל בגודל 27B יותר טוב ממודל 370B למה היא לא מוציא מודל בגול 4B יותר טוב ממודל של 70B למשל?
קודם כל, המודל של 397B הוא MOE עם רק 17B מופעלים על כל טוקן, אז מודל של 27B יכול לעקוף אותו תוך תקופה קצרה. בסוף זה מחושב כאילו זה מודל של 27B מול מודל של 17B, אבל מצד שני זה כמו הרבה מודלי 17B... בקיצור, זה איפשהו באמצע, אז אמנם זה הישג אדיר ל-Qwen אבל זה לא היה מדע בדיוני.
בנוסף, באמת Qwen3.5-4B יותר טוב מ-Llama3 70B, המודל שאתה חולם עליו, ואפילו מ-GPT 4 במדדים רבים. שלא לדבר על Qwen3.5-9B.
זה רק עניין של זמן שמודלי 2B יגיעו לאיכות הזאת, ואידך זיל גמור... -
@א.מ.ד. מה דעתך על ללכת על מודל Hebrew Encoder?
איזה אתה ממליץ לי?
AlephBERT, או HeBERT?
דרך אגב במה אתה משתמש לסמארטי שלך? מודל LLM קטן?@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. מה דעתך על ללכת על מודל Hebrew Encoder?
איזה אתה ממליץ לי?
AlephBERT, או HeBERT?מודלי Encoder (מקודד - החצי הראשון של הטרנספורמר המקורי) הם מודלי הטמעה. לא מודלי שפה שנקראים Decoder (מפענח - החצי השני).
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
דרך אגב במה אתה משתמש לסמארטי שלך? מודל LLM קטן?
בסמארטי לווינדוס אני לא מתעסק בהרצה עצמה אלא תומך במגוון ספקי api כולל שרת מקומי. כרגע זה מתאים רק למודלים גדולים של 27B בערך. אולי ג'מה 4 הקטנים יוכלו לבצע חלק מהמדינות אבל לא הייתי ממליץ לתת להם גישה חופשית. מן הסתם תוך כמה חודשים יצאו מודלים שמתאימים לכל חומרה עם אותן יכולות.
בסמארטי לאנדרואיד כרגע אין תמיכה במודלים מקומיים אבל אני מנסה לאמן את המודל הקטן של דיקטה (1.7B) כך שיתאים להפעלת משימות קבועות. -
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. מה דעתך על ללכת על מודל Hebrew Encoder?
איזה אתה ממליץ לי?
AlephBERT, או HeBERT?מודלי Encoder (מקודד - החצי הראשון של הטרנספורמר המקורי) הם מודלי הטמעה. לא מודלי שפה שנקראים Decoder (מפענח - החצי השני).
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
דרך אגב במה אתה משתמש לסמארטי שלך? מודל LLM קטן?
בסמארטי לווינדוס אני לא מתעסק בהרצה עצמה אלא תומך במגוון ספקי api כולל שרת מקומי. כרגע זה מתאים רק למודלים גדולים של 27B בערך. אולי ג'מה 4 הקטנים יוכלו לבצע חלק מהמדינות אבל לא הייתי ממליץ לתת להם גישה חופשית. מן הסתם תוך כמה חודשים יצאו מודלים שמתאימים לכל חומרה עם אותן יכולות.
בסמארטי לאנדרואיד כרגע אין תמיכה במודלים מקומיים אבל אני מנסה לאמן את המודל הקטן של דיקטה (1.7B) כך שיתאים להפעלת משימות קבועות.@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
מודלי Encoder (מקודד - החצי הראשון של הטרנספורמר המקורי) הם מודלי הטמעה. לא מודלי שפה שנקראים Decoder (מפענח - החצי השני).
כמובן. הם יהיו אחראים על הייצוג הסמנטי, אחרי הכל אני צריך תשובה למערכת לא למשתמש, (כמו שכתבתי בהתחלה שרצוני הוא פלט ג'סון למערכת).
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
בסמארטי לווינדוס אני לא מתעסק בהרצה עצמה אלא תומך במגוון ספקי api כולל שרת מקומי. כרגע זה מתאים רק למודלים גדולים של 27B בערך. אולי ג'מה 4 הקטנים יוכלו לבצע חלק מהמדינות אבל לא הייתי ממליץ לתת להם גישה חופשית. מן הסתם תוך כמה חודשים יצאו מודלים שמתאימים לכל חומרה עם אותן יכולות.
בסמארטי לאנדרואיד כרגע אין תמיכה במודלים מקומיים אבל אני מנסה לאמן את המודל הקטן של דיקטה (1.7B) כך שיתאים להפעלת משימות קבועות.זה אותו מודל של החרדי? או שאתה מאמן שניים?
איפה הוא אוחז כרגע באימון (או אם נדייק מה הצפי?) -
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
מודלי Encoder (מקודד - החצי הראשון של הטרנספורמר המקורי) הם מודלי הטמעה. לא מודלי שפה שנקראים Decoder (מפענח - החצי השני).
כמובן. הם יהיו אחראים על הייצוג הסמנטי, אחרי הכל אני צריך תשובה למערכת לא למשתמש, (כמו שכתבתי בהתחלה שרצוני הוא פלט ג'סון למערכת).
@א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
בסמארטי לווינדוס אני לא מתעסק בהרצה עצמה אלא תומך במגוון ספקי api כולל שרת מקומי. כרגע זה מתאים רק למודלים גדולים של 27B בערך. אולי ג'מה 4 הקטנים יוכלו לבצע חלק מהמדינות אבל לא הייתי ממליץ לתת להם גישה חופשית. מן הסתם תוך כמה חודשים יצאו מודלים שמתאימים לכל חומרה עם אותן יכולות.
בסמארטי לאנדרואיד כרגע אין תמיכה במודלים מקומיים אבל אני מנסה לאמן את המודל הקטן של דיקטה (1.7B) כך שיתאים להפעלת משימות קבועות.זה אותו מודל של החרדי? או שאתה מאמן שניים?
איפה הוא אוחז כרגע באימון (או אם נדייק מה הצפי?)@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
כמובן. הם יהיו אחראים על הייצוג הסמנטי, אחרי הכל אני צריך תשובה למערכת לא למשתמש, (כמו שכתבתי בהתחלה שרצוני הוא פלט ג'סון למערכת).
הם לא יכולים לייצא פלט אחר מלבד ווקטורים. בשביל JSON תצטרך מודל שפה. אתה יכול לתת לי דוגמא לפלט שאתה צריך ואני יחפש מודלים מתאימים.
-
@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
כמובן. הם יהיו אחראים על הייצוג הסמנטי, אחרי הכל אני צריך תשובה למערכת לא למשתמש, (כמו שכתבתי בהתחלה שרצוני הוא פלט ג'סון למערכת).
הם לא יכולים לייצא פלט אחר מלבד ווקטורים. בשביל JSON תצטרך מודל שפה. אתה יכול לתת לי דוגמא לפלט שאתה צריך ואני יחפש מודלים מתאימים.
-
@א.מ.ד. ולהשתמש במודל שמבין ייצוג סמנטי וימיר אותו לעץ פקודות.
זה עדיין הרבה יותר קל מLLM שלם.@המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:
@א.מ.ד. ולהשתמש במודל שמבין ייצוג סמנטי וימיר אותו לעץ פקודות.
זה עדיין הרבה יותר קל מLLM שלם.איך הוא ימיר לפקודות? הפלט שלו נראה ככה (למודל עם 768 ממדים):
[ -0.03421098, 0.01298432, -0.05872101, 0.09213456, -0.01123984, 0.04567123, -0.00892311, 0.02341092, -0.06712345, 0.03321908, /* ... כאן ממשיכים עוד 748 מספרים נוספים ... */ 0.01123456, -0.04456712, 0.08901234, -0.02234567, 0.05567890, -0.00123456, 0.07789012, -0.03345678, 0.01122334, -0.00987654 ]אין לו אף פלט אחר.