שיתוף | תקרת הזכוכית של עולם הAI התפוצצה????

pythoni

@jack חפש בHugging Face את המודלMamba שהוא מסוג SSM )לינארי ) בניגוד למודלים הרגילים שהם מסוג Transformer

אלא אם כן אתה AI ללא גישה לרשת

ההבדל הTransformer
אם הכנסתי 100 מילים הוא משווה כל מילה מתוך ה-100 לכל אחת מ-99 המילים האחרות.כמות פעולות: בערך 100 × 100 10,000= השוואות.

הלינארי פשוט יחשב 100 מילים

יוסלה קניקובסקי

@pythoni כתב בשיתוף | תקרת הזכוכית של עולם הAI התפוצצה????:

זה לא סטארט אפ חדש ומשהו גאוני כול כך זה פשוט מודל עם תהודה דליליה שזה אומר שהקונטקסט כמעט לינארי כמו ממבה שזה לינארי אך כאן זה לא לינארי לגמרי פשוט לא כול מחושבים אלא רק כאלה שזהו כחשובים ובנוסף בנו את זה לקוד המודל תוכנן מראש לפעול על בסיסי קוד ולא על טקסט פרוזה רציף. קוד תוכנה מתאפיין במבנה מודולרי, היררכי ולוגי (פונקציות, מחלקות, קריאות מקומיות). מבנה זה מאפשר למנגנונים דלילים לאתר את הקשרים הנדרשים ביעילות רבה יותר, שכן התלות בין חלקי הקוד מוגדרת היטב ואינה מפוזרת באופן אקראי על פני מיליוני שורות

פרשת סוקל או גאונות טהורה?

pythoni

@יוסלה-קניקובסקי
נכון או לא נכון הם מחרטטים בביטחון

המלאך

@pythoni שני אופציות.
או שאתה קשור אליהם והם מחרטטים.
או שזה אתה.
תעבור שוב על הפוסט שלי.

המלאך

@pythoni סתם ככה זה לא טרנספורמר.
זה llm.
טרנספורמר זה חלק קטן במודל.

מתכנת חובב

@המלאך טרנספורמר זו לא הארכיטקטורה של המודל שבתכלס' מקיפה כמעט את כל החלקים בו?
ואגב קצת מוזר לי שכולם פה מתווכחים כמבינים לעומק את הטכנולוגיות בעוד שאני עדיין מתבוסס במאמרים משנות ה 80 כדי להבין את שורשי הטכנולוגיה ונאבק עם משוואות באלגברה לינארית אל תוך הלילה
או שיש פה גאונים או שממהרים לקפוץ למסקנות
כמובן שהגיוני שמשהו שם לא כצעקתה אבל להוכיח את זה על בסיס עקרונות טכניים זה קצת מצחיק

pythoni

@המלאך לגבי ההגדרה של כול ארכיטקטורת המודל שזה Transformer משודרג/משוכתב שזה חלק קטן מהמודל היא קצת. . .
וגם זה מודל LLM מסוג Transformer

נ.ב
אם תוכל לפרט ולהסביר יותר את מה שאתה טוען אשמח
נ.ב 2
LLM פרושו מודל שפה גדול ויש כול מיני סוגים של LLM
נ.ב 3
אין לי שום קשר עסקי או רגשי לחברה הנל

המלאך

@מתכנת-חובב וודאי.
אבל הוא הגדיר את החילוק כהאם יש טרנספורמר או אין..
לגופו של דבר לא צריך להיות גאון כדי להבין שמה שהוא אמר לא עובד ככה.
באגים זה דבר שיכול להיות בקצוות ההקשר, דבר שלטענתו המודל לא מחשב..
קצת קשה שלא לצחוק על התגובה הזו..
@pythoni
בכל מקרה הם טענו שזה דווקא כן! ברמת מודלי חזית כמו קלוד..
נ. ב. הסברתי כמה שיכולתי..
נ. ב. 2 למה נראה לך שנולדתי אתמול? שצריך ללמד אותי מה זה llm?
התכוונתי לומר שלהגיד שזה מבוסס טרנספורמר פירוש לומר שהשני לא. וכאן הטעות.
בכל מקרה אחרון.
כל llm משתמש בטרנספורמר משולב עם לינארי.

@מתכנת-חובב מודה.
אני לא נלחם עם השוואות אלגברה לינארית בשתים בלילה.
אבל זה דברים ידועים..

מתכנת חובב

@המלאך כתב בשיתוף | תקרת הזכוכית של עולם הAI התפוצצה????:

אבל הוא הגדיר את החילוק כהאם יש טרנספורמר או אין..
לגופו של דבר לא צריך להיות טיפש כדי להבין שמה שהוא אמר לא עובד ככה.

למה לא?
אני לא מכיר את הארכיטקטורות של המודלים של היום אבל להבנתי מודלי mamba לדוגמה הם לא בארכיטקטורת טרנספורמר וצריכת החישוב שלהם היא ליניארית
איפה הייתה הטעות?

המלאך

@מתכנת-חובב צודק.
אחזתי שהוא כתב לגבי הllm, לא לגבי המודלים הספציפיים.
אבל דרך אגב.
@pythoni
מטמון קי וי זה דבר שכל מודל למיטב ידיעתי משתמש בו..

מתכנת חובב

@המלאך כתב בשיתוף | תקרת הזכוכית של עולם הAI התפוצצה????:

אחזתי שהוא כתב לגבי הllm, לא לגבי המודלים הספציפיים.

גם מודלי LLM יכולים להיות ליניאריים

המלאך

@מתכנת-חובב לא.
שהחילוק בין מודלי llm לממבה זה הטרנספורמר.
מה שכמובן לא נכון, יש גם ממבה לllm.

מתכנת חובב

@המלאך הוא לא כתב בשום מקום שמודלי ממבה לא יכולים להיות מודלי שפה

המלאך

@מתכנת-חובב נכון.
ולכן חזרתי בי.
כשכתבתי את התגובה כך היה זכור.
ובאותה נשימה כתבתי שעיקר דבריו עדיין לא נכונים.

החכם התם

@המלאך כתב בשיתוף | תקרת הזכוכית של עולם הAI התפוצצה????:

נ. ב. 2 למה נראה לך שנולדתי אתמול? שצריך ללמד אותי מה זה llm?

מי שלא יודע מה זה LLM זה אומר שהוא נולד אתמול ?

א.מ.ד.

llm זה שם כללי, כלומר מודל שפה גדול, שיש לו כמה ארכיטקטורות אפשריות. יש ארכיטקטורת טרנספומר, שהמכפלה בה היא ריבועית, יש ארכיטקטורת mamba שהמכפלה בה היא ליניארית ולכן היא מהירה יותר, ויש סוג 3 בשם SSM שמלה שכבות טרנספומר ו-mamba בתוך אותו מודל.
יש גם ארכיטקטורת liquid כמו במודלים lfm.
מתוך הטרנספורמר השלם שפותח ע"י גוגל, llm משתמש בחציו המפענח, ואילו מודלי הטמעה משתמשים בחציו המקודד.
כלומר, llm הוא חלק מהטרנספורמר (במידה והוא מבוסס עליו), ולא הפוך.

המלאך

פוסט זה נמחק!

א.מ.ד.

פוסט זה נמחק!

המלאך

פוסט זה נמחק!

pythoni

@המלאך
מודלים לינארים טהורים ולא משולבים אין להם KV
אלא Hidden State שלא משתנה הגודל ולכן גם יש את החיסרון בשליפת פרטים קטנים מתחילת שיחה

@א.מ.ד.
לגבי הLFM השתמשתי קצת אחרי שיצא במודל של ה24B והוא די טוב בעברית וממש נחמד