שיתוף | תקרת הזכוכית של עולם הAI התפוצצה????
-
@המלאך הוא לא כתב בשום מקום שמודלי ממבה לא יכולים להיות מודלי שפה
@מתכנת-חובב נכון.
ולכן חזרתי בי.
כשכתבתי את התגובה כך היה זכור.
ובאותה נשימה כתבתי שעיקר דבריו עדיין לא נכונים. -
@מתכנת-חובב וודאי.
אבל הוא הגדיר את החילוק כהאם יש טרנספורמר או אין..
לגופו של דבר לא צריך להיות גאון כדי להבין שמה שהוא אמר לא עובד ככה.
באגים זה דבר שיכול להיות בקצוות ההקשר, דבר שלטענתו המודל לא מחשב..
קצת קשה שלא לצחוק על התגובה הזו..
@pythoni
בכל מקרה הם טענו שזה דווקא כן! ברמת מודלי חזית כמו קלוד..
נ. ב. הסברתי כמה שיכולתי..
נ. ב. 2 למה נראה לך שנולדתי אתמול? שצריך ללמד אותי מה זה llm?
התכוונתי לומר שלהגיד שזה מבוסס טרנספורמר פירוש לומר שהשני לא. וכאן הטעות.
בכל מקרה אחרון.
כל llm משתמש בטרנספורמר משולב עם לינארי.@מתכנת-חובב מודה.
אני לא נלחם עם השוואות אלגברה לינארית בשתים בלילה.
אבל זה דברים ידועים.. -
@מתכנת-חובב נכון.
ולכן חזרתי בי.
כשכתבתי את התגובה כך היה זכור.
ובאותה נשימה כתבתי שעיקר דבריו עדיין לא נכונים.llm זה שם כללי, כלומר מודל שפה גדול, שיש לו כמה ארכיטקטורות אפשריות. יש ארכיטקטורת טרנספומר, שהמכפלה בה היא ריבועית, יש ארכיטקטורת mamba שהמכפלה בה היא ליניארית ולכן היא מהירה יותר, ויש סוג 3 בשם SSM שמלה שכבות טרנספומר ו-mamba בתוך אותו מודל.
יש גם ארכיטקטורת liquid כמו במודלים lfm.
מתוך הטרנספורמר השלם שפותח ע"י גוגל, llm משתמש בחציו המפענח, ואילו מודלי הטמעה משתמשים בחציו המקודד.
כלומר, llm הוא חלק מהטרנספורמר (במידה והוא מבוסס עליו), ולא הפוך. -
llm זה שם כללי, כלומר מודל שפה גדול, שיש לו כמה ארכיטקטורות אפשריות. יש ארכיטקטורת טרנספומר, שהמכפלה בה היא ריבועית, יש ארכיטקטורת mamba שהמכפלה בה היא ליניארית ולכן היא מהירה יותר, ויש סוג 3 בשם SSM שמלה שכבות טרנספומר ו-mamba בתוך אותו מודל.
יש גם ארכיטקטורת liquid כמו במודלים lfm.
מתוך הטרנספורמר השלם שפותח ע"י גוגל, llm משתמש בחציו המפענח, ואילו מודלי הטמעה משתמשים בחציו המקודד.
כלומר, llm הוא חלק מהטרנספורמר (במידה והוא מבוסס עליו), ולא הפוך. -
llm זה שם כללי, כלומר מודל שפה גדול, שיש לו כמה ארכיטקטורות אפשריות. יש ארכיטקטורת טרנספומר, שהמכפלה בה היא ריבועית, יש ארכיטקטורת mamba שהמכפלה בה היא ליניארית ולכן היא מהירה יותר, ויש סוג 3 בשם SSM שמלה שכבות טרנספומר ו-mamba בתוך אותו מודל.
יש גם ארכיטקטורת liquid כמו במודלים lfm.
מתוך הטרנספורמר השלם שפותח ע"י גוגל, llm משתמש בחציו המפענח, ואילו מודלי הטמעה משתמשים בחציו המקודד.
כלומר, llm הוא חלק מהטרנספורמר (במידה והוא מבוסס עליו), ולא הפוך. -
-
@המלאך
לפי מה שהבנתי לשימוש אמתי לא חושב וכמעט בטוח שהם לא כמו קלוד אבל לסרוק קוד ולמצוא את הבאגים יכול להיות
וזה גם חלק מהמבחנים אז בקטע הזה הוא אולי יכול להיות ברמה גבוהה
?