שיתוף | תקרת הזכוכית של עולם הAI התפוצצה????

מתכנת חובב

@ע-ה-דכו-ע שוב נראה שלא הבינו אותי
איך אפשר לקבוע את החוקים של הלא ידוע?
אולי הם מצאו שיטה שלא מצריכה כוח עיבוד ומחשוב
כמובן שזה ממש לא מסתבר ולכן הדיון שהעליתי הוא תיאורטי (מה גם שאתה טוען שזאת לא הטענה שלהם)
ובכל אופן את עניין התקציב ציינתי בפוסט לעיל

ע"ה דכו"ע

@מתכנת-חובב כתב בשיתוף | תקרת הזכוכית של עולם הAI התפוצצה????:

אולי הם מצאו שיטה שלא מצריכה כוח עיבוד ומחשוב

אז למה הם לא טרחו לציין את זה?

מתכנת חובב

@ע-ה-דכו-ע שוב לא דיברתי עליהם אלא דיון תיאורטי - הדגשתי את זה לכל אורך הדרך
זה התחיל כי קצת הרגיז אותי שביטלו כאן מכל וכל את האפשרות שכן קרה משהו רציני בלי להשאיר סייג אבל עזוב כבר התדרדרנו מידי

מישהו12

@המלאך כתב בשיתוף | תקרת הזכוכית של עולם הAI התפוצצה????:

הדבר החדשני הזה שקול לשבירת קופות של המודל הסיני הראשון!!!

שבפועל היה לא כזה דרמטי ומלא שקרים

NH.LOCAL

@מתכנת-חובב כתב בשיתוף | תקרת הזכוכית של עולם הAI התפוצצה????:

@ע-ה-דכו-ע שוב לא דיברתי עליהם אלא דיון תיאורטי - הדגשתי את זה לכל אורך הדרך
זה התחיל כי קצת הרגיז אותי שביטלו כאן מכל וכל את האפשרות שכן קרה משהו רציני בלי להשאיר סייג אבל עזוב כבר התדרדרנו מידי

לא בדיוק. כתבתי די בפירוש שאי אפשר להתעלם מהאפשרות שזה אכן נכון.
אבל מניסיון העבר מומלץ להתייחס לדברים בחשדנות ולא להתלהב יותר מידי

א.מ.ד.

גם כמות המיילים שקיבלתי מאז שנרשמתי מחשידה. כבר קיבלתי 3 מיילים בניסוחים שונים שתודה שנרשמתי וכו'...

המלאך

פוסט זה נמחק!

pythoni

זה לא סטארט אפ חדש ומשהו גאוני כול כך זה פשוט מודל עם תהודה דליליה שזה אומר שהקונטקסט כמעט לינארי כמו ממבה שזה לינארי אך כאן זה לא לינארי לגמרי פשוט לא כול מחושבים אלא רק כאלה שזהו כחשובים ובנוסף בנו את זה לקוד המודל תוכנן מראש לפעול על בסיסי קוד ולא על טקסט פרוזה רציף. קוד תוכנה מתאפיין במבנה מודולרי, היררכי ולוגי (פונקציות, מחלקות, קריאות מקומיות). מבנה זה מאפשר למנגנונים דלילים לאתר את הקשרים הנדרשים ביעילות רבה יותר, שכן התלות בין חלקי הקוד מוגדרת היטב ואינה מפוזרת באופן אקראי על פני מיליוני שורות

המלאך

@pythoni מה הקשר?
1 - Sparse attention זה משפחה של רעיונות.
לא נכון להגיד שאין חדש
2 - בניגוד למצב זה למרות שמשתמש ב attention, עדיין נשאר כsub-quadratic ומוגדר מודל מllm לא משהו רעיוני.
3 - גם אם נניח וזה קוד וקוד יותר קל לחישוב, זה לא נותן הפרש בין 2 מליון לשרתי המפלצת של גוגל ל12!!! מליון טוקנים.
זה אומר חישוב היסטוריה וprים..
זה דבר שלגוגל עם כל המשאבים יקח כמויות של זמן חישוב ועלויות חישוב מפלצתיות.
להזכירך הם טוענים למהירות של פי 52! יותר מהר,
כמו"כ הם טוענים להוזלה משמעותית בעלויות חישוב.
זה שינוי יותר גדול.
כן.
לדעתי שינוי מלא של הטרנספורמר.
4 - אין מצב להסתמך רק על הרעיון הזה.
באגים [כידוע לכל מתכנת בר בי רב] הם דבר מאוד דינמי. הם יכולים להיות בקצוות של ההקשר - איך מודל שהם מצהירים שחכם ברמה של קלוד אופוס 4.7 וgpt 5.5 יוכל שלא לדעת למה באגים קיימים כי הוא לא מחשב אותם לינארית?
אלא אם כן.
אתה צודק.
וזה באמת הגישה של @א.מ.ד. ו @nh.local .
כי זה אומר בגדול שהם [החברה כן? לא אמד ואן איץ' לוקל ] חירטטו את השכל.
אבל להגיד שזה הגישה וזה עובד? לא נכון בכלל.

י. פל.

@pythoni
זה ג׳מיני, נכון?

NH.LOCAL

@י.-פל. כתב בשיתוף | תקרת הזכוכית של עולם הAI התפוצצה????:

@pythoni
זה ג׳מיני, נכון?

זה בוודאי לא ג'מיני ככתבו וכלשונו, ג'מיני היה עורך ומנסח את זה בצורה הרבה יותר מתוחכמת ומפוצצת
(אם כי יתכן שזו העתקה וניסוח מחדש באופן חלקי)

jack

@pythoni מה זה כל הממבו גמבו שגיבבת?!

אני תוהה האם מדובר בB-או-T רח"ל? (אם אתה אנושי אתה תבין את הקשר אם לא סביר להניח שהמודל שפה שהשתמשת בו לא יבין.)

pythoni

@המלאך זה נכון ולא נכון
1 מה שהם באמת הצליחו לעשות זה לקחת מודל שהוא לא SSM אלא Attention אך שאינו מחשב את כול האסימונים אלא מזהה את האלה שנראים לו רלונטים וביחד עם דחיסה אגרסיבית של הזיכרון KV בכ90 אחוז כך יש הרבה פחות קריאות זיכרון ופחות תעבורה בין מגשי עיבוד שיוצר צואר בקבוק ואז פחות מהירות לעומת מודל זה שהוא עובד כמעט כמו SSM

2 זה נכון שזה לא ברמת מודלי חזית כמו קלוד אך הוא יכול לשמש כסורק לפרויקטים שלמים למצוא את החלק הבעיתי ומשם לדוגמא אפשר לשלוח לקלוד ומה שקיבל בציונים הגבוהים)יחסית זה בגלל שבמבחני איתור באגים הוא פשוט סורק מהר בהתיחסות למה שצריך בעוד מודלים גדולים מחשבים בצורה רביעית מלאה וכבדה אך בפתרון בעיות אין ספק שקלוד יהיה פי 2 טוב
@י.-פל.

אני כתבתי את התשובה אך היה מבולבל וקשה להבנה אז העברתי לגימיני את סוף התשובה והא ניסח את הסוף )חצי חצי

pythoni

@jack חפש בHugging Face את המודלMamba שהוא מסוג SSM )לינארי ) בניגוד למודלים הרגילים שהם מסוג Transformer

אלא אם כן אתה AI ללא גישה לרשת

ההבדל הTransformer
אם הכנסתי 100 מילים הוא משווה כל מילה מתוך ה-100 לכל אחת מ-99 המילים האחרות.כמות פעולות: בערך 100 × 100 10,000= השוואות.

הלינארי פשוט יחשב 100 מילים

יוסלה קניקובסקי

@pythoni כתב בשיתוף | תקרת הזכוכית של עולם הAI התפוצצה????:

זה לא סטארט אפ חדש ומשהו גאוני כול כך זה פשוט מודל עם תהודה דליליה שזה אומר שהקונטקסט כמעט לינארי כמו ממבה שזה לינארי אך כאן זה לא לינארי לגמרי פשוט לא כול מחושבים אלא רק כאלה שזהו כחשובים ובנוסף בנו את זה לקוד המודל תוכנן מראש לפעול על בסיסי קוד ולא על טקסט פרוזה רציף. קוד תוכנה מתאפיין במבנה מודולרי, היררכי ולוגי (פונקציות, מחלקות, קריאות מקומיות). מבנה זה מאפשר למנגנונים דלילים לאתר את הקשרים הנדרשים ביעילות רבה יותר, שכן התלות בין חלקי הקוד מוגדרת היטב ואינה מפוזרת באופן אקראי על פני מיליוני שורות

פרשת סוקל או גאונות טהורה?

pythoni

@יוסלה-קניקובסקי
נכון או לא נכון הם מחרטטים בביטחון

המלאך

@pythoni שני אופציות.
או שאתה קשור אליהם והם מחרטטים.
או שזה אתה.
תעבור שוב על הפוסט שלי.

המלאך

@pythoni סתם ככה זה לא טרנספורמר.
זה llm.
טרנספורמר זה חלק קטן במודל.

מתכנת חובב

@המלאך טרנספורמר זו לא הארכיטקטורה של המודל שבתכלס' מקיפה כמעט את כל החלקים בו?
ואגב קצת מוזר לי שכולם פה מתווכחים כמבינים לעומק את הטכנולוגיות בעוד שאני עדיין מתבוסס במאמרים משנות ה 80 כדי להבין את שורשי הטכנולוגיה ונאבק עם משוואות באלגברה לינארית אל תוך הלילה
או שיש פה גאונים או שממהרים לקפוץ למסקנות
כמובן שהגיוני שמשהו שם לא כצעקתה אבל להוכיח את זה על בסיס עקרונות טכניים זה קצת מצחיק

pythoni

@המלאך לגבי ההגדרה של כול ארכיטקטורת המודל שזה Transformer משודרג/משוכתב שזה חלק קטן מהמודל היא קצת. . .
וגם זה מודל LLM מסוג Transformer

נ.ב
אם תוכל לפרט ולהסביר יותר את מה שאתה טוען אשמח
נ.ב 2
LLM פרושו מודל שפה גדול ויש כול מיני סוגים של LLM
נ.ב 3
אין לי שום קשר עסקי או רגשי לחברה הנל

שיתוף | תקרת הזכוכית של עולם הAI התפוצצה????

ראשוני!!! זיוף או אמיתי??