שיתוף | תקרת הזכוכית של עולם הAI התפוצצה????
-
כבר היו מקרים מעולם של חברות קטנות ואנשים שהצליחו לפתח דברים שחברות גדולות נכשלו בהם
אם כי זה לא בר השוואה למאמץ עולמי בהיקף ובתקציב גדול כל כך
בכל אופן זה מעניין כדיון תיאורטי האם יש עדיפות לגוף גדול על פני צוות קטן בפיתוח של רעיון או שיטה חדשים לגמרי
אם הברק היכה אצל הצוות הקטן למה יש סיבה לחשוב שהחברה הגדולה הייתה אמורה להצליח יותר ממנו?
נדמיין את זה ככה
ניקח את כל הצוותים בכל החברות ואת הצוות הקטן שלנו
כל צוות עובד בנפרד
המעלה בחברות הגדולות היא שהצוותים נעזרים אחד בשני מה שלא קיים בצוות עצמאי
אבל יש לזה יתרון כשמגלים רעיון מהפכני?
אמנם יש פה שאלה של כוח מחשובי עצום שכנראה בכל מקרה יידרש אבל הדיון עדיין תקף ומעניין@מתכנת-חובב כתב בשיתוף | תקרת הזכוכית של עולם הAI התפוצצה????:
אמנם יש פה שאלה של כוח מחשובי עצום שכנראה בכל מקרה יידרש אבל הדיון עדיין תקף ומעניין
כמו שכתבתי, ייתכן שהם הגיעו לפריצת דרך בארכיטקטורה, אבל כדי להגיע לרמה של אופוס 4.7 הם צריכים את החומרה המתאימה והתקציב המתאים והדאטה המתאים. תקציב של 20 מיליון הוא ממש אפסי בתחום. אפילו דיפסיק שטוענת שעלות האימון היתה 5.6 מיליון, זה היה אחרי ניסוי וטעייה רבים, לא כולל משכורות ושאר עלויות של חברה, ולא כולל עלות החומרה, וכאמור דיפסיק כבר היתה אחרי שנים של פעילות מוערכת וצברה מספיק ידע.
להגיע עם 20 מיליון דולר להישגים כאלו זה נשמע מונפץ. -
@מתכנת-חובב כתב בשיתוף | תקרת הזכוכית של עולם הAI התפוצצה????:
אמנם יש פה שאלה של כוח מחשובי עצום שכנראה בכל מקרה יידרש אבל הדיון עדיין תקף ומעניין
כמו שכתבתי, ייתכן שהם הגיעו לפריצת דרך בארכיטקטורה, אבל כדי להגיע לרמה של אופוס 4.7 הם צריכים את החומרה המתאימה והתקציב המתאים והדאטה המתאים. תקציב של 20 מיליון הוא ממש אפסי בתחום. אפילו דיפסיק שטוענת שעלות האימון היתה 5.6 מיליון, זה היה אחרי ניסוי וטעייה רבים, לא כולל משכורות ושאר עלויות של חברה, ולא כולל עלות החומרה, וכאמור דיפסיק כבר היתה אחרי שנים של פעילות מוערכת וצברה מספיק ידע.
להגיע עם 20 מיליון דולר להישגים כאלו זה נשמע מונפץ.@א.מ.ד. נראה שלא הבנת את כוונתי
אין שום אפשרות לדחות את האפשרות שהם הגיעו לפריצת דרך משמעותית שלא מצריכה תקציב גדול
אלא מה? בהתחשב בעובדה שהם אלפית מהמאמץ העולמי ופחות מזה התקציב אז אין לזה הרבה סיכוי אבל אי אפשר לשלול את זה לגמרי
הדיון שהצעתי היה תיאורטי ולא מעשי כי אין לי עניין לדון בדבר כל כך לא מסתבר
אם אתה חושב אחרת אשמח אם תוכל להציג טענה לוגית ולא כזאת שמתבססת על נתונים שלא רלוונטיים בהינתן מצב של פריצת דרך נדירה -
@א.מ.ד. נראה שלא הבנת את כוונתי
אין שום אפשרות לדחות את האפשרות שהם הגיעו לפריצת דרך משמעותית שלא מצריכה תקציב גדול
אלא מה? בהתחשב בעובדה שהם אלפית מהמאמץ העולמי ופחות מזה התקציב אז אין לזה הרבה סיכוי אבל אי אפשר לשלול את זה לגמרי
הדיון שהצעתי היה תיאורטי ולא מעשי כי אין לי עניין לדון בדבר כל כך לא מסתבר
אם אתה חושב אחרת אשמח אם תוכל להציג טענה לוגית ולא כזאת שמתבססת על נתונים שלא רלוונטיים בהינתן מצב של פריצת דרך נדירה@מתכנת-חובב כתב בשיתוף | תקרת הזכוכית של עולם הAI התפוצצה????:
@א.מ.ד. נראה שלא הבנת את כוונתי
אין שום אפשרות לדחות את האפשרות שהם הגיעו לפריצת דרך משמעותית שלא מצריכה תקציב גדולנכון, אבל להשתמש בפריצת דרך הזו כדי לאמן מודל ברמה של אופוס 4.7 בלי תקציב גדול זה לא אפשרי.
אלא אם כן גם בזה הם היו מגיעים לפריצת דרך, ועל זה הם אפילו לא כתבו כמדומה, איך שעברתי ברפרוף על המאמרים שלהם כל החידוש הוא אך ורק בהסקה, לא באימון (ודאי לא בדאטה)
-
@מתכנת-חובב כתב בשיתוף | תקרת הזכוכית של עולם הAI התפוצצה????:
@א.מ.ד. נראה שלא הבנת את כוונתי
אין שום אפשרות לדחות את האפשרות שהם הגיעו לפריצת דרך משמעותית שלא מצריכה תקציב גדולנכון, אבל להשתמש בפריצת דרך הזו כדי לאמן מודל ברמה של אופוס 4.7 בלי תקציב גדול זה לא אפשרי.
אלא אם כן גם בזה הם היו מגיעים לפריצת דרך, ועל זה הם אפילו לא כתבו כמדומה, איך שעברתי ברפרוף על המאמרים שלהם כל החידוש הוא אך ורק בהסקה, לא באימון (ודאי לא בדאטה)
@ע-ה-דכו-ע שוב נראה שלא הבינו אותי
איך אפשר לקבוע את החוקים של הלא ידוע?
אולי הם מצאו שיטה שלא מצריכה כוח עיבוד ומחשוב
כמובן שזה ממש לא מסתבר ולכן הדיון שהעליתי הוא תיאורטי (מה גם שאתה טוען שזאת לא הטענה שלהם)
ובכל אופן את עניין התקציב ציינתי בפוסט לעיל -
ה המלאך התייחס לנושא זה
-
@ע-ה-דכו-ע שוב נראה שלא הבינו אותי
איך אפשר לקבוע את החוקים של הלא ידוע?
אולי הם מצאו שיטה שלא מצריכה כוח עיבוד ומחשוב
כמובן שזה ממש לא מסתבר ולכן הדיון שהעליתי הוא תיאורטי (מה גם שאתה טוען שזאת לא הטענה שלהם)
ובכל אופן את עניין התקציב ציינתי בפוסט לעיל@מתכנת-חובב כתב בשיתוף | תקרת הזכוכית של עולם הAI התפוצצה????:
אולי הם מצאו שיטה שלא מצריכה כוח עיבוד ומחשוב
אז למה הם לא טרחו לציין את זה?
-
@מתכנת-חובב כתב בשיתוף | תקרת הזכוכית של עולם הAI התפוצצה????:
אולי הם מצאו שיטה שלא מצריכה כוח עיבוד ומחשוב
אז למה הם לא טרחו לציין את זה?
@ע-ה-דכו-ע שוב לא דיברתי עליהם אלא דיון תיאורטי - הדגשתי את זה לכל אורך הדרך
זה התחיל כי קצת הרגיז אותי שביטלו כאן מכל וכל את האפשרות שכן קרה משהו רציני בלי להשאיר סייג אבל עזוב כבר התדרדרנו מידי -
ראשוני!!! זיוף או אמיתי??
סטארט-אפ ממיאמי טוען שהצליח לאמן מודל LLM עם חלון הקשר של 12 מליון טוקנים, שהוא פי 52 מהיר יותר וזול פי 20 בהשוואה ל-Claude Opus 4.7 ול-GPT-5.5 עם ביצועים דומים.
לשם השוואה גוגל עם כל העוצמה שלהם מגיעה לחלון הקשר של שני מליון טוקנים ונחשבת לשיא.
כמו"כ זה עולה הרבה מאוד כסף.הדבר החדשני הזה שקול לשבירת קופות של המודל הסיני הראשון!!!
הם טוענים שהוא יעיל באותה מידה כמו קלוד אופוס 4.7 וGPT 5.5!!!
אה.
שכחתי לציין הם טוענים שהמהירות גדולה יותר מהם.
בקיצור פריצת הדרך הגדולה ביותר בתולדות הAI?????סליחה שפתחתי נושא חדש.
אבל זה ממש ראוי לזה.
זה פשוט מטורף!!!!!!ולפרטים הענייניים.
מדובר פה ב https://subq.ai/ .
סטארטאפ חדש.
הוא טוען שהצליח לפתח כזה מודל.
יותר פרטים פה. -
@ע-ה-דכו-ע שוב לא דיברתי עליהם אלא דיון תיאורטי - הדגשתי את זה לכל אורך הדרך
זה התחיל כי קצת הרגיז אותי שביטלו כאן מכל וכל את האפשרות שכן קרה משהו רציני בלי להשאיר סייג אבל עזוב כבר התדרדרנו מידי@מתכנת-חובב כתב בשיתוף | תקרת הזכוכית של עולם הAI התפוצצה????:
@ע-ה-דכו-ע שוב לא דיברתי עליהם אלא דיון תיאורטי - הדגשתי את זה לכל אורך הדרך
זה התחיל כי קצת הרגיז אותי שביטלו כאן מכל וכל את האפשרות שכן קרה משהו רציני בלי להשאיר סייג אבל עזוב כבר התדרדרנו מידילא בדיוק. כתבתי די בפירוש שאי אפשר להתעלם מהאפשרות שזה אכן נכון.
אבל מניסיון העבר מומלץ להתייחס לדברים בחשדנות ולא להתלהב יותר מידי -
@המלאך נשמע מאוד מוזר. מילא להצליח לפתור בעיה בארכיטקטורת הטרנספורמר הקלאסית. אבל שהאיכות תעלה על כל המודלים המובילים, בלי שיש להם אפילו מאית מכוח החישוב שיש לשחקנים הגדולים, אין להם את הדאטה העצום, אין להם את המדענים הגדולים בתחום, ואין להם מימון לדבר הזה... זה נראה זיוף.
ראיתי כבר כמה פעמים בחודשים האחרונים דברים בסגנון, לדוגמא סטארטאפ אחד שטען שהצליח לפתח מודל שיכול להתרחב לפי דרישות המשימה או משהו ברעיון, או חברה שהעלתה אלפי מודלים ל-HF עד שאחד מרדיט גילה שאלו העתקים מדוייקים של מודלים אחרים, אפילו עם אותו HASH.
עוד דבר מוזר זה שבדרך כלל בפריצות דרך כמו בקלוד מיתוס החברה מאפשרת גישה מגבלת למספר מצומצם של אנשי מקצוע וידוענים בתחום שמנסים את הטכנולוגיה החדשה, ורק אז זה מתפרסם. הפעם חוץ מהפרסום באתר אין שום מקור שזה נכון... -
זה לא סטארט אפ חדש ומשהו גאוני כול כך זה פשוט מודל עם תהודה דליליה שזה אומר שהקונטקסט כמעט לינארי כמו ממבה שזה לינארי אך כאן זה לא לינארי לגמרי פשוט לא כול מחושבים אלא רק כאלה שזהו כחשובים ובנוסף בנו את זה לקוד המודל תוכנן מראש לפעול על בסיסי קוד ולא על טקסט פרוזה רציף. קוד תוכנה מתאפיין במבנה מודולרי, היררכי ולוגי (פונקציות, מחלקות, קריאות מקומיות). מבנה זה מאפשר למנגנונים דלילים לאתר את הקשרים הנדרשים ביעילות רבה יותר, שכן התלות בין חלקי הקוד מוגדרת היטב ואינה מפוזרת באופן אקראי על פני מיליוני שורות
-
זה לא סטארט אפ חדש ומשהו גאוני כול כך זה פשוט מודל עם תהודה דליליה שזה אומר שהקונטקסט כמעט לינארי כמו ממבה שזה לינארי אך כאן זה לא לינארי לגמרי פשוט לא כול מחושבים אלא רק כאלה שזהו כחשובים ובנוסף בנו את זה לקוד המודל תוכנן מראש לפעול על בסיסי קוד ולא על טקסט פרוזה רציף. קוד תוכנה מתאפיין במבנה מודולרי, היררכי ולוגי (פונקציות, מחלקות, קריאות מקומיות). מבנה זה מאפשר למנגנונים דלילים לאתר את הקשרים הנדרשים ביעילות רבה יותר, שכן התלות בין חלקי הקוד מוגדרת היטב ואינה מפוזרת באופן אקראי על פני מיליוני שורות
@pythoni מה הקשר?
1 - Sparse attention זה משפחה של רעיונות.
לא נכון להגיד שאין חדש
2 - בניגוד למצב זה למרות שמשתמש ב attention, עדיין נשאר כsub-quadratic ומוגדר מודל מllm לא משהו רעיוני.
3 - גם אם נניח וזה קוד וקוד יותר קל לחישוב, זה לא נותן הפרש בין 2 מליון לשרתי המפלצת של גוגל ל12!!! מליון טוקנים.
זה אומר חישוב היסטוריה וprים..
זה דבר שלגוגל עם כל המשאבים יקח כמויות של זמן חישוב ועלויות חישוב מפלצתיות.
להזכירך הם טוענים למהירות של פי 52! יותר מהר,
כמו"כ הם טוענים להוזלה משמעותית בעלויות חישוב.
זה שינוי יותר גדול.
כן.
לדעתי שינוי מלא של הטרנספורמר.
4 - אין מצב להסתמך רק על הרעיון הזה.
באגים [כידוע לכל מתכנת בר בי רב] הם דבר מאוד דינמי. הם יכולים להיות בקצוות של ההקשר - איך מודל שהם מצהירים שחכם ברמה של קלוד אופוס 4.7 וgpt 5.5 יוכל שלא לדעת למה באגים קיימים כי הוא לא מחשב אותם לינארית?
אלא אם כן.
אתה צודק.
וזה באמת הגישה של @א.מ.ד. ו @nh.local .
כי זה אומר בגדול שהם [החברה כן? לא אמד ואן איץ' לוקל
] חירטטו את השכל.
אבל להגיד שזה הגישה וזה עובד? לא נכון בכלל. -
זה לא סטארט אפ חדש ומשהו גאוני כול כך זה פשוט מודל עם תהודה דליליה שזה אומר שהקונטקסט כמעט לינארי כמו ממבה שזה לינארי אך כאן זה לא לינארי לגמרי פשוט לא כול מחושבים אלא רק כאלה שזהו כחשובים ובנוסף בנו את זה לקוד המודל תוכנן מראש לפעול על בסיסי קוד ולא על טקסט פרוזה רציף. קוד תוכנה מתאפיין במבנה מודולרי, היררכי ולוגי (פונקציות, מחלקות, קריאות מקומיות). מבנה זה מאפשר למנגנונים דלילים לאתר את הקשרים הנדרשים ביעילות רבה יותר, שכן התלות בין חלקי הקוד מוגדרת היטב ואינה מפוזרת באופן אקראי על פני מיליוני שורות
-
זה לא סטארט אפ חדש ומשהו גאוני כול כך זה פשוט מודל עם תהודה דליליה שזה אומר שהקונטקסט כמעט לינארי כמו ממבה שזה לינארי אך כאן זה לא לינארי לגמרי פשוט לא כול מחושבים אלא רק כאלה שזהו כחשובים ובנוסף בנו את זה לקוד המודל תוכנן מראש לפעול על בסיסי קוד ולא על טקסט פרוזה רציף. קוד תוכנה מתאפיין במבנה מודולרי, היררכי ולוגי (פונקציות, מחלקות, קריאות מקומיות). מבנה זה מאפשר למנגנונים דלילים לאתר את הקשרים הנדרשים ביעילות רבה יותר, שכן התלות בין חלקי הקוד מוגדרת היטב ואינה מפוזרת באופן אקראי על פני מיליוני שורות
-
@pythoni מה הקשר?
1 - Sparse attention זה משפחה של רעיונות.
לא נכון להגיד שאין חדש
2 - בניגוד למצב זה למרות שמשתמש ב attention, עדיין נשאר כsub-quadratic ומוגדר מודל מllm לא משהו רעיוני.
3 - גם אם נניח וזה קוד וקוד יותר קל לחישוב, זה לא נותן הפרש בין 2 מליון לשרתי המפלצת של גוגל ל12!!! מליון טוקנים.
זה אומר חישוב היסטוריה וprים..
זה דבר שלגוגל עם כל המשאבים יקח כמויות של זמן חישוב ועלויות חישוב מפלצתיות.
להזכירך הם טוענים למהירות של פי 52! יותר מהר,
כמו"כ הם טוענים להוזלה משמעותית בעלויות חישוב.
זה שינוי יותר גדול.
כן.
לדעתי שינוי מלא של הטרנספורמר.
4 - אין מצב להסתמך רק על הרעיון הזה.
באגים [כידוע לכל מתכנת בר בי רב] הם דבר מאוד דינמי. הם יכולים להיות בקצוות של ההקשר - איך מודל שהם מצהירים שחכם ברמה של קלוד אופוס 4.7 וgpt 5.5 יוכל שלא לדעת למה באגים קיימים כי הוא לא מחשב אותם לינארית?
אלא אם כן.
אתה צודק.
וזה באמת הגישה של @א.מ.ד. ו @nh.local .
כי זה אומר בגדול שהם [החברה כן? לא אמד ואן איץ' לוקל
] חירטטו את השכל.
אבל להגיד שזה הגישה וזה עובד? לא נכון בכלל.@המלאך זה נכון ולא נכון
1 מה שהם באמת הצליחו לעשות זה לקחת מודל שהוא לא SSM אלא Attention אך שאינו מחשב את כול האסימונים אלא מזהה את האלה שנראים לו רלונטים וביחד עם דחיסה אגרסיבית של הזיכרון KV בכ90 אחוז כך יש הרבה פחות קריאות זיכרון ופחות תעבורה בין מגשי עיבוד שיוצר צואר בקבוק ואז פחות מהירות לעומת מודל זה שהוא עובד כמעט כמו SSM2 זה נכון שזה לא ברמת מודלי חזית כמו קלוד אך הוא יכול לשמש כסורק לפרויקטים שלמים למצוא את החלק הבעיתי ומשם לדוגמא אפשר לשלוח לקלוד ומה שקיבל בציונים הגבוהים)יחסית זה בגלל שבמבחני איתור באגים הוא פשוט סורק מהר בהתיחסות למה שצריך בעוד מודלים גדולים מחשבים בצורה רביעית מלאה וכבדה אך בפתרון בעיות אין ספק שקלוד יהיה פי 2 טוב
@י.-פל.אני כתבתי את התשובה אך היה מבולבל וקשה להבנה אז העברתי לגימיני את סוף התשובה והא ניסח את הסוף )חצי חצי

-
@pythoni מה זה כל הממבו גמבו שגיבבת?!
אני תוהה האם מדובר בB-או-T רח"ל? (אם אתה אנושי אתה תבין את הקשר אם לא סביר להניח שהמודל שפה שהשתמשת בו לא יבין.)
@jack חפש בHugging Face את המודלMamba שהוא מסוג SSM )לינארי ) בניגוד למודלים הרגילים שהם מסוג Transformer
אלא אם כן אתה AI ללא גישה לרשת
ההבדל הTransformer
אם הכנסתי 100 מילים הוא משווה כל מילה מתוך ה-100 לכל אחת מ-99 המילים האחרות.כמות פעולות: בערך 100 × 100 10,000= השוואות.הלינארי פשוט יחשב 100 מילים
-
זה לא סטארט אפ חדש ומשהו גאוני כול כך זה פשוט מודל עם תהודה דליליה שזה אומר שהקונטקסט כמעט לינארי כמו ממבה שזה לינארי אך כאן זה לא לינארי לגמרי פשוט לא כול מחושבים אלא רק כאלה שזהו כחשובים ובנוסף בנו את זה לקוד המודל תוכנן מראש לפעול על בסיסי קוד ולא על טקסט פרוזה רציף. קוד תוכנה מתאפיין במבנה מודולרי, היררכי ולוגי (פונקציות, מחלקות, קריאות מקומיות). מבנה זה מאפשר למנגנונים דלילים לאתר את הקשרים הנדרשים ביעילות רבה יותר, שכן התלות בין חלקי הקוד מוגדרת היטב ואינה מפוזרת באופן אקראי על פני מיליוני שורות
@pythoni כתב בשיתוף | תקרת הזכוכית של עולם הAI התפוצצה????:
זה לא סטארט אפ חדש ומשהו גאוני כול כך זה פשוט מודל עם תהודה דליליה שזה אומר שהקונטקסט כמעט לינארי כמו ממבה שזה לינארי אך כאן זה לא לינארי לגמרי פשוט לא כול מחושבים אלא רק כאלה שזהו כחשובים ובנוסף בנו את זה לקוד המודל תוכנן מראש לפעול על בסיסי קוד ולא על טקסט פרוזה רציף. קוד תוכנה מתאפיין במבנה מודולרי, היררכי ולוגי (פונקציות, מחלקות, קריאות מקומיות). מבנה זה מאפשר למנגנונים דלילים לאתר את הקשרים הנדרשים ביעילות רבה יותר, שכן התלות בין חלקי הקוד מוגדרת היטב ואינה מפוזרת באופן אקראי על פני מיליוני שורות
פרשת סוקל או גאונות טהורה?


-
@pythoni כתב בשיתוף | תקרת הזכוכית של עולם הAI התפוצצה????:
זה לא סטארט אפ חדש ומשהו גאוני כול כך זה פשוט מודל עם תהודה דליליה שזה אומר שהקונטקסט כמעט לינארי כמו ממבה שזה לינארי אך כאן זה לא לינארי לגמרי פשוט לא כול מחושבים אלא רק כאלה שזהו כחשובים ובנוסף בנו את זה לקוד המודל תוכנן מראש לפעול על בסיסי קוד ולא על טקסט פרוזה רציף. קוד תוכנה מתאפיין במבנה מודולרי, היררכי ולוגי (פונקציות, מחלקות, קריאות מקומיות). מבנה זה מאפשר למנגנונים דלילים לאתר את הקשרים הנדרשים ביעילות רבה יותר, שכן התלות בין חלקי הקוד מוגדרת היטב ואינה מפוזרת באופן אקראי על פני מיליוני שורות
פרשת סוקל או גאונות טהורה?


@יוסלה-קניקובסקי
נכון או לא נכון הם מחרטטים בביטחון
-
@המלאך זה נכון ולא נכון
1 מה שהם באמת הצליחו לעשות זה לקחת מודל שהוא לא SSM אלא Attention אך שאינו מחשב את כול האסימונים אלא מזהה את האלה שנראים לו רלונטים וביחד עם דחיסה אגרסיבית של הזיכרון KV בכ90 אחוז כך יש הרבה פחות קריאות זיכרון ופחות תעבורה בין מגשי עיבוד שיוצר צואר בקבוק ואז פחות מהירות לעומת מודל זה שהוא עובד כמעט כמו SSM2 זה נכון שזה לא ברמת מודלי חזית כמו קלוד אך הוא יכול לשמש כסורק לפרויקטים שלמים למצוא את החלק הבעיתי ומשם לדוגמא אפשר לשלוח לקלוד ומה שקיבל בציונים הגבוהים)יחסית זה בגלל שבמבחני איתור באגים הוא פשוט סורק מהר בהתיחסות למה שצריך בעוד מודלים גדולים מחשבים בצורה רביעית מלאה וכבדה אך בפתרון בעיות אין ספק שקלוד יהיה פי 2 טוב
@י.-פל.אני כתבתי את התשובה אך היה מבולבל וקשה להבנה אז העברתי לגימיני את סוף התשובה והא ניסח את הסוף )חצי חצי
