בקשת מידע | DeepSeek המודל הסיני

צדיק תמים

@אברהם-אברהם-1 כתוב שהAPI שלהם תואם למבנה של הAPI של OpenAPI כדי שיהיה אפשר לעבור אליהם בלי לגעת בקוד קיים
זה מאוד מקובל בתחום, לדוגמה לxAI, Groq, גוגל, יש גם API תואם לספרייה של OpenAI

2580

@א-מ-ד זה בדיוק זה תסתכל בדומיין...

א.מ.ד.

@2580 צודק, לא שמתי לב... לא מצאתי את זה בדף של המודל.

א.מ.ד.

@2580 איכות יצירת התמונות שלו גרועה!!!
ביקשתי (באנגלית!) שייצור תמונה של מטוס קרב, ואלו התוצאות:
image (4).webp image (3).webp image (2).webp image (1).webp

נורא!

א.מ.ד.

בתמונות נוף הוא יותר טוב (כנראה כי אין במה לפשל כמעט):
image (6).webp image (5).webp

2580

זה לא נגמר עד שזה לא נגמר... פרק ז'...

סם אלטמן, אנבידיה וטראמפ מגיבים לראשונה לטרפת של DeepSeek

ממנכ"ל OpenAI, דרך הנשיא טראמפ ועד NVIDIA - עולם הטכנולוגיה לא נשאר אדיש לפיתוחים של DeepSeek

videoframe_2585538-1-1024x576.jpg.webp

הבאזז סביב DeepSeek לא עוצר. לצד המודלים החדשים שהציגה החברה כדי להתחרות במודלי התמונות הפופולריים, חברות הענק, כולל המתחרים של הסטארטאפ הסיני, לא נשארים אדישים.

אחרי מחיקת הערך, אנבידיה מגיבה

ההכרזות של DeepSeek, שהתפוצצו בסוף השבוע, הובילו לתנועה רצינית בבורסה אמש – כולל מחיקת הערך הגדולה בהיסטוריה של נאסד"ק. אנבידיה, שהמניה שלה התרסקה ב-17% ואיבדה 600 מיליארד דולר מערכה, הגיבה לראשונה לסטארטאפ שהצליח להגיע להישגים שלו דווקא עם החומרה החלשה שלה – ועם מעט ממנה. "DeepSeek מציגה התקדמות מדהימה ב-AI והיא דוגמה מושלמת ל-Test-Time Scaling (שיטה לשיפור ביצועי המודלים בשלב ההיסק, א.א.)", מסר דובר מטעם NVIDIA, והוסיף כי "DeepSeek ממחישה כיצד ניתן לייצר מודלים חדשים באמצעות טכניקה זו, תוך מינוף של מודלים קיימים וטכנולוגיות מחשוב שעומדות בתקנות הייצוא (שאנבידיה מאוד לא מרוצה מהן, א.א.)". בחברה כמובן לא התייחסו למחיקת הערך האדירה שלה הוביל הסטארטאפ הסיני הקטן, ונשארו דיפלומטיים – לפחות בינתיים.

המתחרה הגדול מפרגן, בערך

אבל לא רק אנבידיה הגיבה לתופעה. גם המתחרה הגדול, מנכ"ל OpenAI סם אלטמן, פרסם שורת ציוצים ב-X בתגובה להשקה האחרונה של הסטארטאפ הסיני. "R1 של דיפסיק הוא מודל מרשים, במיוחד במחיר שבו הוא מוצע", כותב אלטמן, אבל לא מפספס הזדמנות לעקוץ – "אנחנו כמובן נייצר מודלים טובים יותר". לדבריו, הוא שמח מאוד על התחרות החדשה ואף מציין כי OpenAI תקדים את ההשקה של מודלים חדשים בתגובה.

עם זאת, אלטמן לא אומר כי OpenAI תאמץ את הטריקים של DeepSeek, ותנסה לפתח מודלים עם פחות כוח מחשוב (compute), אלא להיפך: "אנחנו מאמינים כי יותר כוח מחשוב הכרחי היום יותר מאי פעם, כדי שנוכל להשלים את המשימה שלנו", כתב אלטמן כשהוא טוען כי "העולם יופתע מהדור הבא של המודלים (שישוחררו)".

מי שעוד פרגן לחברה הסינית הוא פרופסור יאן לקון, אחד החוקרים הנחשבים בעולם ה-ML וה-AI, ומי שמרכז את מאמצי מטא בתחום שאמר בתגובה להשקה של המודל של DeepSeek: "אנשים שרואים את הביצועים של DeepSeek וחושבים: 'סין עוקפת את ארה"ב בתחום ה-AI' – אתם מפרשים זאת לא נכון. הפירוש הנכון הוא: 'מודלים בקוד פתוח עוקפים מודלים סגורים'… דיפסיק הרוויחו ממחקר פתוח וקוד פתוח (לדוגמה, PyTorch ו-Llama של Meta). הם פיתחו רעיונות חדשים ובנו אותם על בסיס עבודות של אחרים. מכיוון שעבודתם פורסמה והיא בקוד פתוח, כולם יכולים להרוויח מכך. זו העוצמה של מחקר פתוח וקוד פתוח".

גם הנשיא טראמפ, שידוע ביחס המיוחד שהוא מעניק לחברות טכנולוגיה סיניות, הגיב על הפיתוח. בריאיון ל-BBC אמר טראמפ שסטארטאפ ה-AI הסיני הוא "קריאת השכמה לתעשיה שלנו". טראמפ הוסיף שכדי לנצח, האמריקאים צריכים להיות ממוקדים בתחרות "כמו לייזר". טראמפ הוסיף שהוא רואה יתרון בעלות הנמוכה של המודלים הסיניים ואמר: "במקום להוציא מיליארדים על גבי מיליארדים, תוציאו פחות ותגיעו, בתקווה, לאותו פתרון".

גם מנכ"ל אינטל לשעבר מאמץ

לא רק אלטמן התרשם מהמודל הסיני. פאט גלסינגר, מנכ"ל אינטל לשעבר ומי שהוא יו"ר הדירקטוריון של סטארטאפ בשם Gloo – המפתח מערכת לתקשורת פנימית בין כנסיות (כן, זה אמיתי) – אמר: "המוצר הפתוח מנצח. דיפסיק יעזור לנקות את העולם של מודלי ה-AI הגדולים שהולך ונסגר", כתב גלסינגר ב-X. גלסינגר אמר ל-TechCrunch כי הוא ואנשי Gloo התרשמו כל כך מ-R1 – מודל ההיסק של דיפסיק שמתחרה ב-o1 של OpenAI – שהם מתכננים להטמיע אותו לתוך המוצר שלהם. "המהנדסים בגלו כבר מריצים את R1. הם יכלו לבחור ב-o1 – אך יכלו לעשות זאת רק דרך ה-API". לדבריו המהפכה הגדולה של דיפסיק תהיה לא רק ההנגשה של AI לכולם, אלא הנגשה של AI מוצלח יותר לכולם.

כל כך גדולים שמתקפת הסייבר הגיעה

אבל עם הגדילה, הפרסום והזינוק במשתמשים מגיעים גם כאבי ראש חדשים. אמש הכריז הסטארטאפ הסיני על עצירה זמנית של הרשמת משתמשים לאפליקציה ולצ'אט שלו "עקב שורה של מתקפות על שירותי דיפסיק". נכון לכתיבת שורות אלו, בהודעה שמופיעה בעמוד ההרשמה של דיפסיק מצוין כי בעקבות המתקפה המדוברת יש עומס על ההרשמות, אך הן לא סגורות. "תודה על ההבנה והתמיכה", נכתב בהודעה. בנוסף, אם כבר נרשמתם לשירות בימים האחרונים תוכלו להתחבר אליו כרגיל.

מקור - https://www.geektime.co.il/altman-says-openai-will-pull-up-new-models-and-nvidia-reacts-to-deepseek/

2580

ולכל אלו שדאגו מגמת השיפור במניות ממשיכה.....

מייקרוסופט (כבר עברה את רף הצניחה...)

אנבידיה (עליה מתונה...)

גוגל (כבר היה היום יותר טוב... אבל עדיין עולה...)

מטא (רק הרויחו מאז שזה קרה...)

שימו לב - בכוונה אני מעלה נתונים מחמשת הימים האחרונים ולא רק של היום האחרון הם משקפים את המצב יותר טוב...

FSHLOMO

הם לא רציניים

gon.kandi

מי שלא רוצה שההודעות שלו ילכו לשרתי החברה הסינית הזאת אפשר לדבר איתו גם בלי שהנתונים עוברים לשרת https://huggingface.co/spaces/webml-community/deepseek-r1-webgpu

מוגן

@gon-kandi הוא מחזיר לי תשובה בערבית
איך מגדירים שיהיה בעברית?

ראובן שבתי

@FSHLOMO כתב בבקשת מידע | DeepSeek המודל הסיני:

הם לא רציניים

קרה לי אלף פעם בGPT
בתחילת דרכם שכל העולם התחבר לזה, זה בכלל היה קטסטרופה
שלבי הרצה קלאסיים

אהרן

@gon-kandi כתב בבקשת מידע | DeepSeek המודל הסיני:

מי שלא רוצה שההודעות שלו ילכו לשרתי החברה הסינית הזאת אפשר לדבר איתו גם בלי שהנתונים עוברים לשרת https://huggingface.co/spaces/webml-community/deepseek-r1-webgpu

מה הכוונה שהוא פועל אצלי במחשב, כל החומר יורד למחשב שלי? כל פעם מחדש? כמה זה תופס?

א.מ.ד.

@אהרן כתב בבקשת מידע | DeepSeek המודל הסיני:

@gon-kandi כתב בבקשת מידע | DeepSeek המודל הסיני:

מי שלא רוצה שההודעות שלו ילכו לשרתי החברה הסינית הזאת אפשר לדבר איתו גם בלי שהנתונים עוברים לשרת https://huggingface.co/spaces/webml-community/deepseek-r1-webgpu

מה הכוונה שהוא פועל אצלי במחשב, כל החומר יורד למחשב שלי? כל פעם מחדש? כמה זה תופס?

זה רץ על הדפדפן. יורד 1.28 GB.

ארץ הצבי

@א-מ-ד
זה כל המודל ? או חלק ממנו מקודם מישהו כתב שהוא 50GB

א.מ.ד.

@ארץ-הצבי כתב בבקשת מידע | DeepSeek המודל הסיני:

@א-מ-ד
זה כל המודל ? או חלק ממנו מקודם מישהו כתב שהוא 50GB

לא, מה פתאום, הוא 500 GB, אבל הם פיתחו איזה טכניקה שמשתמשת רק בנתונים הרלוונטיים וחוסכת 80% אאל"ט מכוח המחשוב להרצה של המודל. אבל אני באמת צריך לחקור את זה... זה יכול לאפשר הרצה של מודלים חזקים אפילו באופליין!!!

עריכה: מדובר במודל הקטן שלהם - 1.5B.

ראובן שבתי

@א-מ-ד כתב בבקשת מידע | DeepSeek המודל הסיני:

1.5B.

B or G

NH.LOCAL

@ראובן-שבתי 1.5B = 1/5 ביליון פרמטרים. וביליון בתרגום לעברית זה מיליארד

ראובן שבתי

פוסט זה נמחק!

אהרן

מישהו בדק שזה באמת לא מעביר אליהם נתונים כשהמחשב כן מחובר לרשת, ואולי אפילו באופליין הוא שומר הכל וברגע החיבור מעביר? פשוט זה סינים והם מאד חשודים בדברים האלו.

הגיבן

@aiib
מה הבעיה חופשי הממשלה שלהם מממנת אותם,
בשביל שינצחו בתחרות,
בדיוק כמו אם הרכבים החשמליים הסינים