בקשת מידע | DeepSeek המודל הסיני
-
@צדיק-וטוב-לו-0 כתב בבקשת מידע | DeepSeek המודל הסיני:
@NH-LOCAL כתב בבקשת מידע | DeepSeek המודל הסיני:
תחושת הבטן שלך טועה בוודאות.
אפשר לזייף כוננים בעלי אקספרס אבל לא לזייף אינטליגנציה. בייחוד שזה קוד פתוח שניתן לשכפול בקלותאפשר לשקר בקלות כמה משאבים דרש האימון או השימוש המיטבי.
אז למה העולם נלחץ?
-
@aiib כתב בבקשת מידע | DeepSeek המודל הסיני:
@NH-LOCAL כתב בבקשת מידע | DeepSeek המודל הסיני:
שים לב שצריך להפעיל את יכולת החשיבה של המודל בכפתור המתאים בממשק הצ'אט,
איזה כפתור בדיוק?
על DeepThink
-
פרק ה'!!!!!!!!!!!!!! לאיפה זה עוד יכול להגיע!!!!!!!!!!!!!!!
לא עוצרת: DeepSeek משיקה מודלים חדשים כולל ג'ינרוט תמונות
הסטארטאפ הסיני DeepSeek שמזעזע את עולם ה-AI מציג מודל ג'ינרוט תמונות חדש בשם Janus-Pro
עולם הטכנולוגיה עסוק בימים האחרונים רק בדבר אחד: DeepSeek, הסטארטאפ הסיני שמזעזע את תחום ה-AI מהיסוד, לאחר שפיתח מודלים עוצמתיים בעלות של תקציב הקייטרינג של OpenAI ו-Antrhopic. אחרי שהוביל אמש (ב') למחיקת הערך הגדולה בהיסטוריה בבורסה,, מנצל הסטארטאפ את הבאז להכרזה נוספת.
ההכרזה החדשה
המודלים החדשים של דיפסיק הם מולטי-מודאליים, כלומר יודעים להתמודד עם מספר סוגי קלט, כמו טקסט ותמונה, ובעלי יכולת ג'נרוט תמונות שיתחרו ב-DALL-E של OpenAI, מידג'רני ואחרים. כמו המודלים האחרים של החברה, גם Janus-Pro, משפחת המודלים החדשה, משוחררת בקוד פתוח (ברישיון MIT, המאפשר שימוש בהם במוצרים מסחריים ללא הגבלה) וזמינה להורדה כבר עכשיו לכל מיני שמעוניין בהם. יש שני מודלים במשפחה, אחד עם מיליארד פרמטרים והשני עם שבעה מיליארד פרמטרים.
חשוב לציין כי ב-DeepSeek הציגו כבר בשנה שעברה מודל ממשפחת Janus, אך אלו סבלו מביצועים חלשים כשקיבלו פרומפטים קצרים ולא מפורטים, ובג'ינרוט תמונות. משפחת מודלי הפרו הצליחה לפתור את הבעיות הללו על ידי אימון על דאטה-סט גדול יותר ובעזרת אסטרטגיית אימון שונה שעברה אופטימיזציה לג'ינרוט תמונות. המודל הגדול מבין השניים זמין להתנסות, למי מכם שעדיין לא בנויים להרצה של אחד על המחשב שלהם, דרך HuggingFace.
ב-DeepSeek הבינו שהדרך הכי טובה להמחיש עד כמה המודל מוצלח היא על ידי ההשוואה שלו למודלים של OpenAI, וכך עשו. בכמה בנצ'מרקים בתחום ג'ינרוט התמונות, כמו GenEval ו-DPG-Bench, המודל הגדול ביותר במשפחה החדשה (Janus-Pro-7B) עוקף את דאלי 3, כמו גם את Stable Diffusion XL ומודלים פחות מוכרים כמו PixArt-alpha ו-Emu3-Gen. חשוב לציין כי המודל יכול לנתח תמונות ברזולוציה נמוכה יותר לעומת המתחרים (עד 384×384 בלבד), אבל במקביל כל משפחת המודלים החדשה הרבה יותר קטנה מבחינת מספר הפרמטרים לעומת המתחרים.
מקור: דאלי 3
מקור: Janus-Pro-7B
מקור: אימג׳ן 3כמו עם מודל V3 של החברה, הראשון שהתחיל את הבאז הגדול סביבה, חוקרי דיפסיק אומרים כי הצליחו לפתח את המודלים החדשים עם הרצת הפריימוורק HAI-LLM ב-PyTorch (המתחרה החינמי בקוד פתוח של מטא ל-CUDA של אנבידיה) על כמה מאות GPUs בלבד. החוקרים אומרים כי תהליך האימון כולו ארך בין שבוע לשבועיים על cluster הכולל 8 מעבדי A100 של אנבידיה בלבד.
המודל החדש מייצר תמונות בגודל 768×768 בלבד, בניגוד למודלים של ענקיות הטכנולוגיה כמו דאלי 3 ואימג'ן של גוגל שמג'נרטים תמונות ב-1024×1024 (ריבוע). אימג'ן של גוגל יכול לג'נרט תמונות גם בפורמטים מלבניים כמו 16:9 ו-4:3. מההתנסות הקצרה שלנו אנחנו חייבים להודות ש-Janus לא היה מרשים מדי ובפרומפט שהזנתי אליו לעומת דאלי 3 ואימג'ן של גוגל זה די ברור שהמודל הסיני עדיין לא מתחרה אמיתי. עם זאת, ההצלחה היא כמובן באימון המתוחכם על ידי החוקרים הסיניים, והעובדה שמדובר בדור ראשון של מודל פתוח לחלוטין הזמין לשימוש ללא שום הגבלות – לעומת המודלים הסגורים של גוגל ו-OpenAI.
מקור - https://www.geektime.co.il/deepseek-shows-off-new-models/
בונוס לפרק:
מנכ"ל אינטל כבר משתמש ב-DeepSeek לסטארטאפ החדש שלו
פאט גלסינגר, מנכ"ל אינטל עד לאחרונה, סיפר כי הסטארטאפ שלו, Gloo, כבר עושה שימוש במודלים של DeepSeek במקום המודלים של OpenAI. לדבריו, ההחלטה הגיעה לאחר שהתרשם עמוקות ממודל R1 של החברה הסינית. -
@2580 כתב בבקשת מידע | DeepSeek המודל הסיני:
על פי הדיווח של The Information במשרדי מטא הקימו לא פחות מארבעה "חדרי מלחמה", במטרה לנסות לפרק לגורמים את המודלים של DeepSeek, להנדס אותם לאחור ולנסות לשחזר את "הרוטב הסודי" הזה עם לאמה 4 והמודלים הבאים של החברה. עוד דווח מפי שני עובדי מטא שאיתם שוחחו באתר האמריקאי כי מת'יו אולדהם, ראש תחום תשתיות AI של החברה, אמר למספר עובדים כי הם חוששים ש-Llama 4 לא יוכל להתחרות באלו של דיפסיק.
חשוב לציין כי "הפאניקה" הזאת במטא (כפי שהגדיר זאת עובד החברה) מגיעה בתזמון מעניין מאוד, שיכול גם להסביר את פוסט ה"למי יש יותר גדול" שפרסם מארק צוקרברג. מנכ"ל ומייסד מטא התהדר במהלך סוף השבוע בכך שמטא תוציא בין 60 ל-65 מיליארד דולר עד סוף השנה בהוצאות על שבבים וחוות שרתים ייעודיים למודלים וליישומי AI שונים: "נסיים את השנה עם 1.3 מיליון שבבים גרפיים עד סוף 2025… ונבנה חוות שרתים כל כך גדולה, שהיא תוכל לכסות חלק משמעותי ממנהטן", כתב צוקרברג בפוסט שלו. צוקרברג גם טען כי עד סוף השנה לאמה 4 יהיה "המודל המתקדם ביותר", והחברה תבנה "מהנדס AI" שיוכל לתרום משמעותית למאמצי הפיתוח של החברה.
מעניין: מטא החברה היחידה שקשורה לעניין באופן ישיר שחווה עליה בערכה כולל אתמול... (אפל ואמזון יחסית מחוץ לתמונה...)
-
@רפאל-vnkl כתב בבקשת מידע | DeepSeek המודל הסיני:
משום מה עכשיו אני לא מצליח לשלוח לו הודעות... קורה גם אצלכם או שזה רק אני?
גם אצלי. נראה שלא עומדים בעומס...
-
ויש גם פרק ו'............
זה מה שקרה כשניסינו לשאול את DeepSeek על נושאים שנויים במחלוקת בסין
האם הצ'ט-בוט החדש של דיפסיק מצנזר ידיעות לא נוחות לממשל הסיני? בהחלט. האם זה חריג? לא בטוח
בימים האחרונים נראה שיש רק שם אחד שמטריף את עולם הטכנולוגיה: DeepSeek.
הסטארטאפ הסיני, שמעטים מחוץ לקהילת המחקר וה-AI הכירו עד לאחרונה, חשף את המודלים והכלים החדשים שלו, r1 ו-v3. למרות שמדובר בסטארטאפ קטן וצעיר יחסית, ולמרות שעמדו לרשותו משאבי אימון ומיחשוב מוגבלים, הצליחו החוקרים להפתיע עם מודלים שמנצחים במבחני השוואה (Benchmark) ומוצעים כקוד פתוח, כלומר, כל אחד יכול להשתמש בו לפיתוחים שלו או להריץ אותו לוקלית על המחשב שלו. התוצאה: גלי הדף בעולם הטכנולוגיה שהגיעו מצוותי הפיתוח במטא ועד מניות השבבים בנאסד"ק.
עם זאת, בד בבד עם ההתפעלות מהפיתוח הטכנולוגי והמוצרי, רבים העלו תהיות לגבי ההטייה "הפוליטית" שלו, על מה אומן בדיוק הדאטהסט שלו, ואיזו אמת הוא ישקף בתשובות שלו. או במילים אחרות, האם כמו כל מוצר ושירות שזמין בסין, גם הוא יהיה תחת "חומת האש הגדולה" ויצונזר.
אז בדקנו את זה עם 2 סוגיות שנויות במחלוקת בסין: הטבח בכיכר טיין-אן-מן, במסגרתו נהרגו בין מאות לאלפי מפגינים נגד המשטר; וכן, סוגיית העם האויגורי, מיעוט אתני שחי במערב סין ונתון לדיכוי תרבותי ואתני. באופן לא מפתיע, המודל סירב להתייחס ל-2 הבקשות שלנו, אבל מה שמפתיע יותר מבחינתנו היה שלא היתה זו חסימה גורפת ואוטומטית… אלא בתשלומים.
(הסרטון לע"ע לא נבדק עדיין בנטפרי...)
כמו שאתם יכולים לראות בסרטון שצירפנו, המודל בהתחלה כן החל לפרט על הנושאים השנויים במחלוקת ולפלוט טקסטים כמו כל מודל אחר, אולם רגע אחרי הוא כאילו "התעשת", מחק את כל הפלט והציג הודעה גנרית: Sorry. that's beyond my current scope. Let's talk about something else".
אני שייך ל-OpenAI
אגב אלו לא התשובות המוזרות היחידות שהמודל פולט. קוראים פנו אלינו במייל האדום וגם בקבוצת הדיונים שלנו ושיתפו במסכים שמעידים על תשובות מבלבלות בנוגע למקור של המודל ומי פיתח אותו. ההסבר ככל הנראה קשור ל"הזיות" המאפיינות LLMs ולדאטה-סט עליו הם מאומנים, אבל עדיין משעשע.
כולם מצנזרים
למרות תצוגת התכלית הזו, חשוב לזכור שכל המודלים, אולי למעט Grok של xAI, מצנזרים את התשובות שהם פולטים וכוללים לא מעט "הטיות" מכוונות ומובנות. הם אולי קוראים לזה Guardrails ו-Alignment, אבל בסופו של דבר גם מודלים פרטיים אמריקאיים מסננים תשובות ומטים את הפרומפטים, כדי לשקף נורמות או אידיאולוגיות מסוימות. אחד המקרים הזכורים ביותר לכך קרה כשג'מיני, בשם ערכי הגיוון והשיוויון, יצר תמונות מדויקות היסטורית לכאורה של חיילים נאצים שחורים.
קרדיט - https://www.geektime.co.il/this-is-what-happens-when-you-ask-deepseek-about-controversial-issues/
-
@aiib כתב בבקשת מידע | DeepSeek המודל הסיני:
@2580 כתב בבקשת מידע | DeepSeek המודל הסיני:
הם כותבים שיש מתקפת סייבר ולכן יהיה בעיה להרשמה חדשה אבל משתמשים רשומים כרגיל.
והשגיאה שאני מקבל אחרי שהמודל מנסה לרוץ שיש עומסאיפה כתוב? לא נתקלתי בזה?
-
@2580 כתב בבקשת מידע | DeepSeek המודל הסיני:
@aiib כתב בבקשת מידע | DeepSeek המודל הסיני:
@2580 כתב בבקשת מידע | DeepSeek המודל הסיני:
הם כותבים שיש מתקפת סייבר ולכן יהיה בעיה להרשמה חדשה אבל משתמשים רשומים כרגיל.
והשגיאה שאני מקבל אחרי שהמודל מנסה לרוץ שיש עומסאיפה כתוב? לא נתקלתי בזה?
זה על העומס.