שיתוף | מה חדש בבינה מלאכותית - נספח עדכוני פיצ'רים ודיונים 💬
-
לא נעים
אנתרופיק מאשרת את התלונות על ירידה באיכות של Claude Code, ושחררה תיקון יחד עם איפוס מכסות למנויים.
אחרי תלונות על ביצועים חלשים בחודש האחרון, החברה מצאה שלוש תקלות ב-Claude Code וב-Agent SDK (מה שהשפיע גם על Cowork) ותיקנה אותן בגרסה 2.1.116. הם הדגישו שהבעיה לא הייתה במודלים עצמם או ב-API. כפיצוי, כל המנויים קיבלו עכשיו איפוס מלא של מגבלות השימוש (Usage limits). פשוט תוודאו שאתם מעודכנים לגרסה החדשה.

-
![1776988080474[1].jpg](/assets/uploads/files/1776988704344-1776988080474-1-resized.jpg)
אופוס 4.7 קצת מביישת את מייטוס...
-
בנוגע לגמיני 4 מעניין האם זה רק פורץ דרך בביצועים או גם בתור מודל זה נחשב פריצת דרך כי נגיד במבחן של ARC-AGI-3 גמיני 3 לא הצליח הנה הכתבה המלאה (זה כתבה מלפני חודש בערך)
[הקרן פרס ARC של פרנסואה שולט פרסמה זה עתה את ARC-AGI-3, הגרסה החדשה ביותר של מדד החשיבה האינטראקטיבית שלה, שבו בני אדם יכולים לפתור 100% מהמשימות בניסיון הראשון, אך מודלים של בינה מלאכותית מתקשים, כאשר מערכות מובילות אפילו לא מקבלות ציון של 1%.
הפרטים:
מעבדות השקיעו מיליונים באימון מודלים על גרסאות קודמות של המבחן, והעלו את ציוני ARC-AGI-2 מ-3% לכ-50% בפחות משנה.
סוכנים מתמודדים עם תרחישים דמויי משחק ללא הוראות כלליות, ועליהם לגלות כללים, לגבש מטרות ולתכנן אסטרטגיות לגמרי מאפס.
דגמי Gemini Pro של גוגל קיבל את הציון הגבוה ביותר מבין דגמי החזית עם 0.37% בלבד, ואחריו GPT 5.4 High (0.26%), Opus 4.6 (0.25%) ו-Grok-4.20 (0%).
פרס של מיליון דולר מגבה את האתגר, והמייסד השותף מייק קנופ אומר שמעבדות פורץ דרך מקדישות תשומת לב רבה יותר ל-V3 מאשר לגרסאות קודמות.זה תמיד מטלטל לראות את הדגמים המובילים מתאפסים מתחת ל-1% במהדורה חדשה של ARC-AGI, אבל אם הבדיקות הישנות הן אינדיקציה כלשהי, מפתיע עוד יותר יהיה כמה מהר מעבדות פורצות דרך מטפסות בסולם. בין אם זה משקף היגיון אמיתי או סתם כפייה ברוטאלית יקרה יותר, זה בדיוק מה שצ'ולט בנה את V3 כדי לגלות.]
אז עם זה רק בביצועים אז לכאורה הוא יקבל אחוז-שניים אבל עם זה מודל פורץ דרך אז הוא אמור לקבל לפחות 10-15 אחוז הצלחה
ולענ''ד עם זה רק פריצת דרך בביצועים זה מראה על שחיקה כלשהו בפיתוח בדומה למה שקורה בGPT ואז יש לקוות שגמיני 5 באמת יהיה מודל פורץ דרך ולא יטחון מים טחונים בדומה לGPT ואשמח לשמוע את דעתכם בעניין
נ.ב. לכאורה מחכים שגמיני 4 יצא בשביל להשוות בין כל המודלים החדשים במחן הנ''ל