שיתוף | Gemini pro 1.5 - המודל המולטי מודאלי המעודכן של גוגל, המסוגל לנתח עד 1,000,0000 אסימונים!
-
זהו ציטוט מתוך בלוג של גוגל שפורסם בימים אלו. אני מביא אותו במלואו, מכיוון שלטעמי מדובר באחת הבשורות הגדולות בתחום!
Gemini 1.5: דגם הדור הבא שלנו, זמין כעת לתצוגה מקדימה פרטית ב-Google AI Studio
בשבוע שעבר, שחררנו את Gemini 1.0 Ultra ב-Gemini Advanced. אתה יכול לנסות את זה עכשיו על ידי הרשמה למנוי Gemini Advanced . דגם ה-1.0 Ultra, הנגיש דרך ה-API של Gemini, ראה עניין רב וממשיך להתגלגל למפתחים ושותפים נבחרים ב- Google AI Studio .
היום, אנחנו גם נרגשים להציג את הדור הבא שלנו Gemini 1.5 מודל , המשתמש בגישה חדשה של Mixture-of-Experts (MoE) כדי לשפר את היעילות. זה מנתב את הבקשה שלך לקבוצה של רשתות עצביות "מומחיות" קטנות יותר כך שהתגובות מהירות ואיכותיות יותר.
מפתחים יכולים להירשם לתצוגה המקדימה הפרטית שלנו של Gemini 1.5 Pro , המודל המולטי-מודאלי הבינוני שלנו המותאם להרחבה במגוון רחב של משימות. המודל כולל חלון הקשר חדש, ניסיוני של מיליון אסימונים, והוא יהיה זמין לניסיון ב- Google AI Studio . Google AI Studio היא הדרך המהירה ביותר לבנות עם דגמי Gemini ומאפשרת למפתחים לשלב בקלות את Gemini API ביישומים שלהם. הוא זמין ב-38 שפות ב -180+ מדינות וטריטוריות .
1,000,000 אסימונים: פתיחת מקרי שימוש חדשים למפתחים
לפני היום, חלון ההקשר הגדול ביותר בעולם למודל שפה גדול זמין לציבור היה 200,000 אסימונים. הצלחנו להגדיל את זה באופן משמעותי - הפעלת עד מיליון אסימונים באופן עקבי, והשגת את חלון ההקשר הארוך ביותר של כל מודל יסוד בקנה מידה גדול. Gemini 1.5 Pro יגיע עם חלון הקשר של 128,000 אסימונים כברירת מחדל, אך לתצוגה המקדימה הפרטית של היום תהיה גישה לחלון ההקשר הניסיוני של מיליון אסימונים.
אנו נרגשים מהאפשרויות החדשות שחלונות הקשר גדולים יותר מאפשרים. אתה יכול להעלות ישירות קובצי PDF גדולים, מאגרי קוד, או אפילו סרטונים ארוכים כהנחיות ב-Google AI Studio. לאחר מכן, Gemini 1.5 Pro יחשוב על פני אופנים וטקסט פלט.
העלה מספר קבצים ושאל שאלות
הוספנו את היכולת למפתחים להעלות קבצים מרובים, כמו קובצי PDF, ולשאול שאלות ב-Google AI Studio. חלון ההקשר הגדול יותר מאפשר למודל לקלוט יותר מידע - מה שהופך את הפלט ליותר עקבי, רלוונטי ושימושי. עם חלון ההקשר הזה של מיליון אסימונים, הצלחנו לטעון למעלה מ-700,000 מילים של טקסט במכה אחת.
שאל מאגר קוד שלם
חלון ההקשר הגדול מאפשר גם ניתוח עמוק של בסיס קוד שלם, ומסייע למודלים של Gemini לתפוס קשרים מורכבים, דפוסים והבנה של קוד. מפתח יכול להעלות בסיס קוד חדש ישירות מהמחשב שלו או דרך Google Drive, ולהשתמש במודל כדי להצטרף במהירות ולקבל הבנה של הקוד.
הוסף סרטון באורך מלא
Gemini 1.5 Pro יכול גם לחשוב על עד שעה של וידאו. כשאתה מצרף סרטון, Google AI Studio מפרק אותו לאלפי פריימים (ללא אודיו), ואז אתה יכול לבצע חשיבה ופתרון בעיות מתוחכמות ביותר מכיוון שדגמי ה-Gemini הם מולטי-מודאליים.
דרכים נוספות למפתחים לבנות עם דגמי Gemini
בנוסף להבאת לך את חידושי הדגמים האחרונים, אנחנו גם מקלים עליך לבנות עם Gemini:
-
כוונון קל. ספק סדרה של דוגמאות, ותוכל להתאים אישית את Gemini לצרכים הספציפיים שלך בתוך דקות מתוך Google AI Studio. תכונה זו יוצאת בימים הקרובים.
-
משטחי מפתחים חדשים . שלב את ה-API של Gemini כדי לבנות תכונות חדשות המופעלות על ידי בינה מלאכותית היום עם הרחבות חדשות של Firebase , ברחבי סביבת העבודה שלך בפיתוח ב- Project IDX , או עם Google AI Dart SDK החדש שלנו.
-
מחיר נמוך יותר עבור Gemini 1.0 Pro . אנחנו גם מעדכנים את דגם ה-1.0 Pro, המציע איזון טוב בין עלות וביצועים למשימות AI רבות. הגרסה היציבה של היום מתומחרת ב-50% פחות עבור קלט טקסט ו-25% פחות עבור פלטים ממה שהוכרז בעבר. תוכניות המשכורת הקרובות עבור AI Studio מגיעות בקרוב.
מאז דצמבר, מפתחים בכל הגדלים בונים עם דגמי Gemini, ואנו נרגשים להפוך מחקר חדשני למוצרי מפתחים מוקדמים ב- Google AI Studio . צפו להשהייה מסוימת בגרסת התצוגה המקדימה הזו עקב האופי הניסיוני של תכונת חלון ההקשר הגדול, אך אנו נרגשים להתחיל בהשקה מדורגת בעודנו ממשיכים לכוונן את המודל ולקבל משוב מכם. אנו מקווים שתהנו להתנסות בו בשלב מוקדם, כמו שעשינו.
לכניסה ל-google ai studio והרשמה לרשימת ההמתנה:
-
-
@מויטיו שתי בעיות בחזון הנהדר הזה:
- שימוש ב-api עולה כסף. אמנם לא הרבה, אך כשזה מצטבר לשימוש של מיליוני מילים, זה כבר עולה לא מעט.
- ניתוח ai ג'נרטבי (זה המדובר כאן) עדיין די איטי וצורך המון משאבים, מה שהופך את העסק להרבה יותר בעייתי כשצריך לחסום או לא לחסום טקסט מסויים תוך אלפיות שנייה
-
@NH-LOCAL כתב בשיתוף | Gemini pro 1.5 - המודל המולטי מודאלי המעודכן של גוגל, המסוגל לנתח עד 1,000,0000 אסימונים!:
לחסום או לא לחסום טקסט
נכון, אבל זה לא רק סינון טקסט זה יכול להיות סינון תמונות ווידאו
ואם עיקר הסינון הוא טקסט (במונחים של אסימונים, אני באמת לא יודע כמה אסימונים נחשב תמונה או פריים).
אז אפשר להשאיר את הטקסט לרובוט והתמונות והסרטונים יסוננו בבינה מלאכותית
(מה שבטוח הוא, שזה עולה הרבה פחות מבני אדם, גם אם בני האדם הללו גרים בהודו...) -
@מויטיו אסימון זה באיזור ה-0.75 של מילה
אבל אתה צודק בהחלט. זיהוי תמונות לא דורש יכולות מתוחכמות כל כך, אבל זה בהחלט יכול להעלות את רמת הדיוק. אם כי לא בטוח שזה שווה את זה
לגבי סינון וידאו - זה ודאי רעיון נהדר. לפי ההדגמה של גוגל, הוא יכול לנתח סרטון של שעה תוך כמה עשרות שניות, עם רמה של ידיעה על כל שניה בסרטון. כלומר, אפשר לשאול אותו על כל סצנה בסרטון והוא יגיד באיזה דקה ושנייה היא מופיעה בסרטון