דילוג לתוכן
  • חוקי הפורום
  • פופולרי
  • לא נפתר
  • משתמשים
  • חיפוש גוגל בפורום
  • צור קשר
עיצובים
  • Light
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • ברירת מחדל (ללא עיצוב (ברירת מחדל))
  • ללא עיצוב (ברירת מחדל)
כיווץ
מתמחים טופ
  1. דף הבית
  2. קטגוריות בהרצה
  3. תכנות
  4. בינה מלאכותית - AI
  5. עזרה הדדית - בינה מלאכותית
  6. הסבר | הי, עצור! עידן AI חדש לפניך!

הסבר | הי, עצור! עידן AI חדש לפניך!

מתוזמן נעוץ נעול הועבר עזרה הדדית - בינה מלאכותית
46 פוסטים 12 כותבים 2.2k צפיות 19 עוקבים
  • מהישן לחדש
  • מהחדש לישן
  • הכי הרבה הצבעות
תגובה
  • תגובה כנושא
התחברו כדי לפרסם תגובה
נושא זה נמחק. רק משתמשים עם הרשאות מתאימות יוכלו לצפות בו.
  • NH.LOCALN מנותק
    NH.LOCALN מנותק
    NH.LOCAL
    מדריכים
    כתב נערך לאחרונה על ידי NH.LOCAL
    #1

    חברת OPENAI שחררו מודל חדש ניסיוני בשם O1!

    נכון לעכשיו הוא זמין למנויים בתשלום דרך צ'אט GPT, בעתיד הוא צפוי להיות משוחרר לכלל המשתמשים.

    שימו לב למדדים שלו בהשוואה לדגם האחרון שלהם - GPT4O
    מדובר בקפיצה בלתי נתפסת ביכולות כמו קידוד, מתמטיקה, מדעים, פיזיקה ועוד!

    9f52ca06-908b-4faa-a4c5-d50b9dabdf9b-image.png

    הסבר מפורט על הגרפים

    (הסיכום נכתב באמצעות צ'אט GPT, השתדלתי לתקן את הסיכום, אך יתכן וישנם עדיין טעויות קלות במספרים):

    1. מבחני תחרויות חשיבה:

    תחרות מתמטיקה (AIME 2024):
    דגם GPT-4o הצליח רק ב-13.4% מהמבחן.
    דגם o1 לעומתו הצליח ב-83.3%, שזה שיפור עצום. זו דוגמה לתחרות מתמטיקה מתקדמת מאוד, ודגם o1 מצליח בצורה מרשימה לעומת היכולות הקודמות של GPT-4o.
    גרסת "preview" של o1 הצליחה במבחן עם ציון של 56.7%, מה שמעיד שגם בשלבי הפיתוח הוא היה טוב יותר מ-GPT-4o.

    תחרות קוד (CodeForces):
    גם כאן, הביצועים של GPT-4o היו נמוכים – הוא השיג רק 11%.
    דגם o1 קיבל ציון גבוה מאוד של 89%, שזה שיפור ענק בתחרות שמצריכה פתרון בעיות קוד מורכבות בזמן אמת.

    שאלות ברמת דוקטורט (PhD) במדעים (GPQA Diamond):
    GPT-4o השיג 56.1% בשאלות מדעיות מסובכות ברמה אקדמית מתקדמת.
    דגם o1 הצליח להגיע ל-78%, מה שמראה שהוא טוב יותר אפילו מאדם מומחה (שהצליח רק ב-69.7%).

    2. מבחנים במערכות למידת מכונה (ML Benchmarks):

    יש כאן סדרה של מבחנים שמודדים את יכולות הבינה המלאכותית במתמטיקה, בפתרון בעיות מבוססות טקסט, ובהבנה של מערכות מורכבות.

    ב-MATH-500, למשל, GPT-4o השיג 60.3%, אבל דגם o1 קיבל ציון מדהים של 94.8%.
    ב-MMLU, מבחן רחב נוסף, GPT-4o קיבל 88%, בעוד ש-dgmo o1 שיפר והגיע ל-92.3%.

    3. שאלות מדעיות ברמת PhD (GPQA Diamond):

    מדובר בבחינות בתחומים כמו כימיה, פיזיקה, וביולוגיה, שנשאלות ברמה אקדמית גבוהה (ברמת דוקטורט).

    בכימיה, לדוגמה, GPT-4o קיבל 40.2%, בעוד ש-dgmo o1 השיג שיפור משמעותי והגיע ל-64.7%.

    בפיזיקה הביצועים של o1 היו גם טובים יותר, כאשר הוא קיבל 92.8% בהשוואה ל-GPT-4o עם 59.5%.

    בביולוגיה, דגם o1 קיבל ציון של 69.2%, הרבה יותר טוב מ-GPT-4o שקיבל 61.6%.

    4. מבחני השכלה כללית (Exams):

    כאן נמדדו היכולות של שני הדגמים במבחנים אקדמיים כמו מבחן AP, SAT ו-LSAT.

    לדוגמה, במבחן AP English Literature, דגם GPT-4o קיבל 68.7%, בעוד ש-dgmo o1 שיפר מעט וקיבל 69%.

    במבחנים אחרים, כמו AP Physics 2, דגם o1 הגיע ל-89%, הרבה מעל 69% של GPT-4o.

    במבחן SAT במתמטיקה, o1 היה מדויק לגמרי עם ציון של 100%, בעוד ש-GPT-4o קיבל ציון דומה של 100%, אבל מדובר בבחינה יחסית פשוטה.

    5. קטגוריות של מבחן MMLU:

    מדובר במבחנים שבוחנים ידע בתחומים שונים כמו לוגיקה פורמלית, יחסי ציבור, כלכלה, מוסר, ועוד. כאן רואים ש-dgmo o1 משפר את התוצאות ברוב הקטגוריות.

    לדוגמה, בתחום של מוסר, o1 קיבל 85.8%, בעוד ש-GPT-4o קיבל 80%.

    בקטגוריות אחרות, כמו יחסי ציבור, o1 קיבל 75%, שוב הרבה יותר טוב מ-GPT-4o.

    סיכום:

    דגם o1 מציג שיפורים משמעותיים כמעט בכל תחום שנבדק בהשוואה ל-GPT-4o, במיוחד בתחומים שדורשים חשיבה עמוקה, פתרון בעיות מתמטיות מורכבות, ותשובות לשאלות מדעיות ברמה אקדמית גבוהה. הביצועים של o1 קרובים מאוד, ולעיתים עוקפים, את הביצועים של מומחים אנושיים בתחומים מסוימים.

    בנוסף, השיפור שנראה בתמונה מתמקד בכך ש-o1 מצליח להיות יותר מדויק, להבין תהליכים מורכבים בצורה טובה יותר, ולספק תשובות ברורות ומהירות יותר, מה שיכול להפוך אותו לכלי יותר שימושי בתחומים כמו תחרויות מתמטיקה, פיזיקה, קידוד, והבנה מדעית רחבה.


    מידע נוסף:

    • https://azure.microsoft.com/en-us/blog/introducing-o1-openais-new-reasoning-model-series-for-developers-and-enterprises-on-azure/
    • https://techcrunch.com/2024/09/12/openai-unveils-a-model-that-can-fact-check-itself/
    • https://platform.openai.com/docs/guides/reasoning

    לכל הפרוייקטים שלי
    https://nhlocal.github.io

    י NH.LOCALN זונדלז 3 תגובות תגובה אחרונה
    14
    • NH.LOCALN NH.LOCAL

      חברת OPENAI שחררו מודל חדש ניסיוני בשם O1!

      נכון לעכשיו הוא זמין למנויים בתשלום דרך צ'אט GPT, בעתיד הוא צפוי להיות משוחרר לכלל המשתמשים.

      שימו לב למדדים שלו בהשוואה לדגם האחרון שלהם - GPT4O
      מדובר בקפיצה בלתי נתפסת ביכולות כמו קידוד, מתמטיקה, מדעים, פיזיקה ועוד!

      9f52ca06-908b-4faa-a4c5-d50b9dabdf9b-image.png

      הסבר מפורט על הגרפים

      (הסיכום נכתב באמצעות צ'אט GPT, השתדלתי לתקן את הסיכום, אך יתכן וישנם עדיין טעויות קלות במספרים):

      1. מבחני תחרויות חשיבה:

      תחרות מתמטיקה (AIME 2024):
      דגם GPT-4o הצליח רק ב-13.4% מהמבחן.
      דגם o1 לעומתו הצליח ב-83.3%, שזה שיפור עצום. זו דוגמה לתחרות מתמטיקה מתקדמת מאוד, ודגם o1 מצליח בצורה מרשימה לעומת היכולות הקודמות של GPT-4o.
      גרסת "preview" של o1 הצליחה במבחן עם ציון של 56.7%, מה שמעיד שגם בשלבי הפיתוח הוא היה טוב יותר מ-GPT-4o.

      תחרות קוד (CodeForces):
      גם כאן, הביצועים של GPT-4o היו נמוכים – הוא השיג רק 11%.
      דגם o1 קיבל ציון גבוה מאוד של 89%, שזה שיפור ענק בתחרות שמצריכה פתרון בעיות קוד מורכבות בזמן אמת.

      שאלות ברמת דוקטורט (PhD) במדעים (GPQA Diamond):
      GPT-4o השיג 56.1% בשאלות מדעיות מסובכות ברמה אקדמית מתקדמת.
      דגם o1 הצליח להגיע ל-78%, מה שמראה שהוא טוב יותר אפילו מאדם מומחה (שהצליח רק ב-69.7%).

      2. מבחנים במערכות למידת מכונה (ML Benchmarks):

      יש כאן סדרה של מבחנים שמודדים את יכולות הבינה המלאכותית במתמטיקה, בפתרון בעיות מבוססות טקסט, ובהבנה של מערכות מורכבות.

      ב-MATH-500, למשל, GPT-4o השיג 60.3%, אבל דגם o1 קיבל ציון מדהים של 94.8%.
      ב-MMLU, מבחן רחב נוסף, GPT-4o קיבל 88%, בעוד ש-dgmo o1 שיפר והגיע ל-92.3%.

      3. שאלות מדעיות ברמת PhD (GPQA Diamond):

      מדובר בבחינות בתחומים כמו כימיה, פיזיקה, וביולוגיה, שנשאלות ברמה אקדמית גבוהה (ברמת דוקטורט).

      בכימיה, לדוגמה, GPT-4o קיבל 40.2%, בעוד ש-dgmo o1 השיג שיפור משמעותי והגיע ל-64.7%.

      בפיזיקה הביצועים של o1 היו גם טובים יותר, כאשר הוא קיבל 92.8% בהשוואה ל-GPT-4o עם 59.5%.

      בביולוגיה, דגם o1 קיבל ציון של 69.2%, הרבה יותר טוב מ-GPT-4o שקיבל 61.6%.

      4. מבחני השכלה כללית (Exams):

      כאן נמדדו היכולות של שני הדגמים במבחנים אקדמיים כמו מבחן AP, SAT ו-LSAT.

      לדוגמה, במבחן AP English Literature, דגם GPT-4o קיבל 68.7%, בעוד ש-dgmo o1 שיפר מעט וקיבל 69%.

      במבחנים אחרים, כמו AP Physics 2, דגם o1 הגיע ל-89%, הרבה מעל 69% של GPT-4o.

      במבחן SAT במתמטיקה, o1 היה מדויק לגמרי עם ציון של 100%, בעוד ש-GPT-4o קיבל ציון דומה של 100%, אבל מדובר בבחינה יחסית פשוטה.

      5. קטגוריות של מבחן MMLU:

      מדובר במבחנים שבוחנים ידע בתחומים שונים כמו לוגיקה פורמלית, יחסי ציבור, כלכלה, מוסר, ועוד. כאן רואים ש-dgmo o1 משפר את התוצאות ברוב הקטגוריות.

      לדוגמה, בתחום של מוסר, o1 קיבל 85.8%, בעוד ש-GPT-4o קיבל 80%.

      בקטגוריות אחרות, כמו יחסי ציבור, o1 קיבל 75%, שוב הרבה יותר טוב מ-GPT-4o.

      סיכום:

      דגם o1 מציג שיפורים משמעותיים כמעט בכל תחום שנבדק בהשוואה ל-GPT-4o, במיוחד בתחומים שדורשים חשיבה עמוקה, פתרון בעיות מתמטיות מורכבות, ותשובות לשאלות מדעיות ברמה אקדמית גבוהה. הביצועים של o1 קרובים מאוד, ולעיתים עוקפים, את הביצועים של מומחים אנושיים בתחומים מסוימים.

      בנוסף, השיפור שנראה בתמונה מתמקד בכך ש-o1 מצליח להיות יותר מדויק, להבין תהליכים מורכבים בצורה טובה יותר, ולספק תשובות ברורות ומהירות יותר, מה שיכול להפוך אותו לכלי יותר שימושי בתחומים כמו תחרויות מתמטיקה, פיזיקה, קידוד, והבנה מדעית רחבה.


      מידע נוסף:

      • https://azure.microsoft.com/en-us/blog/introducing-o1-openais-new-reasoning-model-series-for-developers-and-enterprises-on-azure/
      • https://techcrunch.com/2024/09/12/openai-unveils-a-model-that-can-fact-check-itself/
      • https://platform.openai.com/docs/guides/reasoning
      י מנותק
      י מנותק
      יעקב11
      כתב נערך לאחרונה על ידי
      #2

      @NH-LOCAL איך מגיעים אליו?

      NH.LOCALN תגובה 1 תגובה אחרונה
      0
      • י יעקב11

        @NH-LOCAL איך מגיעים אליו?

        NH.LOCALN מנותק
        NH.LOCALN מנותק
        NH.LOCAL
        מדריכים
        כתב נערך לאחרונה על ידי NH.LOCAL
        #3

        @יעקב11 דרך צ'אט GPT. אך כרגע זה זמין רק למנויים בתשלום, עם מגבלה של עד 30-50 הודעות בשבוע

        לכל הפרוייקטים שלי
        https://nhlocal.github.io

        י נ 2 תגובות תגובה אחרונה
        0
        • NH.LOCALN NH.LOCAL

          @יעקב11 דרך צ'אט GPT. אך כרגע זה זמין רק למנויים בתשלום, עם מגבלה של עד 30-50 הודעות בשבוע

          י מנותק
          י מנותק
          יעקב11
          כתב נערך לאחרונה על ידי
          #4

          @NH-LOCAL יש לי בתשלום, ולא מופיע לי.
          69a1913e-3d5a-4bd2-9ff7-4e629965cd15-image.png

          NH.LOCALN תגובה 1 תגובה אחרונה
          1
          • י יעקב11

            @NH-LOCAL יש לי בתשלום, ולא מופיע לי.
            69a1913e-3d5a-4bd2-9ff7-4e629965cd15-image.png

            NH.LOCALN מנותק
            NH.LOCALN מנותק
            NH.LOCAL
            מדריכים
            כתב נערך לאחרונה על ידי NH.LOCAL
            #5

            @יעקב11 זה שוחרר רק לפני 4 שעות. סביר להניח שתקבל את זה בשעות הקרובות או מחר

            רק כשזה מגיע, תיזהר לא לבזבז את המכסה שלך אל שטויות - אלא תשאל שאלות קשות באמת! 😄 (נשמח לראות כאן דוגמאות לפתרון בעיות כמו חידות מורכבות, סודוקו, תשבץ וכו')

            לכל הפרוייקטים שלי
            https://nhlocal.github.io

            י תגובה 1 תגובה אחרונה
            3
            • NH.LOCALN NH.LOCAL

              @יעקב11 זה שוחרר רק לפני 4 שעות. סביר להניח שתקבל את זה בשעות הקרובות או מחר

              רק כשזה מגיע, תיזהר לא לבזבז את המכסה שלך אל שטויות - אלא תשאל שאלות קשות באמת! 😄 (נשמח לראות כאן דוגמאות לפתרון בעיות כמו חידות מורכבות, סודוקו, תשבץ וכו')

              י מנותק
              י מנותק
              יעקב11
              כתב נערך לאחרונה על ידי
              #6

              @NH-LOCAL כי הודעה מהם קיבלתי, מי שזה מעניין אותו.
              Hi there,

              Today we announced our new series of models, OpenAI o1. We’ve developed these models to spend more time thinking before they respond. They can reason through complex tasks and solve harder problems than previous models in science, coding, and math. Read more in our blog post.

              You can try the o1 beta in ChatGPT Plus. We’re rolling out two models:

              Our larger model, o1-preview, which has strong reasoning capabilities and broad world knowledge.
              Our smaller model, o1-mini, which is faster and is competitive with o1-preview at coding tasks (you can see how it performs here).

              These models aren’t available in the API for your account while we’re in this short beta period. (Developers on usage tier 5 will have access, but we’ll expand access to more tiers.) We’re continuing to improve o1 and we’ll be in touch as soon as it’s available to you in the API.

              Best,
              The OpenAI team

              תגובה 1 תגובה אחרונה
              2
              • י מנותק
                י מנותק
                יעקב11
                כתב נערך לאחרונה על ידי
                #7

                קיבלתי אותו, מישהו רוצה לנסות משהו?

                ש תגובה 1 תגובה אחרונה
                1
                • י מנותק
                  י מנותק
                  יעקב11
                  כתב נערך לאחרונה על ידי יעקב11
                  #8

                  הוא מעדכן אותך איך הוא חושב
                  53c3b533-ef00-4343-9db2-65d75753a2ff-image.png
                  6f9cd077-7cd5-4045-b49e-7e985bf8beb8-image.png

                  NH.LOCALN תגובה 1 תגובה אחרונה
                  1
                  • י יעקב11

                    הוא מעדכן אותך איך הוא חושב
                    53c3b533-ef00-4343-9db2-65d75753a2ff-image.png
                    6f9cd077-7cd5-4045-b49e-7e985bf8beb8-image.png

                    NH.LOCALN מנותק
                    NH.LOCALN מנותק
                    NH.LOCAL
                    מדריכים
                    כתב נערך לאחרונה על ידי
                    #9

                    @יעקב11 זו שאלה מאוד פשוטה שגם המודלים הקודמים ידעו להתמודד אתה
                    כדאי לשאול חידות היגיון מורכבות בשביל לבחון את היכולות שלו

                    אני ממליץ לשאול כל שאלה את המודל הרגיל ואם הוא טועה - לבדוק אם המודל החדש כן מצליח

                    לכל הפרוייקטים שלי
                    https://nhlocal.github.io

                    sivan22S תגובה 1 תגובה אחרונה
                    1
                    • NH.LOCALN NH.LOCAL

                      @יעקב11 זו שאלה מאוד פשוטה שגם המודלים הקודמים ידעו להתמודד אתה
                      כדאי לשאול חידות היגיון מורכבות בשביל לבחון את היכולות שלו

                      אני ממליץ לשאול כל שאלה את המודל הרגיל ואם הוא טועה - לבדוק אם המודל החדש כן מצליח

                      sivan22S מנותק
                      sivan22S מנותק
                      sivan22
                      כתב נערך לאחרונה על ידי sivan22
                      #10

                      @NH-LOCAL בעיני זה מאד מרשים כמה זה פשוט: הוא בהתחלה מדבר הרבה מאד עם עצמו, ובסוף הוא מחליט מה להגיד לך. או בעברית פשוטה: הוא חושב... הם מציינים שכמות הטוקנים שהוא מדבר לעצמו יכולה לנוע בין מאות בודדות לדברים פשוטים לעשרות אלפים לשאלות ממש קשות.

                      NH.LOCALN תגובה 1 תגובה אחרונה
                      3
                      • sivan22S sivan22

                        @NH-LOCAL בעיני זה מאד מרשים כמה זה פשוט: הוא בהתחלה מדבר הרבה מאד עם עצמו, ובסוף הוא מחליט מה להגיד לך. או בעברית פשוטה: הוא חושב... הם מציינים שכמות הטוקנים שהוא מדבר לעצמו יכולה לנוע בין מאות בודדות לדברים פשוטים לעשרות אלפים לשאלות ממש קשות.

                        NH.LOCALN מנותק
                        NH.LOCALN מנותק
                        NH.LOCAL
                        מדריכים
                        כתב נערך לאחרונה על ידי
                        #11

                        @sivan22 זה לא ממש מדויק. למעשה openai אמרו שהם מסתירים את שרשרת החשיבה האמיתית שלו כדי למנוע העתקה על ידי המתחרים. מה שרואים במהלך החשיבה הוא למעשה סוג של סיכום שמודל חיצוני נותן (אולי אפילו gpt4o)

                        לכל הפרוייקטים שלי
                        https://nhlocal.github.io

                        sivan22S תגובה 1 תגובה אחרונה
                        1
                        • NH.LOCALN NH.LOCAL

                          @sivan22 זה לא ממש מדויק. למעשה openai אמרו שהם מסתירים את שרשרת החשיבה האמיתית שלו כדי למנוע העתקה על ידי המתחרים. מה שרואים במהלך החשיבה הוא למעשה סוג של סיכום שמודל חיצוני נותן (אולי אפילו gpt4o)

                          sivan22S מנותק
                          sivan22S מנותק
                          sivan22
                          כתב נערך לאחרונה על ידי
                          #12

                          @NH-LOCAL התכוונתי שבסוף זה מודל כמו כל מודל, כלומר מקבל סדרה של טוקנים ופולט טוקן. רק שאימנו אותו קודם כל לחשוב, דהיינו לפלוט טוקנים שלא מיועדים למשתמש אבל כן חוזרים כמובן למודל, ורק בסוף הטוקנים האחרונים מגיעים למשתמש.

                          NH.LOCALN תגובה 1 תגובה אחרונה
                          4
                          • sivan22S sivan22

                            @NH-LOCAL התכוונתי שבסוף זה מודל כמו כל מודל, כלומר מקבל סדרה של טוקנים ופולט טוקן. רק שאימנו אותו קודם כל לחשוב, דהיינו לפלוט טוקנים שלא מיועדים למשתמש אבל כן חוזרים כמובן למודל, ורק בסוף הטוקנים האחרונים מגיעים למשתמש.

                            NH.LOCALN מנותק
                            NH.LOCALN מנותק
                            NH.LOCAL
                            מדריכים
                            כתב נערך לאחרונה על ידי NH.LOCAL
                            #13

                            @sivan22 אז ניסיתי את המודל החדש, את הגרסה הפחות טובה ליתר דיוק - o1 mini. ואין ספק שמדובר בשדרוג מדהים, שהולך לשבור את השוק. זה שווה 20$ לחודש בלי שום ספק! (אם כי כרגע מגבלת ההודעות היא נוראית. כ-30 עד 50 לשבוע!)

                            הוא הצליח באופן יוצא מהכלל בפתרון בעיה פשוטה עם תשובה מידית:
                            זה המודל היחיד שהצליח ליצור לי כבר בניסיון הראשון משחק סולמות ונחשים בקוד HTML.
                            כלל המודלים המובילים בשוק (עד היום...) - קלוד 3.5, gpt4o, gemini pro 1.5 נכשלו כישלון מוחץ.
                            מודל o1-mini לעומתם, יצר קוד תקין באופן מיידי.
                            (אם כי מבדיקה חוזרת - gpt4o גם הצליח ליצור קוד תקין לאחר שכשניסיתי זאת בעבר הוא נכשל שוב ושוב)

                            הוא היה יוצא מהכלל גם בסקירת קוד ארוך ומורכב (כ-750 שורות!):
                            הוא נתן שורת תיקונים ושיפורים המחשבת את הקוד עם כל מורכבתו, כולל שימת לב לפרטים קטנים.
                            אך בפועל מודל ה-o1 mini יצר שגיאות די טיפשיות בקוד. מודל ה-preview יצר קוד תקני.
                            gpt4o נתן תשובה חלקית למדי, ו-gpt4 היה אפילו גרוע יותר

                            עריכה: חשוב לציין שעדיין יש לו מגבלות היגיון בניתוח כמויות נתונים גדולות מאוד

                            לכל הפרוייקטים שלי
                            https://nhlocal.github.io

                            תגובה 1 תגובה אחרונה
                            4
                            • NH.LOCALN NH.LOCAL

                              חברת OPENAI שחררו מודל חדש ניסיוני בשם O1!

                              נכון לעכשיו הוא זמין למנויים בתשלום דרך צ'אט GPT, בעתיד הוא צפוי להיות משוחרר לכלל המשתמשים.

                              שימו לב למדדים שלו בהשוואה לדגם האחרון שלהם - GPT4O
                              מדובר בקפיצה בלתי נתפסת ביכולות כמו קידוד, מתמטיקה, מדעים, פיזיקה ועוד!

                              9f52ca06-908b-4faa-a4c5-d50b9dabdf9b-image.png

                              הסבר מפורט על הגרפים

                              (הסיכום נכתב באמצעות צ'אט GPT, השתדלתי לתקן את הסיכום, אך יתכן וישנם עדיין טעויות קלות במספרים):

                              1. מבחני תחרויות חשיבה:

                              תחרות מתמטיקה (AIME 2024):
                              דגם GPT-4o הצליח רק ב-13.4% מהמבחן.
                              דגם o1 לעומתו הצליח ב-83.3%, שזה שיפור עצום. זו דוגמה לתחרות מתמטיקה מתקדמת מאוד, ודגם o1 מצליח בצורה מרשימה לעומת היכולות הקודמות של GPT-4o.
                              גרסת "preview" של o1 הצליחה במבחן עם ציון של 56.7%, מה שמעיד שגם בשלבי הפיתוח הוא היה טוב יותר מ-GPT-4o.

                              תחרות קוד (CodeForces):
                              גם כאן, הביצועים של GPT-4o היו נמוכים – הוא השיג רק 11%.
                              דגם o1 קיבל ציון גבוה מאוד של 89%, שזה שיפור ענק בתחרות שמצריכה פתרון בעיות קוד מורכבות בזמן אמת.

                              שאלות ברמת דוקטורט (PhD) במדעים (GPQA Diamond):
                              GPT-4o השיג 56.1% בשאלות מדעיות מסובכות ברמה אקדמית מתקדמת.
                              דגם o1 הצליח להגיע ל-78%, מה שמראה שהוא טוב יותר אפילו מאדם מומחה (שהצליח רק ב-69.7%).

                              2. מבחנים במערכות למידת מכונה (ML Benchmarks):

                              יש כאן סדרה של מבחנים שמודדים את יכולות הבינה המלאכותית במתמטיקה, בפתרון בעיות מבוססות טקסט, ובהבנה של מערכות מורכבות.

                              ב-MATH-500, למשל, GPT-4o השיג 60.3%, אבל דגם o1 קיבל ציון מדהים של 94.8%.
                              ב-MMLU, מבחן רחב נוסף, GPT-4o קיבל 88%, בעוד ש-dgmo o1 שיפר והגיע ל-92.3%.

                              3. שאלות מדעיות ברמת PhD (GPQA Diamond):

                              מדובר בבחינות בתחומים כמו כימיה, פיזיקה, וביולוגיה, שנשאלות ברמה אקדמית גבוהה (ברמת דוקטורט).

                              בכימיה, לדוגמה, GPT-4o קיבל 40.2%, בעוד ש-dgmo o1 השיג שיפור משמעותי והגיע ל-64.7%.

                              בפיזיקה הביצועים של o1 היו גם טובים יותר, כאשר הוא קיבל 92.8% בהשוואה ל-GPT-4o עם 59.5%.

                              בביולוגיה, דגם o1 קיבל ציון של 69.2%, הרבה יותר טוב מ-GPT-4o שקיבל 61.6%.

                              4. מבחני השכלה כללית (Exams):

                              כאן נמדדו היכולות של שני הדגמים במבחנים אקדמיים כמו מבחן AP, SAT ו-LSAT.

                              לדוגמה, במבחן AP English Literature, דגם GPT-4o קיבל 68.7%, בעוד ש-dgmo o1 שיפר מעט וקיבל 69%.

                              במבחנים אחרים, כמו AP Physics 2, דגם o1 הגיע ל-89%, הרבה מעל 69% של GPT-4o.

                              במבחן SAT במתמטיקה, o1 היה מדויק לגמרי עם ציון של 100%, בעוד ש-GPT-4o קיבל ציון דומה של 100%, אבל מדובר בבחינה יחסית פשוטה.

                              5. קטגוריות של מבחן MMLU:

                              מדובר במבחנים שבוחנים ידע בתחומים שונים כמו לוגיקה פורמלית, יחסי ציבור, כלכלה, מוסר, ועוד. כאן רואים ש-dgmo o1 משפר את התוצאות ברוב הקטגוריות.

                              לדוגמה, בתחום של מוסר, o1 קיבל 85.8%, בעוד ש-GPT-4o קיבל 80%.

                              בקטגוריות אחרות, כמו יחסי ציבור, o1 קיבל 75%, שוב הרבה יותר טוב מ-GPT-4o.

                              סיכום:

                              דגם o1 מציג שיפורים משמעותיים כמעט בכל תחום שנבדק בהשוואה ל-GPT-4o, במיוחד בתחומים שדורשים חשיבה עמוקה, פתרון בעיות מתמטיות מורכבות, ותשובות לשאלות מדעיות ברמה אקדמית גבוהה. הביצועים של o1 קרובים מאוד, ולעיתים עוקפים, את הביצועים של מומחים אנושיים בתחומים מסוימים.

                              בנוסף, השיפור שנראה בתמונה מתמקד בכך ש-o1 מצליח להיות יותר מדויק, להבין תהליכים מורכבים בצורה טובה יותר, ולספק תשובות ברורות ומהירות יותר, מה שיכול להפוך אותו לכלי יותר שימושי בתחומים כמו תחרויות מתמטיקה, פיזיקה, קידוד, והבנה מדעית רחבה.


                              מידע נוסף:

                              • https://azure.microsoft.com/en-us/blog/introducing-o1-openais-new-reasoning-model-series-for-developers-and-enterprises-on-azure/
                              • https://techcrunch.com/2024/09/12/openai-unveils-a-model-that-can-fact-check-itself/
                              • https://platform.openai.com/docs/guides/reasoning
                              NH.LOCALN מנותק
                              NH.LOCALN מנותק
                              NH.LOCAL
                              מדריכים
                              כתב נערך לאחרונה על ידי NH.LOCAL
                              #14

                              ניסיון מעניין עם המודל בפתירת חידות:

                              gpt 4o צדק ב-2 מתוך 6 שאלות, ובשאלה אחת נוספת הוא ניחש למחצה את התשובה.

                              o1 mini צדק רק בשאלה 1 ולמעשה בלבל לגמרי את השכל בכל השאר.

                              o1 preview צדק ב-4 שאלות וניחש למחצה את שתי התשובות הנוספות.

                              המעניין הוא לראות את שרשרת המחשבה של מודל o1 שהובילה אותו לתשובה הכושלת אחרי 46 שניות!

                              https://chatgpt.com/share/66e3c4ab-ee2c-800d-b172-98c3ccc18f68

                              לכל הפרוייקטים שלי
                              https://nhlocal.github.io

                              מ תגובה 1 תגובה אחרונה
                              1
                              • י יעקב11

                                קיבלתי אותו, מישהו רוצה לנסות משהו?

                                ש מנותק
                                ש מנותק
                                שמואל5
                                כתב נערך לאחרונה על ידי שמואל5
                                #15

                                @יעקב11 כתב בהסבר | הי, עצור! עידן AI חדש לפניך!:

                                קיבלתי אותו, מישהו רוצה לנסות משהו?

                                אשמח אם תוכל להעלות לו את זה-שאלון-35481.zip

                                NH.LOCALN תגובה 1 תגובה אחרונה
                                0
                                • NH.LOCALN NH.LOCAL

                                  ניסיון מעניין עם המודל בפתירת חידות:

                                  gpt 4o צדק ב-2 מתוך 6 שאלות, ובשאלה אחת נוספת הוא ניחש למחצה את התשובה.

                                  o1 mini צדק רק בשאלה 1 ולמעשה בלבל לגמרי את השכל בכל השאר.

                                  o1 preview צדק ב-4 שאלות וניחש למחצה את שתי התשובות הנוספות.

                                  המעניין הוא לראות את שרשרת המחשבה של מודל o1 שהובילה אותו לתשובה הכושלת אחרי 46 שניות!

                                  https://chatgpt.com/share/66e3c4ab-ee2c-800d-b172-98c3ccc18f68

                                  מ מנותק
                                  מ מנותק
                                  מויטיו
                                  כתב נערך לאחרונה על ידי
                                  #16

                                  @NH-LOCAL שלשת הקישורים מגיעים לאותו המודל.

                                  NH.LOCALN תגובה 1 תגובה אחרונה
                                  0
                                  • מ מויטיו

                                    @NH-LOCAL שלשת הקישורים מגיעים לאותו המודל.

                                    NH.LOCALN מנותק
                                    NH.LOCALN מנותק
                                    NH.LOCAL
                                    מדריכים
                                    כתב נערך לאחרונה על ידי NH.LOCAL
                                    #17

                                    @מויטיו כתב בהסבר | הי, עצור! עידן AI חדש לפניך!:

                                    @NH-LOCAL שלשת הקישורים מגיעים לאותו המודל.

                                    צודק. טעות שלי. שאלתי את אותה השאלה לשלושת המודלים באותו השרשור, אז בכל פעם שביצעתי שיתוף - זה החליף למעשה את התוכן הקודם... (כעת הגדרתי שהוא יציג את התשובה המשובשת של מודל המיני בלבד)

                                    לכל הפרוייקטים שלי
                                    https://nhlocal.github.io

                                    תגובה 1 תגובה אחרונה
                                    1
                                    • ש שמואל5

                                      @יעקב11 כתב בהסבר | הי, עצור! עידן AI חדש לפניך!:

                                      קיבלתי אותו, מישהו רוצה לנסות משהו?

                                      אשמח אם תוכל להעלות לו את זה-שאלון-35481.zip

                                      NH.LOCALN מנותק
                                      NH.LOCALN מנותק
                                      NH.LOCAL
                                      מדריכים
                                      כתב נערך לאחרונה על ידי
                                      #18

                                      @שמואל5 כתב בהסבר | הי, עצור! עידן AI חדש לפניך!:

                                      @יעקב11 כתב בהסבר | הי, עצור! עידן AI חדש לפניך!:

                                      קיבלתי אותו, מישהו רוצה לנסות משהו?

                                      אשמח אם תוכל להעלות לו את זה-שאלון-35481.pdf

                                      לא ניתן לגשת לקובץ בנטפרי. תעלה אותו בקובץ זיפ

                                      לכל הפרוייקטים שלי
                                      https://nhlocal.github.io

                                      ש תגובה 1 תגובה אחרונה
                                      1
                                      • NH.LOCALN NH.LOCAL

                                        @שמואל5 כתב בהסבר | הי, עצור! עידן AI חדש לפניך!:

                                        @יעקב11 כתב בהסבר | הי, עצור! עידן AI חדש לפניך!:

                                        קיבלתי אותו, מישהו רוצה לנסות משהו?

                                        אשמח אם תוכל להעלות לו את זה-שאלון-35481.pdf

                                        לא ניתן לגשת לקובץ בנטפרי. תעלה אותו בקובץ זיפ

                                        ש מנותק
                                        ש מנותק
                                        שמואל5
                                        כתב נערך לאחרונה על ידי
                                        #19

                                        @NH-LOCAL שאלון-35481.zip

                                        NH.LOCALN תגובה 1 תגובה אחרונה
                                        0
                                        • ש שמואל5

                                          @NH-LOCAL שאלון-35481.zip

                                          NH.LOCALN מנותק
                                          NH.LOCALN מנותק
                                          NH.LOCAL
                                          מדריכים
                                          כתב נערך לאחרונה על ידי NH.LOCAL
                                          #20

                                          @שמואל5 יש לך את התשובות? כי כל העניין זה לבדוק אם הוא אכן צודק...

                                          לפי איך שזה נראה, המודל החדש הולך לגרום כאב ראש רציני למשרד החינוך...
                                          לימודי ליבה הופכים לדבר מיותר...

                                          עריכה: על השאלות שלא כוללות שרטוטים, אפילו gpt4o ידע לענות. את השאלות האחרות אין אפשרות להעתיק בצורה תקינה, ולכן המודל כמובן לא יכול לענות עליהם

                                          לכל הפרוייקטים שלי
                                          https://nhlocal.github.io

                                          ש מ 3 תגובות תגובה אחרונה
                                          1

                                          • התחברות

                                          • אין לך חשבון עדיין? הרשמה

                                          • התחברו או הירשמו כדי לחפש.
                                          • פוסט ראשון
                                            פוסט אחרון
                                          0
                                          • חוקי הפורום
                                          • פופולרי
                                          • לא נפתר
                                          • משתמשים
                                          • חיפוש גוגל בפורום
                                          • צור קשר