דילוג לתוכן
  • חוקי הפורום
  • פופולרי
  • לא נפתר
  • משתמשים
  • חיפוש גוגל בפורום
  • צור קשר
עיצובים
  • Light
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • ברירת מחדל (ללא עיצוב (ברירת מחדל))
  • ללא עיצוב (ברירת מחדל)
כיווץ
מתמחים טופ
  1. דף הבית
  2. קטגוריות בהרצה
  3. תכנות
  4. בינה מלאכותית - AI
  5. עזרה הדדית - בינה מלאכותית
  6. בקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית

בקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית

מתוזמן נעוץ נעול הועבר עזרה הדדית - בינה מלאכותית
139 פוסטים 10 כותבים 2.2k צפיות 8 עוקבים
  • מהישן לחדש
  • מהחדש לישן
  • הכי הרבה הצבעות
תגובה
  • תגובה כנושא
התחברו כדי לפרסם תגובה
נושא זה נמחק. רק משתמשים עם הרשאות מתאימות יוכלו לצפות בו.
  • א.מ.ד.א א.מ.ד.

    @mefateach כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

    @א.מ.ד. אם אתה מאמן למשימות ספציפיות לדעתי האימון הכי טוב זה לשימוש בכלים, וידע כללי, אף אחד לא ינסה לתכנת עם כזה מודל וגם לא לפתור בעיות מורכבות, לדעתי מה שהכי צריך זה מודל שיודע להשתמש בכלים בצורה טובה, זה לא מדי מסובך ועם אימון טוב זה יכול לעבוד פצצה (נניח אני מחפש אחד כזה בשביל הומ אססיטנט שיוכל לשלוט על הבית) אבל אני מאמין שזה מאוד שימושי בכללי

    שימוש בכלים זה האימון הכי קשה, כי המודל צריך ללמוד לא לשבור את הקריאות לכלי ולשמור על לולאת פעולות מורכבת לאורך שיחה ארוכה... כיום אין עדיין מודל גם לא בשפות אחרות שמוצלח בקריאה לכלי פחות מ-4B.
    דווקא ידע עולם אי אפשר טכנית להכניס במודלים קטנים, וההתקדמות בתחום הזה מינורית יחסית, אבל קידוד לא דורש הרבה ידע אלא בעיקר לוגיקה שבזה המודלים הקטנים משתפרים בשנים האחרונות.

    mefateachM מנותק
    mefateachM מנותק
    mefateach
    מדריכים
    כתב נערך לאחרונה על ידי
    #64

    @א.מ.ד. נו באמת תכנות ברובו מבוסס על ידע, צריך לדעת באיזה ספריות להשתמש מה הפרמטרים הנכונים וכו'
    בכל מקרה לא הבנתי מה כזה מסובך בכלים, אומנם הוא צריך להיות מדויק אבל לא צריך להיות כזה חכם (אולי לכלים מסובכים זה כן אבל לעשות כמה פעולות פשוטות כמו ליצור תזכורת להתקשר למישהו וכדומה הוא לא יכול לעשות?)

    Life is learning

    תגובה 1 תגובה אחרונה
    0
    • א.מ.ד.א א.מ.ד.

      @המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

      שמירה של הזיכרון זמני, @א.מ.ד. אתה גם עשית כך?

      כן כמובן.

      @המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

      הבעיה היא שזה לוקח כמה שבועות אם לא חודשים, אין לי זמן וכוח לזה.

      בהחלט, ובשביל שיהיה בחינם צריך להפעיל את זה מחדש כל יום.

      @המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

      חוץ מזה זה דורש דאטה..
      @א.מ.ד. מאיפה הדאטה שלך? הורדת את המכלול?

      הלוואי שהמכלול היה מספיק...
      מערך הנתונים שמצאתי כולל 50 מיליון פיסקאות...
      האמת היא שזה תלוי בגודל המודל. לדוגמא מודל ה-0.6B שלי השתמש רק בשבריר מהחומר, ואז מיצה את הלמידה ממנו.
      אבל בשביל לאמן מודל יותר גדול, צריך GPU יותר חזק וזה כבר עולה כסף והרבה...
      תראה את דיקטה, שיש להם מערכי נתונים עצומים בעברית, מימון (ממשלתי אם אני לא טועה) ושיתוף פעולה עמוק עם אנבידיה, ומודל ה-1.7B שלהם גרוע יחסית למודלים בשפות אחרות וחסר יכולות אמיתיות.
      מה שאני חשבתי לעשות זה לכוונן את דיקטה למשימות ספציפיות.
      אם יהיה מימון לזה אין לי בעיה לעשות את זה, אבל כמו שכתבתי זה לא כל כך פשוט...

      CSS 0C מנותק
      CSS 0C מנותק
      CSS 0
      כתב נערך לאחרונה על ידי
      #65

      @א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

      מערך הנתונים שמצאתי כולל 50 מיליון פיסקאות...

      איזה?

      לאתר שלי
      https://yosef-digital-vault.base44.app/

      תגובה 1 תגובה אחרונה
      0
      • א.מ.ד.א א.מ.ד.

        @המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

        שמירה של הזיכרון זמני, @א.מ.ד. אתה גם עשית כך?

        כן כמובן.

        @המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

        הבעיה היא שזה לוקח כמה שבועות אם לא חודשים, אין לי זמן וכוח לזה.

        בהחלט, ובשביל שיהיה בחינם צריך להפעיל את זה מחדש כל יום.

        @המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

        חוץ מזה זה דורש דאטה..
        @א.מ.ד. מאיפה הדאטה שלך? הורדת את המכלול?

        הלוואי שהמכלול היה מספיק...
        מערך הנתונים שמצאתי כולל 50 מיליון פיסקאות...
        האמת היא שזה תלוי בגודל המודל. לדוגמא מודל ה-0.6B שלי השתמש רק בשבריר מהחומר, ואז מיצה את הלמידה ממנו.
        אבל בשביל לאמן מודל יותר גדול, צריך GPU יותר חזק וזה כבר עולה כסף והרבה...
        תראה את דיקטה, שיש להם מערכי נתונים עצומים בעברית, מימון (ממשלתי אם אני לא טועה) ושיתוף פעולה עמוק עם אנבידיה, ומודל ה-1.7B שלהם גרוע יחסית למודלים בשפות אחרות וחסר יכולות אמיתיות.
        מה שאני חשבתי לעשות זה לכוונן את דיקטה למשימות ספציפיות.
        אם יהיה מימון לזה אין לי בעיה לעשות את זה, אבל כמו שכתבתי זה לא כל כך פשוט...

        mefateachM מנותק
        mefateachM מנותק
        mefateach
        מדריכים
        כתב נערך לאחרונה על ידי
        #66

        @א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

        ואז מיצה את הלמידה ממנו.

        מה זה אומר לפי מה אתה מחליט שהוא מיצה?

        Life is learning

        CSS 0C תגובה 1 תגובה אחרונה
        0
        • mefateachM mefateach

          @א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

          ואז מיצה את הלמידה ממנו.

          מה זה אומר לפי מה אתה מחליט שהוא מיצה?

          CSS 0C מנותק
          CSS 0C מנותק
          CSS 0
          כתב נערך לאחרונה על ידי
          #67

          @mefateach על פי ה loss

          לאתר שלי
          https://yosef-digital-vault.base44.app/

          תגובה 1 תגובה אחרונה
          1
          • א.מ.ד.א א.מ.ד.

            @mefateach כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

            @א.מ.ד. אם אתה מאמן למשימות ספציפיות לדעתי האימון הכי טוב זה לשימוש בכלים, וידע כללי, אף אחד לא ינסה לתכנת עם כזה מודל וגם לא לפתור בעיות מורכבות, לדעתי מה שהכי צריך זה מודל שיודע להשתמש בכלים בצורה טובה, זה לא מדי מסובך ועם אימון טוב זה יכול לעבוד פצצה (נניח אני מחפש אחד כזה בשביל הומ אססיטנט שיוכל לשלוט על הבית) אבל אני מאמין שזה מאוד שימושי בכללי

            שימוש בכלים זה האימון הכי קשה, כי המודל צריך ללמוד לא לשבור את הקריאות לכלי ולשמור על לולאת פעולות מורכבת לאורך שיחה ארוכה... כיום אין עדיין מודל גם לא בשפות אחרות שמוצלח בקריאה לכלי פחות מ-4B.
            דווקא ידע עולם אי אפשר טכנית להכניס במודלים קטנים, וההתקדמות בתחום הזה מינורית יחסית, אבל קידוד לא דורש הרבה ידע אלא בעיקר לוגיקה שבזה המודלים הקטנים משתפרים בשנים האחרונות.

            sivan22S מנותק
            sivan22S מנותק
            sivan22
            כתב נערך לאחרונה על ידי
            #68

            @א.מ.ד. הגישה היותר נכונה לדעתי היא לא לחפש מאגרי נתונים אלא לסנתז אותם, כמו שהזכרת לעיל. כך מאמנים היום את רוב/כל המודלים החדשים.
            אתה יכול לקרוא לזה גם תהליך שבו המודל הגדול (קלוד) "מלמד" את המודל הקטן.

            המלאךה א.מ.ד.א 2 תגובות תגובה אחרונה
            0
            • sivan22S sivan22

              @א.מ.ד. הגישה היותר נכונה לדעתי היא לא לחפש מאגרי נתונים אלא לסנתז אותם, כמו שהזכרת לעיל. כך מאמנים היום את רוב/כל המודלים החדשים.
              אתה יכול לקרוא לזה גם תהליך שבו המודל הגדול (קלוד) "מלמד" את המודל הקטן.

              המלאךה מנותק
              המלאךה מנותק
              המלאך
              כתב נערך לאחרונה על ידי
              #69

              @sivan22 סינסוז זה רעיון טוב כהשלמה.
              הוא אף פעם לא רעיון טוב כאימון בפני עצמו.
              יש לזה הרבה סיבות..

              תגובה 1 תגובה אחרונה
              0
              • sivan22S sivan22

                @א.מ.ד. הגישה היותר נכונה לדעתי היא לא לחפש מאגרי נתונים אלא לסנתז אותם, כמו שהזכרת לעיל. כך מאמנים היום את רוב/כל המודלים החדשים.
                אתה יכול לקרוא לזה גם תהליך שבו המודל הגדול (קלוד) "מלמד" את המודל הקטן.

                א.מ.ד.א מנותק
                א.מ.ד.א מנותק
                א.מ.ד.
                כתב נערך לאחרונה על ידי
                #70

                @sivan22 אתה מתכוון לזיקוק.
                אבל בדרך כלל משתמשים בזה על מודל קיים, כמו המודלים הקטנים של דיפסיק שבנויים על המודלים של Qwen ו-Llama.
                בשביל לבנות מאפס צריך ליצור מאות אלפי ואפילו מיליוני קטעים כאלו, ואז באמת האיכות גבוהה מאוד (מודלי Phi של מיקרוסופט אומנו בעיקר על נתונים כאלו, ונחשבו פריצת דרך בזמנם), אבל זו עבודה מטורפת ועלות גבוהה מאוד. אפשר להשתמש בזה מקסימום בשביל כוונון עדין מינימלי.

                מפתח אפליקציות אנדרואיד
                em0548438097@gmail.com

                תגובה 1 תגובה אחרונה
                0
                • א.מ.ד.א א.מ.ד.

                  @המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

                  שמירה של הזיכרון זמני, @א.מ.ד. אתה גם עשית כך?

                  כן כמובן.

                  @המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

                  הבעיה היא שזה לוקח כמה שבועות אם לא חודשים, אין לי זמן וכוח לזה.

                  בהחלט, ובשביל שיהיה בחינם צריך להפעיל את זה מחדש כל יום.

                  @המלאך כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

                  חוץ מזה זה דורש דאטה..
                  @א.מ.ד. מאיפה הדאטה שלך? הורדת את המכלול?

                  הלוואי שהמכלול היה מספיק...
                  מערך הנתונים שמצאתי כולל 50 מיליון פיסקאות...
                  האמת היא שזה תלוי בגודל המודל. לדוגמא מודל ה-0.6B שלי השתמש רק בשבריר מהחומר, ואז מיצה את הלמידה ממנו.
                  אבל בשביל לאמן מודל יותר גדול, צריך GPU יותר חזק וזה כבר עולה כסף והרבה...
                  תראה את דיקטה, שיש להם מערכי נתונים עצומים בעברית, מימון (ממשלתי אם אני לא טועה) ושיתוף פעולה עמוק עם אנבידיה, ומודל ה-1.7B שלהם גרוע יחסית למודלים בשפות אחרות וחסר יכולות אמיתיות.
                  מה שאני חשבתי לעשות זה לכוונן את דיקטה למשימות ספציפיות.
                  אם יהיה מימון לזה אין לי בעיה לעשות את זה, אבל כמו שכתבתי זה לא כל כך פשוט...

                  CSS 0C מנותק
                  CSS 0C מנותק
                  CSS 0
                  כתב נערך לאחרונה על ידי
                  #71

                  @א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

                  מערך הנתונים שמצאתי כולל 50 מיליון פיסקאות...

                  איזה?

                  (ת'אמת ראיתי משהו והוא שוקל 47GB זה זה?)

                  לאתר שלי
                  https://yosef-digital-vault.base44.app/

                  א.מ.ד.א תגובה 1 תגובה אחרונה
                  0
                  • CSS 0C CSS 0

                    @א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

                    מערך הנתונים שמצאתי כולל 50 מיליון פיסקאות...

                    איזה?

                    (ת'אמת ראיתי משהו והוא שוקל 47GB זה זה?)

                    א.מ.ד.א מנותק
                    א.מ.ד.א מנותק
                    א.מ.ד.
                    כתב נערך לאחרונה על ידי
                    #72

                    @CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

                    איזה?

                    (ת'אמת ראיתי משהו והוא שוקל 47GB זה זה?)

                    איך קוראים לו? אני יגיד לך אם כן... בגדול אין יותר מידי מערכים גדולים בעברית אז סביר להניח שזה זה.

                    מפתח אפליקציות אנדרואיד
                    em0548438097@gmail.com

                    CSS 0C תגובה 1 תגובה אחרונה
                    0
                    • א.מ.ד.א א.מ.ד.

                      @CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

                      איזה?

                      (ת'אמת ראיתי משהו והוא שוקל 47GB זה זה?)

                      איך קוראים לו? אני יגיד לך אם כן... בגדול אין יותר מידי מערכים גדולים בעברית אז סביר להניח שזה זה.

                      CSS 0C מנותק
                      CSS 0C מנותק
                      CSS 0
                      כתב נערך לאחרונה על ידי
                      #73

                      @א.מ.ד. HeDC4

                      לאתר שלי
                      https://yosef-digital-vault.base44.app/

                      א.מ.ד.א תגובה 1 תגובה אחרונה
                      0
                      • CSS 0C CSS 0

                        @א.מ.ד. HeDC4

                        א.מ.ד.א מנותק
                        א.מ.ד.א מנותק
                        א.מ.ד.
                        כתב נערך לאחרונה על ידי
                        #74

                        @CSS-0 לא חושב.

                        מפתח אפליקציות אנדרואיד
                        em0548438097@gmail.com

                        CSS 0C תגובה 1 תגובה אחרונה
                        0
                        • א.מ.ד.א א.מ.ד.

                          @CSS-0 לא חושב.

                          CSS 0C מנותק
                          CSS 0C מנותק
                          CSS 0
                          כתב נערך לאחרונה על ידי
                          #75

                          @א.מ.ד. https://huggingface.co/datasets/HeNLP/HeDC4

                          לאתר שלי
                          https://yosef-digital-vault.base44.app/

                          א.מ.ד.א תגובה 1 תגובה אחרונה
                          0
                          • CSS 0C CSS 0

                            @א.מ.ד. https://huggingface.co/datasets/HeNLP/HeDC4

                            א.מ.ד.א מנותק
                            א.מ.ד.א מנותק
                            א.מ.ד.
                            כתב נערך לאחרונה על ידי
                            #76

                            @CSS-0 הוא נראה פחות איכותי. אולי זה תרגום מכונה כלשהו.

                            מפתח אפליקציות אנדרואיד
                            em0548438097@gmail.com

                            CSS 0C תגובה 1 תגובה אחרונה
                            0
                            • א.מ.ד.א א.מ.ד.

                              @CSS-0 הוא נראה פחות איכותי. אולי זה תרגום מכונה כלשהו.

                              CSS 0C מנותק
                              CSS 0C מנותק
                              CSS 0
                              כתב נערך לאחרונה על ידי
                              #77

                              @א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

                              @CSS-0 הוא נראה פחות איכותי. אולי זה תרגום מכונה כלשהו.

                              מה זה מה שאתה מצאת?

                              לאתר שלי
                              https://yosef-digital-vault.base44.app/

                              א.מ.ד.א תגובה 1 תגובה אחרונה
                              0
                              • CSS 0C CSS 0

                                @א.מ.ד. כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

                                @CSS-0 הוא נראה פחות איכותי. אולי זה תרגום מכונה כלשהו.

                                מה זה מה שאתה מצאת?

                                א.מ.ד.א מנותק
                                א.מ.ד.א מנותק
                                א.מ.ד.
                                כתב נערך לאחרונה על ידי
                                #78

                                @CSS-0 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

                                מה זה מה שאתה מצאת?

                                https://huggingface.co/datasets/Moveo/hebrew_pretrain_v1_4baseData

                                מפתח אפליקציות אנדרואיד
                                em0548438097@gmail.com

                                תגובה 1 תגובה אחרונה
                                2
                                • ע מנותק
                                  ע מנותק
                                  עידו300
                                  כתב נערך לאחרונה על ידי
                                  #79

                                  כמה המירך צריך להיות גדול?
                                  ומה צריך להיות כתוב בו

                                  א.מ.ד.א תגובה 1 תגובה אחרונה
                                  0
                                  • ע עידו300

                                    כמה המירך צריך להיות גדול?
                                    ומה צריך להיות כתוב בו

                                    א.מ.ד.א מנותק
                                    א.מ.ד.א מנותק
                                    א.מ.ד.
                                    כתב נערך לאחרונה על ידי
                                    #80

                                    @עידו300 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

                                    כמה המירך צריך להיות גדול?
                                    ומה צריך להיות כתוב בו

                                    צריך להיות בו לפחות מיליארד טוקנים בשביל מודל בסביבות ה-2B, אבל הם צריכים להיות נקיים ואיכותיים, בלי זבל אינטרנט ותגיות HTML וכדומה.

                                    מפתח אפליקציות אנדרואיד
                                    em0548438097@gmail.com

                                    ע תגובה 1 תגובה אחרונה
                                    0
                                    • א.מ.ד.א א.מ.ד.

                                      @עידו300 כתב בבקשת מידע | מודל אופליין להבנת טקסט בשפה טבעית:

                                      כמה המירך צריך להיות גדול?
                                      ומה צריך להיות כתוב בו

                                      צריך להיות בו לפחות מיליארד טוקנים בשביל מודל בסביבות ה-2B, אבל הם צריכים להיות נקיים ואיכותיים, בלי זבל אינטרנט ותגיות HTML וכדומה.

                                      ע מנותק
                                      ע מנותק
                                      עידו300
                                      כתב נערך לאחרונה על ידי
                                      #81

                                      @א.מ.ד. כמה זה כל טוקן?
                                      אם לדוגמא נבקש מהם להשתמש בגליונות, יש שם המון חומר איכותי מקצועי בעברית ולא שטויות. אני פשוט לא יודע כמה זה כל טוקן.

                                      המלאךה א.מ.ד.א 3 תגובות תגובה אחרונה
                                      0
                                      • ע עידו300

                                        @א.מ.ד. כמה זה כל טוקן?
                                        אם לדוגמא נבקש מהם להשתמש בגליונות, יש שם המון חומר איכותי מקצועי בעברית ולא שטויות. אני פשוט לא יודע כמה זה כל טוקן.

                                        המלאךה מנותק
                                        המלאךה מנותק
                                        המלאך
                                        כתב נערך לאחרונה על ידי
                                        #82

                                        @עידו300 זה תלוי בשפה.
                                        עברית לדוגמא זה די מורכב.
                                        בגדול בשפות רגילות זה מחולק למילה.
                                        בעברית זה תלוי איזה מילים.
                                        לדוגמא "הלכתי" מחולק ל2- "הלכ" "תי".
                                        זה קצת קשה להסבר.. [סתם כך יש כמה סוגי דרכים לפרק מילה לטוקנים..]
                                        בכל מקרה האתר הזה לדוגמא [בלי להיכנס לעניין משפטי שזה כמובן אסור ומוגן בזכויות יוצרים] יש הרבה תגיות html יש צורך להוריד רווחים וכותרות.
                                        אחרי זה מחלקים לקטעים, אחרי זה אתה משתמש tokenizer של המודל לפירוק לטוקנים..
                                        לדעתי לא נראה לי אפשרי לצורך שלך לעשות אימון מלא של מודל.
                                        זה פשוט לא יהיה יעיל יחסית להשקעה.
                                        פשוט תלך על ראג'.

                                        תגובה 1 תגובה אחרונה
                                        0
                                        • ע עידו300

                                          @א.מ.ד. כמה זה כל טוקן?
                                          אם לדוגמא נבקש מהם להשתמש בגליונות, יש שם המון חומר איכותי מקצועי בעברית ולא שטויות. אני פשוט לא יודע כמה זה כל טוקן.

                                          המלאךה מנותק
                                          המלאךה מנותק
                                          המלאך
                                          כתב נערך לאחרונה על ידי
                                          #83
                                          פוסט זה נמחק!
                                          תגובה 1 תגובה אחרונה
                                          0

                                          • התחברות

                                          • אין לך חשבון עדיין? הרשמה

                                          • התחברו או הירשמו כדי לחפש.
                                          • פוסט ראשון
                                            פוסט אחרון
                                          0
                                          • חוקי הפורום
                                          • פופולרי
                                          • לא נפתר
                                          • משתמשים
                                          • חיפוש גוגל בפורום
                                          • צור קשר