דילוג לתוכן
  • חוקי הפורום
  • פופולרי
  • לא נפתר
  • משתמשים
  • חיפוש גוגל בפורום
  • צור קשר
עיצובים
  • Light
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • ברירת מחדל (ללא עיצוב (ברירת מחדל))
  • ללא עיצוב (ברירת מחדל)
כיווץ
מתמחים טופ
  1. דף הבית
  2. קטגוריות בהרצה
  3. תכנות
  4. בינה מלאכותית - AI
  5. עזרה הדדית - בינה מלאכותית
  6. בקשה | פיתוח זיהוי כתב יד בעברית יוצא לדרך! בואו והצטרפו!

בקשה | פיתוח זיהוי כתב יד בעברית יוצא לדרך! בואו והצטרפו!

מתוזמן נעוץ נעול הועבר עזרה הדדית - בינה מלאכותית
123 פוסטים 17 כותבים 3.6k צפיות 37 עוקבים
  • מהישן לחדש
  • מהחדש לישן
  • הכי הרבה הצבעות
תגובה
  • תגובה כנושא
התחברו כדי לפרסם תגובה
נושא זה נמחק. רק משתמשים עם הרשאות מתאימות יוכלו לצפות בו.
  • S SBW

    @975
    כמעט דייקת - מה שצריך באמת זה זה https://huggingface.co/datasets/sivan22/hebrew-handwritten-dataset
    @sivan22 כבר הכין את זה עם מאות דוגמאות לכל אות

    ע"ה דכו"עע מנותק
    ע"ה דכו"עע מנותק
    ע"ה דכו"ע
    כתב נערך לאחרונה על ידי ע"ה דכו"ע
    #104

    @SBW כתב בבקשה | פיתוח זיהוי כתב יד בעברית יוצא לדרך! בואו והצטרפו!:

    @975
    כמעט דייקת - מה שצריך באמת זה זה https://huggingface.co/datasets/sivan22/hebrew-handwritten-dataset
    @sivan22 כבר הכין את זה עם מאות דוגמאות לכל אות

    לא נכון, מה שצריך באמת זה את המאגר השני, ואפילו הוא לא מספיק טוב כיוון שהוא לא כולל מעברי שורות.

    באימון על אותיות יחידות בלבד הרמה תהיה ס"ה כמו לאמן ABBYY על הרבה אותיות, כלומר, לא מידי מדוייק, ולא מתקרב לרמה של למידת מכונה איכותית

    S תגובה 1 תגובה אחרונה
    0
    • S SBW

      בשביל כזה פרויקט יש בזה 2 שלבים עיקריים
      שלב א' - זיהוי גבולות ההטקסט - כלומר שבאמצעות איזה שיטה ספריית קוד או מודל מאומן - יזוהה איזור הטקסט, אם קיימים מספר עמודות וגבולותיהם, יזוהו הגבולות השורות, וגבולות המילים, וגבולות האותיות - כולל ישור הדף לסריקה או כתיבה עקומה. וסדר מימין לשמאל.
      ברגע שיש את גבולות האותיות ניתן לעבור לשלב ב'.
      שלב ב' - מודל שיכול לקבל קטל של תמונת אות ותת פלט של איזה אות זה .
      בשביל לבנות מודל צריך שיהיה דוגמיות מכל סוג צריך כמות של עשרות מכל אות וזה מספיק למודלים טובים.
      ---בכדי לבנות משהו שיכול לעבוד על מחשב ממוצע של אברייכים - רצוי לבנות מודל שיכול לעבוד בכו סביבה.

      אחרי השלבים האלו - ניתן לכתוב קוד שיבצע את השלבים בזה אחר זה ויתן פלט - לעשות ממשק נח שיכולים להוסיף דרכו עוד דוגמיות למודל עצמו, וכך מתוך הכתב יד הספציפי שאתה רוצה לפענח יש ממנו דוגמיות במודל, ולכן זה יעבוד בקרוב ל מאת האחוזים על כל כתב יד.
      [כמו כן ניתן לעשות שיהיה ויזאליזציה ומספור - שתראה את סדר העמודות והשורות והמילים בכל שורה. כך שאם זיהוי הגבולות לא יהיה מדויק תוכל לתקן אותו באמצעות העכבר]


      לשלב א' ניתן להשתמש אפי' בספריית פיתון OpenCV, [יש עוד ספריות תומכות בפעולות כאלו אבל זה טוב מספיק].
      לשלב ב' עדיף לבנות מודל לפחות EfficientNet-B0.
      ויש לציין שיהיה צורך להשתמש בPyTorch או PyQt5 ועוד כלים [לפחות בnumpy torch torchvision matplotlib pandas pyqt5] בכדי להוסיף דיוק
      [ועדיף שהדוגמית עצמם של האותיות לא יהיו חתוכים במרובע רק בפוליגון]
      (קל לבנות מודל מדוגמיות שנבנו בתוכנה שמתאימה לבניית דוגמאות לזה - כמו Label Studio (ניתן לעשות שם ממשק נח לעשות תיוג) או אפי' VGG Image Annotator - יש יצוא מסודר ובנוי לזה)
      [ויש אפשרות לבנות עם TrOCR ואז זה שני השלבים יחד רק צריכים להשתמש בדוגמיות של עברית שקיימות בגיטהב וכדו' ולהתאים לעברית]

      באם זה לא מובן דיו - תוכל לשאול כל מודל על טקסט זה רק תכתוב לו כך "אני רוצה לבנות תוכנה עם ממשק ידידותי שמתאים לוינדוס - ויעבוד במחשב סטנדרטי באופן מקומי - ויפענח כתב יד בעברית.
      לפניך איזה תכנית תעזור להבין אותה ואיך ליישם אותה".
      ותצרף את הנ"ל ותראה פלאים. -תוך כמה שעות זה יהיה בנוי....

      א מנותק
      א מנותק
      אלף שין
      כתב נערך לאחרונה על ידי
      #105

      @SBW
      לא ולא,
      אין שום ענין שזה יעבוד על מחשב של אברך
      עיין ערך מודל תמלול של דיקטה שמיועד למחשבי אברכים
      עדיף שיהיה משהו עוצמתי ומדוייק מאד
      גם אם זה דורש שרת ויהיה בתשלום מלא [רק פחות מקלדנית כמובן...]
      טוב ציפור אחת ביד מאשר דימיונות על העץ

      המחשב נועד לשרת את האדם ולא האדם את המחשב

      ע"ה דכו"עע S 2 תגובות תגובה אחרונה
      0
      • א אלף שין

        @SBW
        לא ולא,
        אין שום ענין שזה יעבוד על מחשב של אברך
        עיין ערך מודל תמלול של דיקטה שמיועד למחשבי אברכים
        עדיף שיהיה משהו עוצמתי ומדוייק מאד
        גם אם זה דורש שרת ויהיה בתשלום מלא [רק פחות מקלדנית כמובן...]
        טוב ציפור אחת ביד מאשר דימיונות על העץ

        ע"ה דכו"עע מנותק
        ע"ה דכו"עע מנותק
        ע"ה דכו"ע
        כתב נערך לאחרונה על ידי
        #106

        @אלף-שין כתב בבקשה | פיתוח זיהוי כתב יד בעברית יוצא לדרך! בואו והצטרפו!:

        [רק פחות מקלדנית כמובן...]

        וגם פחות מג'מיני, שאת היכולות שלו לא יצליחו לעקוף.

        תגובה 1 תגובה אחרונה
        0
        • א אלף שין

          @SBW
          לא ולא,
          אין שום ענין שזה יעבוד על מחשב של אברך
          עיין ערך מודל תמלול של דיקטה שמיועד למחשבי אברכים
          עדיף שיהיה משהו עוצמתי ומדוייק מאד
          גם אם זה דורש שרת ויהיה בתשלום מלא [רק פחות מקלדנית כמובן...]
          טוב ציפור אחת ביד מאשר דימיונות על העץ

          S מנותק
          S מנותק
          SBW
          כתב נערך לאחרונה על ידי
          #107

          @אלף-שין אני מכיר קלדנים שזה מה שהם עושים.
          וזה עובד יפה מאוד.

          ע"ה דכו"עע א 2 תגובות תגובה אחרונה
          0
          • S SBW

            @אלף-שין אני מכיר קלדנים שזה מה שהם עושים.
            וזה עובד יפה מאוד.

            ע"ה דכו"עע מנותק
            ע"ה דכו"עע מנותק
            ע"ה דכו"ע
            כתב נערך לאחרונה על ידי
            #108

            @SBW כתב בבקשה | פיתוח זיהוי כתב יד בעברית יוצא לדרך! בואו והצטרפו!:

            @אלף-שין אני מכיר קלדנים שזה מה שהם עושים.
            וזה עובד יפה מאוד.

            מה? המודל של דיקטה?

            S תגובה 1 תגובה אחרונה
            0
            • ע"ה דכו"עע ע"ה דכו"ע

              @SBW כתב בבקשה | פיתוח זיהוי כתב יד בעברית יוצא לדרך! בואו והצטרפו!:

              @975
              כמעט דייקת - מה שצריך באמת זה זה https://huggingface.co/datasets/sivan22/hebrew-handwritten-dataset
              @sivan22 כבר הכין את זה עם מאות דוגמאות לכל אות

              לא נכון, מה שצריך באמת זה את המאגר השני, ואפילו הוא לא מספיק טוב כיוון שהוא לא כולל מעברי שורות.

              באימון על אותיות יחידות בלבד הרמה תהיה ס"ה כמו לאמן ABBYY על הרבה אותיות, כלומר, לא מידי מדוייק, ולא מתקרב לרמה של למידת מכונה איכותית

              S מנותק
              S מנותק
              SBW
              כתב נערך לאחרונה על ידי
              #109

              @ע-ה-דכו-ע
              לא מדויק כלל
              EfficientNet זה מודל למידת מכונה עמוקה.
              תעשה בירור


              מודל יעודי הוא עדיף עשרת מונים על מודל שיש לו יכולות נוספות.
              במקרה רגיל אימון מודל זה מורכב אבל בשביל 27 אותיות עם כמה סימוני פסיק - לבנות מודל כזה מאפס זה די קל.

              ע"ה דכו"עע תגובה 1 תגובה אחרונה
              0
              • S SBW

                @ע-ה-דכו-ע
                לא מדויק כלל
                EfficientNet זה מודל למידת מכונה עמוקה.
                תעשה בירור


                מודל יעודי הוא עדיף עשרת מונים על מודל שיש לו יכולות נוספות.
                במקרה רגיל אימון מודל זה מורכב אבל בשביל 27 אותיות עם כמה סימוני פסיק - לבנות מודל כזה מאפס זה די קל.

                ע"ה דכו"עע מנותק
                ע"ה דכו"עע מנותק
                ע"ה דכו"ע
                כתב נערך לאחרונה על ידי
                #110

                @SBW כתב בבקשה | פיתוח זיהוי כתב יד בעברית יוצא לדרך! בואו והצטרפו!:

                @ע-ה-דכו-ע
                לא מדויק כלל
                EfficientNet זה מודל למידת מכונה עמוקה.
                תעשה בירור

                מדוע זה הופך את מה שאמרתי ללא מדוייק?

                תגובה 1 תגובה אחרונה
                0
                • ע"ה דכו"עע ע"ה דכו"ע

                  @SBW כתב בבקשה | פיתוח זיהוי כתב יד בעברית יוצא לדרך! בואו והצטרפו!:

                  @אלף-שין אני מכיר קלדנים שזה מה שהם עושים.
                  וזה עובד יפה מאוד.

                  מה? המודל של דיקטה?

                  S מנותק
                  S מנותק
                  SBW
                  כתב נערך לאחרונה על ידי
                  #111

                  @ע-ה-דכו-ע
                  לא הם בנו לבד לבד מודל EfficientNet

                  תגובה 1 תגובה אחרונה
                  0
                  • S SBW

                    @אלף-שין אני מכיר קלדנים שזה מה שהם עושים.
                    וזה עובד יפה מאוד.

                    א מנותק
                    א מנותק
                    אלף שין
                    כתב נערך לאחרונה על ידי
                    #112

                    @SBW כתב בבקשה | פיתוח זיהוי כתב יד בעברית יוצא לדרך! בואו והצטרפו!:

                    @אלף-שין אני מכיר קלדנים שזה מה שהם עושים.
                    וזה עובד יפה מאוד.

                    נא לפרט יותר,
                    וגם איך הם עושים את זה
                    והאם הם מוכרים את מה שעשו

                    המחשב נועד לשרת את האדם ולא האדם את המחשב

                    תגובה 1 תגובה אחרונה
                    0
                    • ל מנותק
                      ל מנותק
                      לומד ומתלמד
                      כתב נערך לאחרונה על ידי
                      #113

                      @אלף-שין
                      האם יש חדש בנושא ?
                      אני עוקב, וכבר זמן רב שאין התקדמות
                      יצויין, אין לי מה לתרום, כיון שאיני מבין כלל בנושא, אבל יש לי צורך בכך.
                      אשמח לעדכון

                      א תגובה 1 תגובה אחרונה
                      2
                      • ל לומד ומתלמד

                        @אלף-שין
                        האם יש חדש בנושא ?
                        אני עוקב, וכבר זמן רב שאין התקדמות
                        יצויין, אין לי מה לתרום, כיון שאיני מבין כלל בנושא, אבל יש לי צורך בכך.
                        אשמח לעדכון

                        א מנותק
                        א מנותק
                        אלף שין
                        כתב נערך לאחרונה על ידי
                        #114

                        @לומד-ומתלמד
                        תתייג את @sbw ואת @shalomke

                        המחשב נועד לשרת את האדם ולא האדם את המחשב

                        תגובה 1 תגובה אחרונה
                        0
                        • S מנותק
                          S מנותק
                          shalomke
                          כתב נערך לאחרונה על ידי
                          #115

                          אני מציע שאני אקים שרת שבו כל אחד יכול להעלות את כתב ידו
                          תהיה אפשרות לחלוקה אוטומטית ותיוג אוטומטי של אותיות לקבוצות
                          המשתמש יצטרך לענות על כל קבוצה איזו אות היא וכך המודל ישתפר לאט לאט
                          את הקוד אני אפרסם בגיטהאב
                          אני רק צריך לחשוב על פתרון היכן לאחסן את הדאטה בייס
                          מבלי שאני אצטרך לשלם עליו
                          בסופו של דבר התוכנה תהיה פתוחה לציבור

                          י תגובה 1 תגובה אחרונה
                          2
                          • S מנותק
                            S מנותק
                            shalomke
                            כתב נערך לאחרונה על ידי
                            #116

                            hebrew_ocr_system_88d4623b.plan.pdf
                            הציבור מוזמן לקרוא את התוכנית ולהציע שינויים

                            תגובה 1 תגובה אחרונה
                            0
                            • S מנותק
                              S מנותק
                              shalomke
                              כתב נערך לאחרונה על ידי
                              #117

                              hebrew_ocr_system_88d4623b.plan.pdf
                              הוספתי לתוכנית חידוד התמונות לפני אימון

                              א י ל 3 תגובות תגובה אחרונה
                              0
                              • S shalomke

                                hebrew_ocr_system_88d4623b.plan.pdf
                                הוספתי לתוכנית חידוד התמונות לפני אימון

                                א מנותק
                                א מנותק
                                אלף שין
                                כתב נערך לאחרונה על ידי
                                #118

                                @shalomke
                                וואו
                                רק לקבל כזה תוכנית זה אמור להיות בתשלום גבוה
                                זה נראה מקצועי ממש....

                                המחשב נועד לשרת את האדם ולא האדם את המחשב

                                תגובה 1 תגובה אחרונה
                                0
                                • S shalomke

                                  hebrew_ocr_system_88d4623b.plan.pdf
                                  הוספתי לתוכנית חידוד התמונות לפני אימון

                                  י מנותק
                                  י מנותק
                                  ישיבישער
                                  כתב נערך לאחרונה על ידי
                                  #119

                                  @shalomke כתב בבקשה | פיתוח זיהוי כתב יד בעברית יוצא לדרך! בואו והצטרפו!:

                                  hebrew_ocr_system_88d4623b.plan.pdf
                                  הוספתי לתוכנית חידוד התמונות לפני אימון

                                  זה לא נפתח לי, אולי הבעיה בנטפרי.

                                  ע"ה דכו"עע תגובה 1 תגובה אחרונה
                                  0
                                  • י ישיבישער

                                    @shalomke כתב בבקשה | פיתוח זיהוי כתב יד בעברית יוצא לדרך! בואו והצטרפו!:

                                    hebrew_ocr_system_88d4623b.plan.pdf
                                    הוספתי לתוכנית חידוד התמונות לפני אימון

                                    זה לא נפתח לי, אולי הבעיה בנטפרי.

                                    ע"ה דכו"עע מנותק
                                    ע"ה דכו"עע מנותק
                                    ע"ה דכו"ע
                                    כתב נערך לאחרונה על ידי
                                    #120

                                    @ישיבישער תגדיר בהגדרות סינון בנטפרי שלא יהיה אזהרה על שיבוש קבצים

                                    י תגובה 1 תגובה אחרונה
                                    0
                                    • ע"ה דכו"עע ע"ה דכו"ע

                                      @ישיבישער תגדיר בהגדרות סינון בנטפרי שלא יהיה אזהרה על שיבוש קבצים

                                      י מנותק
                                      י מנותק
                                      ישיבישער
                                      כתב נערך לאחרונה על ידי
                                      #121

                                      @ע-ה-דכו-ע כתב בבקשה | פיתוח זיהוי כתב יד בעברית יוצא לדרך! בואו והצטרפו!:

                                      תגדיר בהגדרות סינון בנטפרי שלא יהיה אזהרה על שיבוש קבצים

                                      אני על סינון של משהו אחר, ולכן אני לא יכול לשנות את הגדרות הסינון, מה הבעיה להעלות את הקובץ הזה לפורום?

                                      תגובה 1 תגובה אחרונה
                                      1
                                      • S shalomke

                                        אני מציע שאני אקים שרת שבו כל אחד יכול להעלות את כתב ידו
                                        תהיה אפשרות לחלוקה אוטומטית ותיוג אוטומטי של אותיות לקבוצות
                                        המשתמש יצטרך לענות על כל קבוצה איזו אות היא וכך המודל ישתפר לאט לאט
                                        את הקוד אני אפרסם בגיטהאב
                                        אני רק צריך לחשוב על פתרון היכן לאחסן את הדאטה בייס
                                        מבלי שאני אצטרך לשלם עליו
                                        בסופו של דבר התוכנה תהיה פתוחה לציבור

                                        י מנותק
                                        י מנותק
                                        ישיבישער
                                        כתב נערך לאחרונה על ידי
                                        #122

                                        @shalomke בכל אופן, עם ישראל עומד מאחוריך , אם זה יצליח והלוואי שזה יצליח זה יהיה אחד המהפכות הכי חזקות והכי רציניות בעולם התורה, זה פשוט יעשה הסטוריה, רק לשם המחשה היום סיפרתי לכמה חברים שעובדים על כזו תוכנה, אתה צריך לראות את ההתרגשות שהייתה בקרב הקהל על זה, אתה חייב, אבל חייב להצליח!!!!

                                        תגובה 1 תגובה אחרונה
                                        2
                                        • S shalomke

                                          hebrew_ocr_system_88d4623b.plan.pdf
                                          הוספתי לתוכנית חידוד התמונות לפני אימון

                                          ל מנותק
                                          ל מנותק
                                          לומד ומתלמד
                                          כתב נערך לאחרונה על ידי
                                          #123

                                          @shalomke כתב בבקשה | פיתוח זיהוי כתב יד בעברית יוצא לדרך! בואו והצטרפו!:

                                          הדף מוציא שגיאה 403
                                          גם לי לא נפתח, גם לא בחלוון גלישה בסתר שבדרך כלל מועיל בנטפרי

                                          תגובה 1 תגובה אחרונה
                                          0

                                          • התחברות

                                          • אין לך חשבון עדיין? הרשמה

                                          • התחברו או הירשמו כדי לחפש.
                                          • פוסט ראשון
                                            פוסט אחרון
                                          0
                                          • חוקי הפורום
                                          • פופולרי
                                          • לא נפתר
                                          • משתמשים
                                          • חיפוש גוגל בפורום
                                          • צור קשר