היו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!

אלף שין

@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

אחרי שכבר עשיתי פעם אחת יש עניין להשתמש בזה?

אם זה עוזר לך לאוטמציה זה מצוין
אם אתה מסתדר לבד גם טוב,

@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

משהו מוזר, עשיתי מהתחלה על אותם ספרים (כן החלפתי מגרסה 15 לגרסה 16 שמצורפת למעלה ועכשיו כבר כמעט 3 שעות ורק 5 מתוך 20 נעשו.
גם המדדים בכלל לא במקסימום שלהם.

תשאל את @יעקב-מ-פינס איך הוא עושה?
אולי הוא שינה משהו במנהל המשימות?
אולי בהגדרות של כמות הליבות?

@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

אולי זה בגלל ההגדרה הזו שלא בטוח קיימת בגרסה 15?

מה הקשר לחיפוש?

aiib

@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

אחרי שכבר עשיתי פעם אחת יש עניין להשתמש בזה?

אם זה עוזר לך לאוטמציה זה מצוין
אם אתה מסתדר לבד גם טוב,

@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

משהו מוזר, עשיתי מהתחלה על אותם ספרים (כן החלפתי מגרסה 15 לגרסה 16 שמצורפת למעלה ועכשיו כבר כמעט 3 שעות ורק 5 מתוך 20 נעשו.
גם המדדים בכלל לא במקסימום שלהם.

תשאל את @יעקב-מ-פינס איך הוא עושה?
אולי הוא שינה משהו במנהל המשימות?
אולי בהגדרות של כמות הליבות?

אני הגדרתי את המקסימום של הליבות

@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

אולי זה בגלל ההגדרה הזו שלא בטוח קיימת בגרסה 15?

מה הקשר לחיפוש?

יש 2 אופציות של חיפוש, אולי האופציה הזו היא כבדה יותר

אלף שין

@aiib
האפשרות הראשונה היא הרלוונטית

יום חדש מתחיל

@aiib אין שם שתי אופציות של חיפוש אלא רק אחת, דו"ק היטיב.

י. פל.

@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

אם יש סיבה אמיתית להתקין משהו אחר אשמח לדעת

נראה שיש לך גרסה 15. ב16, ככה"נ, הזיהוי יותר טוב, לתחושתי לפחות.

@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

למה לא להתייחס? זה לא אומר שזה לא פוענח?

זה אומר שזה פוענח, אך הוא מצא גם תווים שלדעתו הם לא שייכים לשפה שנבחרה. לא אמור להטריד אותך [חוץ מזה שהOCR לא מושלם, אבל זה מה יש].

@אלף-שין אם היה דרך איכשהו לשלב בין חילוץ טקסט לPDF עצמו, זה היה פשוט מושלם!

י. פל.

מישהו מוכן להציץ כאן?
https://chatgpt.com/share/67ca277a-c60c-8013-a90a-151d78bcba30

aiib

@י-פל כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

@אלף-שין אם היה דרך איכשהו לשלב בין חילוץ טקסט לPDF עצמו, זה היה פשוט מושלם!

כלומר?

י. פל.

@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

@י-פל כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

@אלף-שין אם היה דרך איכשהו לשלב בין חילוץ טקסט לPDF עצמו, זה היה פשוט מושלם!

כלומר?

מישהו [אולי אתה?] הביא אפשרות לחילוץ טקסט ע"י גוגל-לנס, יש עוד כמה אפשרויות קלות ומהירות.
הבעיה, שכל עוד אין לנו דרך לדחוף את הטקסט מאחורי המסמך, זה לא שווה כלום.
ולכן כתבתי, שאם היה דרך, זה היה קל ומושלם.
וע"ז הבאתי את הצ'אט עם GPT, אך אין לי רגע פנוי לבדוק זאת, לילה טוב.

aiib

@י-פל כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

@י-פל כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

@אלף-שין אם היה דרך איכשהו לשלב בין חילוץ טקסט לPDF עצמו, זה היה פשוט מושלם!

כלומר?

מישהו [אולי אתה?] הביא אפשרות לחילוץ טקסט ע"י גוגל-לנס, יש עוד כמה אפשרויות קלות ומהירות.
הבעיה, שכל עוד אין לנו דרך לדחוף את הטקסט מאחורי המסמך, זה לא שווה כלום.
ולכן כתבתי, שאם היה דרך, זה היה קל ומושלם.
וע"ז הבאתי את הצ'אט עם GPT, אך אין לי רגע פנוי לבדוק זאת, לילה טוב.

התוכנות ש @אלף-שין הביא עושות את הפעולה, אתה חושב שגוגל לאנס וכדו' יעשו עבודה יותר טובה אחרי שנצליח לחבר את הטקסט מאחורה?

דאנציג

@אלף-שין
@י-פל
מנסיון אישי, בכתב מרובע הזיהוי תווים שבווינדוס 11 עוקף את כל התוכנות למיניהם, אולי אפשר למצוא את המנוע / תוכנה שאיתה הוא משתמש, ולהפיק מכך תוכנת OCR המדוייקת ביותר בשוק.

אמנם זה לא יעזור לכתב רש"י, שעד כמה שידוע לי ABBYY עם הגדרה רק עברית, ועם גופן רש"י שהכי קרוב לקיים בספר, מזוהה בינתיים עם הכי פחות שגיאות.

י. פל.

@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

אתה חושב שגוגל לאנס וכדו' יעשו עבודה יותר טובה אחרי שנצליח לחבר את הטקסט מאחורה?

יותר טוב וה-ר-ב-ה יותר מהר!

אלף שין

@דאנציג כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

מנסיון אישי, בכתב מרובע הזיהוי תווים שבווינדוס 11 עוקף את כל התוכנות למיניהם,

קיים באופליין?

י. פל.

@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

@דאנציג כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

מנסיון אישי, בכתב מרובע הזיהוי תווים שבווינדוס 11 עוקף את כל התוכנות למיניהם,

קיים באופליין?

כן.

אמיר

@aiib
@י-פל
תראה את הניסוי שהעלתי לעיל
https://mitmachim.top/topic/80826/היו-שותפים-בפרוייקט-זיהוי-תווים-גדול-וחשוב-מאד/12

אתמול המרתי כך 32 דפים אחד אחד
נראה שיש 0 טעויות

י. פל.

@אמיר כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

תראה את הניסוי שהעלתי לעיל

בדיוק בשביל זה הלכתי לבדוק אם אפשר לחלק את המשימה ל2 - זיהוי טקסט עם LENS, והוספתו לקובץ. בדיוק בגלל הפוסט שלך [והגיט שהביאו שם]!
האם תוכל לנסות את השיטה שהוא הביא לי?
אני ממש לחוץ בזמן. יש לי כמה דברים על הראש כעת, אחרת לא הייתי זורק זאת עליך...

צבי דורש ציון

@י-פל אני לא מבין בזה כלום, אבל כעת כשפתחתי את כרום הוא הציג לי
את זה chrome://whats-new/ (קישור כזה בכרום של מה חדש) אמור לעזור איכשהו? ייתכן גם שאני סתם מבלבל במוח...

אמיר

@אלף-שין

חיפשתי קצת אחר הכלי הזה OCRmyPDF ומצאתי את ה GUI הזה שאמור לבצע זיהוי והטמעה
הורדתי והרצתי והוא דורש התקנה של שני הכלים
עוד לא הצלחתי להבין איך (המתכנתים שכאן בטח יסתדרו יותר טוב)

https://forum.xojo.com/t/open-source-ocrjob-an-ocrmypdf-gui-front-end/75654

https://github.com/ocrmypdf/OCRmyPDF

https://github.com/tesseract-ocr/tesseract

בהתקנה הזו צריך לסמן גם מערכת זיהוי עברית
https://yer.dl.sourceforge.net/project/tesseract-ocr.mirror/5.5.0/tesseract-ocr-w64-setup-5.5.0.20241111.exe?viasf=1