היו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!
-
@צבי-דורש-ציון כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@aiib ואם אני משאיר את זה בלילה, מה הבעיה? אני פשוט מכבה הכל. אני יכול להשאיר את זה איזה 8 שעות בלילה ואולי גם יותר, כמה אני יכול לעשות בזמן הזה?
עשיתי אתמול ניסיון וזה עשה לי 5150 בבערך שעתיים וחצי. בטח זה משתנה מספר לספר.
אתה יכול להשאיר לילה. רק שים לב להגדרות החשמל שלא יתכבה לך באמצע המחשב@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
עשיתי אתמול ניסיון וזה עשה לי 5150 בבערך שעתיים וחצי. בטח זה משתנה מספר לספר.
אתה יכול להשאיר לילה. רק שים לב להגדרות החשמל שלא יתכבה לך באמצע המחשבמשהו מוזר, עשיתי מהתחלה על אותם ספרים (כן החלפתי מגרסה 15 לגרסה 16 שמצורפת למעלה ועכשיו כבר כמעט 3 שעות ורק 5 מתוך 20 נעשו.
גם המדדים בכלל לא במקסימום שלהם.אולי זה בגלל ההגדרה הזו שלא בטוח קיימת בגרסה 15?
-
@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@aiib @קינג-קומפיוטר @אהרן-שובקס @יעקב-מ-פינס
שימו לב!!
הענין הפך לפשוט ביותר בזכותו של @האדם-החושב שהכין קובץ הגדרות מסודר,
אותו יש לייבא לתוכנה להלן המדריך
מדריך לocr מאגר.docx
להלן קובץ ההגדרות המוכן
היברו בוקס.hftאחרי שכבר עשיתי פעם אחת יש עניין להשתמש בזה?
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
אחרי שכבר עשיתי פעם אחת יש עניין להשתמש בזה?
אם זה עוזר לך לאוטמציה זה מצוין
אם אתה מסתדר לבד גם טוב,@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
משהו מוזר, עשיתי מהתחלה על אותם ספרים (כן החלפתי מגרסה 15 לגרסה 16 שמצורפת למעלה ועכשיו כבר כמעט 3 שעות ורק 5 מתוך 20 נעשו.
גם המדדים בכלל לא במקסימום שלהם.תשאל את @יעקב-מ-פינס איך הוא עושה?
אולי הוא שינה משהו במנהל המשימות?
אולי בהגדרות של כמות הליבות?@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
אולי זה בגלל ההגדרה הזו שלא בטוח קיימת בגרסה 15?
מה הקשר לחיפוש?
-
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
אחרי שכבר עשיתי פעם אחת יש עניין להשתמש בזה?
אם זה עוזר לך לאוטמציה זה מצוין
אם אתה מסתדר לבד גם טוב,@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
משהו מוזר, עשיתי מהתחלה על אותם ספרים (כן החלפתי מגרסה 15 לגרסה 16 שמצורפת למעלה ועכשיו כבר כמעט 3 שעות ורק 5 מתוך 20 נעשו.
גם המדדים בכלל לא במקסימום שלהם.תשאל את @יעקב-מ-פינס איך הוא עושה?
אולי הוא שינה משהו במנהל המשימות?
אולי בהגדרות של כמות הליבות?@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
אולי זה בגלל ההגדרה הזו שלא בטוח קיימת בגרסה 15?
מה הקשר לחיפוש?
@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
אחרי שכבר עשיתי פעם אחת יש עניין להשתמש בזה?
אם זה עוזר לך לאוטמציה זה מצוין
אם אתה מסתדר לבד גם טוב,@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
משהו מוזר, עשיתי מהתחלה על אותם ספרים (כן החלפתי מגרסה 15 לגרסה 16 שמצורפת למעלה ועכשיו כבר כמעט 3 שעות ורק 5 מתוך 20 נעשו.
גם המדדים בכלל לא במקסימום שלהם.תשאל את @יעקב-מ-פינס איך הוא עושה?
אולי הוא שינה משהו במנהל המשימות?
אולי בהגדרות של כמות הליבות?אני הגדרתי את המקסימום של הליבות
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
אולי זה בגלל ההגדרה הזו שלא בטוח קיימת בגרסה 15?
מה הקשר לחיפוש?
יש 2 אופציות של חיפוש, אולי האופציה הזו היא כבדה יותר
-
@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
אחרי שכבר עשיתי פעם אחת יש עניין להשתמש בזה?
אם זה עוזר לך לאוטמציה זה מצוין
אם אתה מסתדר לבד גם טוב,@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
משהו מוזר, עשיתי מהתחלה על אותם ספרים (כן החלפתי מגרסה 15 לגרסה 16 שמצורפת למעלה ועכשיו כבר כמעט 3 שעות ורק 5 מתוך 20 נעשו.
גם המדדים בכלל לא במקסימום שלהם.תשאל את @יעקב-מ-פינס איך הוא עושה?
אולי הוא שינה משהו במנהל המשימות?
אולי בהגדרות של כמות הליבות?אני הגדרתי את המקסימום של הליבות
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
אולי זה בגלל ההגדרה הזו שלא בטוח קיימת בגרסה 15?
מה הקשר לחיפוש?
יש 2 אופציות של חיפוש, אולי האופציה הזו היא כבדה יותר
-
@aiib אין שם שתי אופציות של חיפוש אלא רק אחת, דו"ק היטיב.
-
@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@aiib
למה שלא תתקין בקישור שהבאתי [הראשון שם] הוא בעברית.כי כבר מותקן לי...
אם יש סיבה אמיתית להתקין משהו אחר אשמח לדעת@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
אם יש סיבה אמיתית להתקין משהו אחר אשמח לדעת
נראה שיש לך גרסה 15. ב16, ככה"נ, הזיהוי יותר טוב, לתחושתי לפחות.
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
למה לא להתייחס? זה לא אומר שזה לא פוענח?
זה אומר שזה פוענח, אך הוא מצא גם תווים שלדעתו הם לא שייכים לשפה שנבחרה. לא אמור להטריד אותך [חוץ מזה שהOCR לא מושלם, אבל זה מה יש].
@אלף-שין אם היה דרך איכשהו לשלב בין חילוץ טקסט לPDF עצמו, זה היה פשוט מושלם!
-
מישהו מוכן להציץ כאן?
https://chatgpt.com/share/67ca277a-c60c-8013-a90a-151d78bcba30 -
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
אם יש סיבה אמיתית להתקין משהו אחר אשמח לדעת
נראה שיש לך גרסה 15. ב16, ככה"נ, הזיהוי יותר טוב, לתחושתי לפחות.
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
למה לא להתייחס? זה לא אומר שזה לא פוענח?
זה אומר שזה פוענח, אך הוא מצא גם תווים שלדעתו הם לא שייכים לשפה שנבחרה. לא אמור להטריד אותך [חוץ מזה שהOCR לא מושלם, אבל זה מה יש].
@אלף-שין אם היה דרך איכשהו לשלב בין חילוץ טקסט לPDF עצמו, זה היה פשוט מושלם!
-
@י-פל כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@אלף-שין אם היה דרך איכשהו לשלב בין חילוץ טקסט לPDF עצמו, זה היה פשוט מושלם!
כלומר?
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@י-פל כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@אלף-שין אם היה דרך איכשהו לשלב בין חילוץ טקסט לPDF עצמו, זה היה פשוט מושלם!
כלומר?
מישהו [אולי אתה?] הביא אפשרות לחילוץ טקסט ע"י גוגל-לנס, יש עוד כמה אפשרויות קלות ומהירות.
הבעיה, שכל עוד אין לנו דרך לדחוף את הטקסט מאחורי המסמך, זה לא שווה כלום.
ולכן כתבתי, שאם היה דרך, זה היה קל ומושלם.
וע"ז הבאתי את הצ'אט עם GPT, אך אין לי רגע פנוי לבדוק זאת, לילה טוב. -
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@י-פל כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@אלף-שין אם היה דרך איכשהו לשלב בין חילוץ טקסט לPDF עצמו, זה היה פשוט מושלם!
כלומר?
מישהו [אולי אתה?] הביא אפשרות לחילוץ טקסט ע"י גוגל-לנס, יש עוד כמה אפשרויות קלות ומהירות.
הבעיה, שכל עוד אין לנו דרך לדחוף את הטקסט מאחורי המסמך, זה לא שווה כלום.
ולכן כתבתי, שאם היה דרך, זה היה קל ומושלם.
וע"ז הבאתי את הצ'אט עם GPT, אך אין לי רגע פנוי לבדוק זאת, לילה טוב.@י-פל כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@י-פל כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@אלף-שין אם היה דרך איכשהו לשלב בין חילוץ טקסט לPDF עצמו, זה היה פשוט מושלם!
כלומר?
מישהו [אולי אתה?] הביא אפשרות לחילוץ טקסט ע"י גוגל-לנס, יש עוד כמה אפשרויות קלות ומהירות.
הבעיה, שכל עוד אין לנו דרך לדחוף את הטקסט מאחורי המסמך, זה לא שווה כלום.
ולכן כתבתי, שאם היה דרך, זה היה קל ומושלם.
וע"ז הבאתי את הצ'אט עם GPT, אך אין לי רגע פנוי לבדוק זאת, לילה טוב.התוכנות ש @אלף-שין הביא עושות את הפעולה, אתה חושב שגוגל לאנס וכדו' יעשו עבודה יותר טובה אחרי שנצליח לחבר את הטקסט מאחורה?
-
@י-פל כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@י-פל כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@אלף-שין אם היה דרך איכשהו לשלב בין חילוץ טקסט לPDF עצמו, זה היה פשוט מושלם!
כלומר?
מישהו [אולי אתה?] הביא אפשרות לחילוץ טקסט ע"י גוגל-לנס, יש עוד כמה אפשרויות קלות ומהירות.
הבעיה, שכל עוד אין לנו דרך לדחוף את הטקסט מאחורי המסמך, זה לא שווה כלום.
ולכן כתבתי, שאם היה דרך, זה היה קל ומושלם.
וע"ז הבאתי את הצ'אט עם GPT, אך אין לי רגע פנוי לבדוק זאת, לילה טוב.התוכנות ש @אלף-שין הביא עושות את הפעולה, אתה חושב שגוגל לאנס וכדו' יעשו עבודה יותר טובה אחרי שנצליח לחבר את הטקסט מאחורה?
@אלף-שין
@י-פל
מנסיון אישי, בכתב מרובע הזיהוי תווים שבווינדוס 11 עוקף את כל התוכנות למיניהם, אולי אפשר למצוא את המנוע / תוכנה שאיתה הוא משתמש, ולהפיק מכך תוכנת OCR המדוייקת ביותר בשוק.אמנם זה לא יעזור לכתב רש"י, שעד כמה שידוע לי ABBYY עם הגדרה רק עברית, ועם גופן רש"י שהכי קרוב לקיים בספר, מזוהה בינתיים עם הכי פחות שגיאות.
-
@י-פל כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@י-פל כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@אלף-שין אם היה דרך איכשהו לשלב בין חילוץ טקסט לPDF עצמו, זה היה פשוט מושלם!
כלומר?
מישהו [אולי אתה?] הביא אפשרות לחילוץ טקסט ע"י גוגל-לנס, יש עוד כמה אפשרויות קלות ומהירות.
הבעיה, שכל עוד אין לנו דרך לדחוף את הטקסט מאחורי המסמך, זה לא שווה כלום.
ולכן כתבתי, שאם היה דרך, זה היה קל ומושלם.
וע"ז הבאתי את הצ'אט עם GPT, אך אין לי רגע פנוי לבדוק זאת, לילה טוב.התוכנות ש @אלף-שין הביא עושות את הפעולה, אתה חושב שגוגל לאנס וכדו' יעשו עבודה יותר טובה אחרי שנצליח לחבר את הטקסט מאחורה?
-
@אלף-שין
@י-פל
מנסיון אישי, בכתב מרובע הזיהוי תווים שבווינדוס 11 עוקף את כל התוכנות למיניהם, אולי אפשר למצוא את המנוע / תוכנה שאיתה הוא משתמש, ולהפיק מכך תוכנת OCR המדוייקת ביותר בשוק.אמנם זה לא יעזור לכתב רש"י, שעד כמה שידוע לי ABBYY עם הגדרה רק עברית, ועם גופן רש"י שהכי קרוב לקיים בספר, מזוהה בינתיים עם הכי פחות שגיאות.
-
@דאנציג כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
מנסיון אישי, בכתב מרובע הזיהוי תווים שבווינדוס 11 עוקף את כל התוכנות למיניהם,
קיים באופליין?
@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@דאנציג כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
מנסיון אישי, בכתב מרובע הזיהוי תווים שבווינדוס 11 עוקף את כל התוכנות למיניהם,
קיים באופליין?
כן.
-
@י-פל כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@י-פל כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@אלף-שין אם היה דרך איכשהו לשלב בין חילוץ טקסט לPDF עצמו, זה היה פשוט מושלם!
כלומר?
מישהו [אולי אתה?] הביא אפשרות לחילוץ טקסט ע"י גוגל-לנס, יש עוד כמה אפשרויות קלות ומהירות.
הבעיה, שכל עוד אין לנו דרך לדחוף את הטקסט מאחורי המסמך, זה לא שווה כלום.
ולכן כתבתי, שאם היה דרך, זה היה קל ומושלם.
וע"ז הבאתי את הצ'אט עם GPT, אך אין לי רגע פנוי לבדוק זאת, לילה טוב.התוכנות ש @אלף-שין הביא עושות את הפעולה, אתה חושב שגוגל לאנס וכדו' יעשו עבודה יותר טובה אחרי שנצליח לחבר את הטקסט מאחורה?
-
@aiib
@י-פל
תראה את הניסוי שהעלתי לעיל
https://mitmachim.top/topic/80826/היו-שותפים-בפרוייקט-זיהוי-תווים-גדול-וחשוב-מאד/12אתמול המרתי כך 32 דפים אחד אחד
נראה שיש 0 טעויות@אמיר כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
תראה את הניסוי שהעלתי לעיל
בדיוק בשביל זה הלכתי לבדוק אם אפשר לחלק את המשימה ל2 - זיהוי טקסט עם LENS, והוספתו לקובץ. בדיוק בגלל הפוסט שלך [והגיט שהביאו שם]!
האם תוכל לנסות את השיטה שהוא הביא לי?
אני ממש לחוץ בזמן. יש לי כמה דברים על הראש כעת, אחרת לא הייתי זורק זאת עליך... -
@אמיר כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
תראה את הניסוי שהעלתי לעיל
בדיוק בשביל זה הלכתי לבדוק אם אפשר לחלק את המשימה ל2 - זיהוי טקסט עם LENS, והוספתו לקובץ. בדיוק בגלל הפוסט שלך [והגיט שהביאו שם]!
האם תוכל לנסות את השיטה שהוא הביא לי?
אני ממש לחוץ בזמן. יש לי כמה דברים על הראש כעת, אחרת לא הייתי זורק זאת עליך...@י-פל אני לא מבין בזה כלום, אבל כעת כשפתחתי את כרום הוא הציג לי
את זה chrome://whats-new/ (קישור כזה בכרום של מה חדש) אמור לעזור איכשהו? ייתכן גם שאני סתם מבלבל במוח... -
שלום רב,
כהמשך לרעיון שהעלו בשרשור שם
אני פותח פה את הפרוייקט המיוחד בצורה מסודרת וברורה.[פרוייקט שיתופי של OCR ל60,000 קבצים המכילים 11.7 מיליון עמודים!]
תחילה יש להתקין תוכנה של OCR
כל אחד יוכל לבחור באחד מבין 3 אפשרויות איך לבצע את הזיהוי אצלו,1] בתוכנת ABBYY מכאן או באחד מהכלים האחרים שלהם [SDK /סרבר/עוד]
2] בתוכנת PDF-XChange מכאן {בכלי בשם טולס} [יש להגדיר שיהיה OCR משופר].
3] בתוכנה של רחמים זה מיועד רק למי שקנה את התוכנה מרחמים [ורק אם הרישיון שהוא נותן הוא ללא הגבלה].
בשלושתם יהיה תוצאה טובה שמספיקה לעניינינו.בכל האפשרויות יש צורך גדול להגדיר ששפת הזיהוי היא עברית בלבד!
וזה כדי שלא יהיה פיענוחים שגויים בעשרות שפות אחרות, וגם זה יקצר את העבודה מאד!לאחר מכן כל אחד בוחר את כמות הקבצים שהוא מעונין להמיר,
ומעדכן כאן, או במייל 0556781863A@GMAIL.COM או באישי ואנו נשלח לו למייל קישור לדרייב המכיל תיקייה עם כמות הקבצים שהוא ציין,
בנוסף נשלח לו קישור לתיקייה נוספת בדרייב לשם הוא יעלה את הקבצים לאחר העיבוד,יצוין כי אם מתקינים דרייב לשולחן עבודה,
אפשר לבצע את כל ההמרה כולל ההעלאה לדרייב בלחיצת כפתור אחת!
פשוט כל לילה 'לפני השינה' לוחצים על כפתור אחד וכל הלילה המחשב מעבד עוד ועוד קבצים ומעלה אותם בעצמו לתיקייה הרצויה בדרייב!
מי שרוצה נוכל להדריכו כאן.אם מישהו מוכן לעבוד על כמות גדולה אבל לא מתאים לו להוריד מהדרייב,
ישלח לנו את מיקום מגוריו, ונראה אם שייך להעביר לו את הקבצים ידנית.בהצלחה לכולנו!!
ושיהיה בעז"ה ס"ד גדולה לטובת כולם!!
@אלישי @aiib @האדם-החושב @י-פל @יעקב-מ-פינס @יהודה-12 @אמיר @דאנציג @משה-מזרחי @A0533057932 @NH-LOCAL
לכל תגובה/רעיון לשדרוג נא להגיב רק כאן,
זה נושא מסודר וחדש!כל אחד יכול לעזור ולהוסיף!!
בלי שום התחייבות!
בסוף הכל מצטרף לחשבון גדול!!חיפשתי קצת אחר הכלי הזה OCRmyPDF ומצאתי את ה GUI הזה שאמור לבצע זיהוי והטמעה
הורדתי והרצתי והוא דורש התקנה של שני הכלים
עוד לא הצלחתי להבין איך (המתכנתים שכאן בטח יסתדרו יותר טוב)https://forum.xojo.com/t/open-source-ocrjob-an-ocrmypdf-gui-front-end/75654
https://github.com/ocrmypdf/OCRmyPDF
https://github.com/tesseract-ocr/tesseract
בהתקנה הזו צריך לסמן גם מערכת זיהוי עברית
https://yer.dl.sourceforge.net/project/tesseract-ocr.mirror/5.5.0/tesseract-ocr-w64-setup-5.5.0.20241111.exe?viasf=1 -
חיפשתי קצת אחר הכלי הזה OCRmyPDF ומצאתי את ה GUI הזה שאמור לבצע זיהוי והטמעה
הורדתי והרצתי והוא דורש התקנה של שני הכלים
עוד לא הצלחתי להבין איך (המתכנתים שכאן בטח יסתדרו יותר טוב)https://forum.xojo.com/t/open-source-ocrjob-an-ocrmypdf-gui-front-end/75654
https://github.com/ocrmypdf/OCRmyPDF
https://github.com/tesseract-ocr/tesseract
בהתקנה הזו צריך לסמן גם מערכת זיהוי עברית
https://yer.dl.sourceforge.net/project/tesseract-ocr.mirror/5.5.0/tesseract-ocr-w64-setup-5.5.0.20241111.exe?viasf=1 -
@אמיר כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
חיפשתי קצת אחר הכלי הזה OCRmyPDF ומצאתי את ה GUI הזה שאמור לבצע זיהוי והטמעה
אבל מה האיכות שלו?
יותר מאבי?