היו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!

aiib

@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

כיון שהמטרה היא לאפשר חיפוש

אפשר לחפש בתוצאה שהבאת למעלה?

אלף שין

@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

אפשר לחפש בתוצאה שהבאת למעלה?

אענה בקצרה,
כשמטרת הזיהוי היא למצוא ביטוי
אפשר להסתפק ברמת OCR של ABBYY
כי בכל הצילומים הנורמליים קרוב לוודאי שהביטוי ימצא לפחות פעם אחת בעמוד הרלוונטי,
בעיקר מחמת שבד"כ ביטוי חוזר על עצמו בקטע שעוסק בו יותר מפעם אחת,
מה שמספק תוצאת חיפוש לעמוד הרלוונטי באחוזים גבוהים מאד,
וזה בדוק ומנוסה.

יאנג בוי

@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

ואין לנו המשאבים המתאימים לזה,

המנוע של גוגל לא מותקן על המחשב.
הוא רק בענן.
משלמים פר שימוש.
צריך לבדוק את התמחור ולהחליט אם זה שווה.
או לעשות דף דף בקישור ש @אמיר כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

https://cloud.google.com/use-cases/ocr

עריכה:

@אמיר כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

https://github.com/dimdenGD/chrome-lens-ocr

זה נראה אפי' עוד יותר טוב.
גם זה לא דורש עיבוד על המחשב (מלבד אלפי קריאות לכרום, רק מעבד סביר וראם גדול)
וזה ככה"נ בחינם (עד לחסימה מגוגל...)

מישהו כאן יכול לנסות לתרגם את זה לתוכנה, וכל אחד במחשב שלו יסרוק כמה קבצים עם התוכנה הזאת.

העניין הוא רק השילוב לPDF.
לא הבנתי את מטרת הפרוייקט בדיוק. צריך לקבל את הספרים בצורתם המקורית עם אפשרות חיפוש?
או רק קובץ טקסט עם הטקסט שלהם?
אם רק קובץ טקסט, זו לדעתי תהיה האפשרות היעילה ביותר.

אמיר

@יאנג-בוי

שאלתי את GPT והוא כנראה נעלב
הוא בקש שאעלה לו את הקובץ והוא יפענח
נראה לי שהוא לקח את זה קשה

יאנג בוי

@אמיר
בכל אופן התמחור של גוגל לחילוץ טקסט מתמונות:

צריך לבדוק כמה כאלו חבילות צריך בשביל פרויקט כזה.

למרות שהרעיון של הפרויקט החינמי בגיטהאב הרבה יותר טוב.

שוב, כל זה רק אם צריך רק קבצי טקסט.
אם לא כל הדיון מיותר.
חייבים מה ש @אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

1] בתוכנת ABBYY מכאן או באחד מהכלים האחרים שלהם [SDK /סרבר/עוד]
2] בתוכנת PDF-XChange מכאן {בכלי בשם טולס} [יש להגדיר שיהיה OCR משופר].
3] בתוכנה של רחמים זה מיועד רק למי שקנה את התוכנה מרחמים [ורק אם הרישיון שהוא נותן הוא ללא הגבלה].

אלף שין

@יאנג-בוי

קודם כל אכן צריך דווקא שיהיה שכבת טקסט מוסתרת מאחורי הצילום,
דבר שני מדובר על 11.7 מיליון עמודים!!

לכן זה לא נראה ריאלי לע"ע.

יאנג בוי

@אלף-שין
הקובץ חייב להיות צילום עם שכבת טקסט?
זה מה ששאלתי.

@יאנג-בוי כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

צריך לקבל את הספרים בצורתם המקורית עם אפשרות חיפוש?
או רק קובץ טקסט עם הטקסט שלהם?
אם רק קובץ טקסט, זו לדעתי תהיה האפשרות היעילה ביותר.

ואם כן, כל הרעיון של גוגל לא רלוונטי בכלל.

@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

דבר שני מדובר על 11.7 מיליון עמודים!!

אין הבדל בין ABBYY לגוגל בהקשר הזה.
אבל שוב, לא רלוונטי.

אמיר

@אלף-שין

איך נקרא תהליך ההטמעה של הטקסט לתוך תמונה שב- PDF ?

אלף שין

@יאנג-בוי כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

הקובץ חייב להיות צילום עם שכבת טקסט?
זה מה ששאלתי.

כן.
חייב.

@יאנג-בוי כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

ואם כן, כל הרעיון של גוגל לא רלוונטי בכלל.

נכון.

אלף שין

@אמיר כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

איך נקרא תהליך ההטמעה של הטקסט לתוך תמונה שב- PDF ?

שאלה טובה אני לא יודע כרגע,
איך שלא יהיה צריך לדעת את הקורדאניטות
ולכן נראה לי האופציות שהצעתי הם הטובות ביותר.

aiib

@אלף-שין מה בוחרים כאן?

את הראשון?

aiib

מה אני עושה לא נכון שאני מקבל כזאת תוצאה? או שזה פשוט מסמכים באיכות גרועה?

אלף שין

@aiib
למה שלא תתקין בקישור שהבאתי [הראשון שם] הוא בעברית.

יום חדש מתחיל

@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

מה בוחרים כאן?

את הראשון.
חשוב!! אח"כ תגדיר עברית בלבד.
ואל תתייחס לפירוט השגיאות שהבאת בהודעה הבאה.
רק מה שנפק"מ זה רק מה שכתוב לך להגדיר את הרוזולוצי' ל 600

מיכאלוש

@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

1] בתוכנת ABBYY מכאן או באחד מהכלים האחרים שלהם [SDK /סרבר/עוד]

ניתן פשוט להדגיש את כל הקבצים בתיקייה שמורידים > מקש ימני > אפשרויות נוספות > המר למסמך PDF הניתן לחיפוש

ואז בחלון שנפתח לבחור בשפות OCR עברית והמר אל PDF ולבחור תיקייה שלשם ישמור את המסמכים החדשים

יום חדש מתחיל

@מיכאלוש יפה מאוד!
אבל למה לא לבחור ב'איכות תמונה' ב'איכות הטובה ביתר'?

aiib

@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

@aiib
למה שלא תתקין בקישור שהבאתי [הראשון שם] הוא בעברית.

כי כבר מותקן לי...
אם יש סיבה אמיתית להתקין משהו אחר אשמח לדעת

aiib

@יום-חדש-מתחיל כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

ואל תתייחס לפירוט השגיאות שהבאת בהודעה הבאה.

למה לא להתייחס? זה לא אומר שזה לא פוענח?

רק מה שנפק"מ זה רק מה שכתוב לך להגדיר את הרוזולוצי' ל 600

איך עושים את זה?

בנוסף, בחרתי את כל הקבצים והוא שמר לי אותם כקובץ אחד, איך אפשר להגדיר שכל קובץ יישמר בנפרד?

יום חדש מתחיל

@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

למה לא להתייחס?

כי בכל עמוד מספר סרוק שתנסה לפענח הוא יכתוב לך כאלה שגיאות. בדוק ומנוסה.

איך עושים את זה?

האמת שלא מצאתי איך עושים את זה, רק בפתיחת ABBYY FineReader 15 OCR Editor ושם אחרי לחיצה על אפשרויות ניתן להגדיר

איך אפשר להגדיר שכל קובץ יישמר בנפרד?

פשוט מאוד. לא ללחוץ על 'שלב את כל הקבצים למסמך אחד'.

aiib

@יום-חדש-מתחיל כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:

פשוט מאוד. לא ללחוץ על 'שלב את כל הקבצים למסמך אחד'.

אין לי את הגירסה הזו..

בנוסף אשמח לדעת איך אני מגדיר מראש את המיקום של השמירה?

אגב, עשיתי בשעתיים וחצי יותר מ5000 דפים, בקצב כזה אפשר לעשות כל לילה כשהולכים לישון 10,000 דפים שזה אומר שעוד 35 אנשים כמוני עושים זאת במשך חודש גומרים סיפור.
אם 70 אנשים תוך שבועיים...