היו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!
-
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
אפשר לחפש בתוצאה שהבאת למעלה?
אענה בקצרה,
כשמטרת הזיהוי היא למצוא ביטוי
אפשר להסתפק ברמת OCR של ABBYY
כי בכל הצילומים הנורמליים קרוב לוודאי שהביטוי ימצא לפחות פעם אחת בעמוד הרלוונטי,
בעיקר מחמת שבד"כ ביטוי חוזר על עצמו בקטע שעוסק בו יותר מפעם אחת,
מה שמספק תוצאת חיפוש לעמוד הרלוונטי באחוזים גבוהים מאד,
וזה בדוק ומנוסה. -
@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
ואין לנו המשאבים המתאימים לזה,
המנוע של גוגל לא מותקן על המחשב.
הוא רק בענן.
משלמים פר שימוש.
צריך לבדוק את התמחור ולהחליט אם זה שווה.
או לעשות דף דף בקישור ש @אמיר כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:עריכה:
@אמיר כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
זה נראה אפי' עוד יותר טוב.
גם זה לא דורש עיבוד על המחשב (מלבד אלפי קריאות לכרום, רק מעבד סביר וראם גדול)
וזה ככה"נ בחינם (עד לחסימה מגוגל...)מישהו כאן יכול לנסות לתרגם את זה לתוכנה, וכל אחד במחשב שלו יסרוק כמה קבצים עם התוכנה הזאת.
העניין הוא רק השילוב לPDF.
לא הבנתי את מטרת הפרוייקט בדיוק. צריך לקבל את הספרים בצורתם המקורית עם אפשרות חיפוש?
או רק קובץ טקסט עם הטקסט שלהם?
אם רק קובץ טקסט, זו לדעתי תהיה האפשרות היעילה ביותר. -
@אמיר
בכל אופן התמחור של גוגל לחילוץ טקסט מתמונות:
צריך לבדוק כמה כאלו חבילות צריך בשביל פרויקט כזה.
למרות שהרעיון של הפרויקט החינמי בגיטהאב הרבה יותר טוב.
שוב, כל זה רק אם צריך רק קבצי טקסט.
אם לא כל הדיון מיותר.
חייבים מה ש @אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:1] בתוכנת ABBYY מכאן או באחד מהכלים האחרים שלהם [SDK /סרבר/עוד]
2] בתוכנת PDF-XChange מכאן {בכלי בשם טולס} [יש להגדיר שיהיה OCR משופר].
3] בתוכנה של רחמים זה מיועד רק למי שקנה את התוכנה מרחמים [ורק אם הרישיון שהוא נותן הוא ללא הגבלה]. -
@אלף-שין
הקובץ חייב להיות צילום עם שכבת טקסט?
זה מה ששאלתי.@יאנג-בוי כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
צריך לקבל את הספרים בצורתם המקורית עם אפשרות חיפוש?
או רק קובץ טקסט עם הטקסט שלהם?
אם רק קובץ טקסט, זו לדעתי תהיה האפשרות היעילה ביותר.ואם כן, כל הרעיון של גוגל לא רלוונטי בכלל.
@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
דבר שני מדובר על 11.7 מיליון עמודים!!
אין הבדל בין ABBYY לגוגל בהקשר הזה.
אבל שוב, לא רלוונטי. -
@יאנג-בוי כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
הקובץ חייב להיות צילום עם שכבת טקסט?
זה מה ששאלתי.כן.
חייב.@יאנג-בוי כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
ואם כן, כל הרעיון של גוגל לא רלוונטי בכלל.
נכון.