בקשת מידע | OCR בעברית בקרוב? תלוי בכם...
-
@10110000 יש כתבים שנראים יותר אמיתיים מאחרים, ואני מסכים איתך שזה עדיין לא כמו כתב יד ממש, אבל האימון הראשוני לדעתי כדאי להשתמש בזה כי תוכל ליצור דאטה סט עצום שלא תשיג בדרך אחרת (נגיד כמה מיליונים של שורות), ואחר כך תמשיך לכוונן על דאטה סט קטן יותר של כתב יד אמיתי.
אגב, בנייר האקדמי של TrOCR הם מציינים כי את המודל שמזהה כתב יד באנגלית הם אימנו בהתחלה על אנגלית מודפסת (684 מיליון שורות) ואחר כך אימנו אותו על פונטים של כתב יד מTRDG (כ 17 מיליון שורות מ5427 פונטים), כמו כן הוסיפו 53 אלף מרשמים בכתב יד שפוענחו על ידי כלי OCR מסחריים.
אבל אל תתייאש מהמספרים! יש עדויות שהצליחו להגיע לתוצאות יפות גם עם הרבה פחות נתונים.