@אלף-שין
"ציטוט חשוב מהאתר שלהם"
הזיהוי המדוייק של האלפבית הלטיני וכתבים מודפסים שונים הופך בימים אלו לפתרון שכיח.
כיום ניתן לזהות כתבים במעל 99% דיוק, אך חלק מהאפליקציות דורשות מבט אנושי נוסף לאחר הזיהוי (לבדיקת מילים/אותיות שדיוקם בספק).
הדיוק נעשה בכמה דרכים כדי להבטיח מינימום שגיאות. לדוגמא תוכנות ה- OCR המובחרות (דוגמת התוכנות של ABBYY) מחוברות למילון ובכך מצמצמות את הסיכוי לטעות (99% דיוק במקום 95% בלי מילון).
זיהוי אופטי של כתב עברי היווה בעיה בקרב המפתחים היות והאותיות בשפה העברית דומות זו לזו (לדוגמא: "ם" ו-"ס", "ו" ו-"י"), מכאן בא הפתרון המתבסס של טכנולגית "רשתות הנוירונים".
הטכנולוגיה בעצם בנוית מודל הסתברותי שמתקן את עצמו בלי תלות בפרמטרים שמזין המפתח ומכאן עצמתן של הרשתות.
העצמה מתבטאת בכך שאין צורך להבין במדויק כל אות, אלא להסתברות שהיא תתקיים במילה/משפט.
בזכות טכנולוגית "רשתות הנוירונים" אנו נהנים כיום מזיהוי כתב עברי ברמה מאוד גבוהה.
כיום יש שלוש תוכנות מובילות התומכות ב-OCR עברי; הראשונה הינה ABBYY FineReader שלפי בדיקות המעבדה במרכז הפיתוח של החברה במוסקבה רוסיה, היא עדיפה ברמת הזיהוי מול מתחרותיה ומבטיחה תוצאה של 98% כאשר הקלט ברור עם רזולוציה של 300 DPI, השניה ליגטורה או Ligature מישראל והשלישית הינה ReadIris מבלגיה.
מבחינה היסטורית ליגטורה הישראלית (Ligature) הובילה את שוק פענוח ה-OCR עד שנת 2005. בשנה זו הכריזה ABBYY על תמיכתה בעברית במוצר FineReader ואכן מאז 2005 הצמיכה של ה-FineReader בשוק זה הינה הגבוהה ביותר.