בקשה | פיתוח זיהוי כתב יד בעברית יוצא לדרך! בואו והצטרפו!
-
@I-believe כתב בבקשה | פיתוח זיהוי כתב יד בעברית יוצא לדרך! בואו והצטרפו!:
לדעתי
אין שום סיבה להניח כך
אם כן היה אפשר להעלות תמונות
וגם היו מפרסמים את זה.....@אלף-שין זה לא אותו דבר. כשמעלים תמונה, או סריקה של הכתב, אין לתוכנה את קווי השרבוט עצמם, אלא היא צריכה לפענח לפי השינויים בגוון הפיקסלים מה מצוייר שם.
משא"כ כמשרבטים בתוך התוכנה, התוכנה מקבלת שרבוט חי (Digital Ink), ויכולה לנתח ישירות את מבנה הקו (לא בהכרח את סדר השרבוט).ולכן, גוגל קיפ מזהה ב 100% כתב יד שמשרבטים בתוך התוכנה, אבל כשמעלים צילום או סריקה של כתב יד היא לרוב לא מצליחה, בעברית לפחות - ניסיתי את זה כעת.
הנפ"מ מכל זה, שיתכן ואם נצליח לשרבט אצלה את הכתב יד, כפי שניסה @shalomke למעלה, היא כן תזהה, גם אם זה לא יהיה לפי סדר הכתיבה.
אבל יכול להיות שאני טועה והתוכנה מזהה גם את סדר השרבוט מתוך השרבוט החי שהיא שמרה, צריך פשוט לנסות להעלות לה שרבוט חי - שנשמר אצלו מבנה השרבוט, בלי הסדר של השרבוט, אני לא ממש יודע איך.
-
@אלף-שין זה לא אותו דבר. כשמעלים תמונה, או סריקה של הכתב, אין לתוכנה את קווי השרבוט עצמם, אלא היא צריכה לפענח לפי השינויים בגוון הפיקסלים מה מצוייר שם.
משא"כ כמשרבטים בתוך התוכנה, התוכנה מקבלת שרבוט חי (Digital Ink), ויכולה לנתח ישירות את מבנה הקו (לא בהכרח את סדר השרבוט).ולכן, גוגל קיפ מזהה ב 100% כתב יד שמשרבטים בתוך התוכנה, אבל כשמעלים צילום או סריקה של כתב יד היא לרוב לא מצליחה, בעברית לפחות - ניסיתי את זה כעת.
הנפ"מ מכל זה, שיתכן ואם נצליח לשרבט אצלה את הכתב יד, כפי שניסה @shalomke למעלה, היא כן תזהה, גם אם זה לא יהיה לפי סדר הכתיבה.
אבל יכול להיות שאני טועה והתוכנה מזהה גם את סדר השרבוט מתוך השרבוט החי שהיא שמרה, צריך פשוט לנסות להעלות לה שרבוט חי - שנשמר אצלו מבנה השרבוט, בלי הסדר של השרבוט, אני לא ממש יודע איך.
@I-believe
אין שום סיבה להניח שיש יכולת זיהוי לפי שירבוט כל עוד שיש הסבר של הסדר.... -
אני מוכן להקים אתר שיתופי על רנדר שאנשים יאמנו עליו את כתבי היד שלהם ובמקביל יעשו סריקות וניסויים
השאלות הם ככה:
עולה לי כסף להחזיק שרת, ובטח עם המון תמונות.
זה עולה בהמון זמן התעסקות.
אני חשבתי לעשות אחד מ2 הדברים:
או שמי שישלח לי למייל כתבי יד יקבל גישה למערכת. בכניסה דרך המייל שלו.
או שמי שיאמן מספר דפים מסוים על המערכת יקבל אוטומטית גם גישה למערכת המאומנת.
ככה כולם ירויחו -
אני מוכן להקים אתר שיתופי על רנדר שאנשים יאמנו עליו את כתבי היד שלהם ובמקביל יעשו סריקות וניסויים
השאלות הם ככה:
עולה לי כסף להחזיק שרת, ובטח עם המון תמונות.
זה עולה בהמון זמן התעסקות.
אני חשבתי לעשות אחד מ2 הדברים:
או שמי שישלח לי למייל כתבי יד יקבל גישה למערכת. בכניסה דרך המייל שלו.
או שמי שיאמן מספר דפים מסוים על המערכת יקבל אוטומטית גם גישה למערכת המאומנת.
ככה כולם ירויחו -
אם הם הצליחו (ברמה מסוימת) למה שאני לא אצליח?
https://github.com/Lotemn102/HebHTR -
@shalomke זה ocr שזה ML ואתה רוצה להשתמש בai ולשניהם אין לך את המחשוב
בטח שלא כדי להשיג תוצאה סבירה + לא נראה לי אתה רוצה או יודע לפתח מודל מאפס.ככה שכנראה עדיף לך לקחת מודל קיים ולעשות לו fune tuning לעברית לא שאני תלה בזה הרבה תקוות
שים לגודל של התמונות שמשתמשים במאגר שהבאת מה שמצביע על מודל קטן
בנוסף הם לא משתמשים בpytorch ככה שהביצועים לא יהיו ברמה כנראה -
אני מדבר רק על פיין טיונינג TensorFlow/Keras
ולאמן לא רק על אותיות אלא גם על מילים ושורות
עם סגימנטציה מאוד מקצועית שמתייגת לקבוצות בצורה מואד מוצלחת -
בניתי אגב פיצול מסך כמו בפיין רידר
כשאתה לוחץ על הקבוצה המסוגמנטת - סליחה על המילה -
אתה רואה בכחול בצד שמאל היכן היא בתמונה

-
בנוסף הוספתי גזירה אוטומטית של שורות ואימון על פי שורות
בתקווה שהוא בכלל מתאמן על שורות...

-
@shalomke כתב בבקשה | פיתוח זיהוי כתב יד בעברית יוצא לדרך! בואו והצטרפו!:
בתקווה שהוא בכלל מתאמן על שורות...
מתאמן על אותיות.
(הרי זה המטרה שלך בסוף שיזהה כול אות לגופה גם אם מעולם לא כתבת את המילה הזאת בעבר) -
model_v20260208_083151.keras
המודל הזה אומן על התמונה המצורפת כעת אני מנסה לפענח את התמונה באמצעות המודל
נראה אם ייצא טקסט קריא

