שיתוף | כלי AI חדש - זיהוי שגיאות OCR לפי הקשר בטקסטים בעברית
-
@רחמים כתב בשיתוף | כלי AI חדש - זיהוי שגיאות OCR לפי הקשר בטקסטים בעברית:
יצרתי כלי אינטרנטי חינמי שמאפשר לזהות שגיאות OCR (פענוח טקסט מתמונה) בטקסטים בעברית – גם כשהמילה נראית תקינה, אך שגויה בהקשר התחבירי או הסמנטי.
הכלי כרגע לא מועיל למשתמשים
לכאו' כבר עדיף להכניס לגמיני ולבקש ממנו (מומלץ ליצור ג'ים מיוחד)
אם אתה רוצה לשפר את התוכנה שלך, עדיף לא ע"י משתמשים אלא לקחת טקסט מוגה שיש כבר ברשת נניח תורת אמת וכדומה, ולתת לו להשוות עם חילוץ באמצעות תוכנת OCR.אגב בכל מקרה בהגהת טקסט בלבד תתקל בבעיה כי היו מחברים שכתבו לא מעט פעמים בצורה לא תקנית, בשביל זה תצטרך להשתמש בשילוב עם OCR.
-
@י-פל, @aiib
כרגע התיכנון שתהיה גרסת קהילה חינמית של הכלי – שתישאר פתוחה לכולם לשימוש שוטף.
בנוסף, בעתיד תצא גם גרסת Pro שתכלול תכונות מתקדמות יותר, מודלים חכמים במיוחד, ואפשרות להתאמה אישית למשתמשים עם צרכים יחודיים.
המטרה היא לתת מענה גם לקהל הרחב וגם למי שזקוק לדיוק מירבי או פתרון מקצועי.אשמח לשמוע מכם איזה פיצ'רים הייתם רוצים לראות בגרסת ה־Pro, ומה הכי חשוב לכם שישאר בגרסת הקהילה.
-
@א-מ-ד כתב בשיתוף | כלי AI חדש - זיהוי שגיאות OCR לפי הקשר בטקסטים בעברית:
@רחמים איך אימנת ויצרת את המודל? באיזו פלטפורמה?
תודה על ההתעניינות!
את המודל פיתחתי ואימנתי בעצמי, במיוחד בשביל עברית וסגנון תורני – כולל ראשי תיבות, ציטוטים, ושיבושים שמוכרים למי שמתעסק עם טקסטים כאלה.
השתמשתי במודל מסוג Transformer, עם התאמות שבניתי שיאפשרו לזהות מילים שגויות לפי ההקשר – גם כשאין בהן טעות ברמת המילה עצמה.
הייתה כאן גם השקעה כספית לא קטנה – כולל רכישת חומרה מיוחדת כדי לאמן את המודל בצורה יעילה ואיכותית.
הכלי נבנה כך שיעבוד בצורה מהירה גם באינטרנט, בלי צורך ב-GPU או מחשב חזק בצד המשתמש.
מוזמנים לנסות – ואשמח מאוד לשמוע הערות, רעיונות או שימושים מעניינים שאתם מוצאים לו! -
@רחמים כתב בשיתוף | כלי AI חדש - זיהוי שגיאות OCR לפי הקשר בטקסטים בעברית:
@א-מ-ד כתב בשיתוף | כלי AI חדש - זיהוי שגיאות OCR לפי הקשר בטקסטים בעברית:
@רחמים איך אימנת ויצרת את המודל? באיזו פלטפורמה?
תודה על ההתעניינות!
את המודל פיתחתי ואימנתי בעצמי, במיוחד בשביל עברית וסגנון תורני – כולל ראשי תיבות, ציטוטים, ושיבושים שמוכרים למי שמתעסק עם טקסטים כאלה.
השתמשתי במודל מסוג Transformer, עם התאמות שבניתי שיאפשרו לזהות מילים שגויות לפי ההקשר – גם כשאין בהן טעות ברמת המילה עצמה.
הייתה כאן גם השקעה כספית לא קטנה – כולל רכישת חומרה מיוחדת כדי לאמן את המודל בצורה יעילה ואיכותית.
הכלי נבנה כך שיעבוד בצורה מהירה גם באינטרנט, בלי צורך ב-GPU או מחשב חזק בצד המשתמש.
מוזמנים לנסות – ואשמח מאוד לשמוע הערות, רעיונות או שימושים מעניינים שאתם מוצאים לו!אני מציע (אם המודל לא גדול מידי) שתעשה גרסה המכילה את המודל לאופליין לטובת הרבה משתמשים, וככה גם תחסוך את עלויות החומרה
-
@יום-חדש-מתחיל כתב בשיתוף | כלי AI חדש - זיהוי שגיאות OCR לפי הקשר בטקסטים בעברית:
@א-מ-ד כל המטרה שלו זה לאמן את המודל שלו,
ואם זה באופליין, מה זה יעזור לו?המטרה שלו היא שיוכלו להשתמש בתוכנה.
האמצעי זה אימון המודל ע"י המשתמשים, אבל אחר כך למה שלא יהיה אופליין? -
@צדיק-וטוב-לו-0 כתב בשיתוף | כלי AI חדש - זיהוי שגיאות OCR לפי הקשר בטקסטים בעברית:
הוא כן הבהיר שהוא מתכוון לאפשר שימוש חינמי, ושימוש פרו.
אבל למה שישחרר את המודל בחינם?אין בעיה, אז שיכתוב למעלה "פרסום לא ממומן".
במקומות אחרים מריקים על כזה דבר, וד"ל. -
@א-מ-ד כתב בשיתוף | כלי AI חדש - זיהוי שגיאות OCR לפי הקשר בטקסטים בעברית:
אני מציע (אם המודל לא גדול מידי) שתעשה גרסה המכילה את המודל לאופליין לטובת הרבה משתמשים, וככה גם תחסוך את עלויות החומרה
תודה על ההצעה!
אבל אני רוצה להבהיר – ההשקעה הכספית הייתה מצידי: חומרה חזקה, שעות פיתוח ואימון כדי לבנות מודל יעיל שמבין עברית תורנית.לאתר עלה המודל מאומן לגמרי, והוא לא מתאמן כשהוא באתר, העלתי אותו לאתר כדי לאפשר זיכוי הרבים – שכל אחד יכול להיכנס ולנסות, גם בלי מחשב חזק או התקנות מסובכות.
בנוסף, כל מי שמשתמש ומשאיר תגובה – עוזר לי לשים לב לנקודות לשיפור, וככה אני יודע מה צריך לתקן ולשדרג. ובזה הוא שותף בזיכוי הרבים הגדול הזה!
בעזרת ה' אני מתכנן להעלות בהמשך גרסאות חכמות יותר, עם יכולות נוספות – והכל בנוי לפי מה שבאמת עוזר לאנשים בשטח.
-
@י-פל כתב בשיתוף | כלי AI חדש - זיהוי שגיאות OCR לפי הקשר בטקסטים בעברית:
@aiib כתב בשיתוף | כלי AI חדש - זיהוי שגיאות OCR לפי הקשר בטקסטים בעברית:
כל המודלים החינמיים הם בעיקר לשם אימון.
מה?
huggingface והמודלים שבו, מאמנים עליך משהו???למיטב ידיעתי כן. עוד יותר. האימייל שלך והתמונות גוגל וכו' גם משמשים לאימון. אין מתנות חינם בדרך כלל.
-
@י-פל כתב בשיתוף | כלי AI חדש - זיהוי שגיאות OCR לפי הקשר בטקסטים בעברית:
@aiib כתב בשיתוף | כלי AI חדש - זיהוי שגיאות OCR לפי הקשר בטקסטים בעברית:
האימייל שלך והתמונות גוגל
נו נו.
זה כלום מידע.
אנחנו מדברים על 70B לדגמים ממוצעים, דגמים גדולים שוקלים מאות ג'יגות, ואתה מדבר על כתובת אימייל ותמונת פרופיל?לא, אני מדבר על כל המידע שעובר אצלך במייל, כל מה שאתה מחפש, כל התמונות אתה מעלה וכו' וכו'
וכן כל מה שאתה מחפש בכל מודל כמעט שיהיה.
בעצם אוה טענה שיש לך נגד @רחמים קיימת כמעט בכל דבר שאתה עושה באינטרנט...