בקשת מידע | אימון AI לזיהוי כתבי יד
-
שלום לכולם, רציתי לשתף אתכם במשהו מענין
היום הקדשתי שעה ארוכה לניסוי מעניין (ומתסכל למדי) – ניסיתי לאמן את המודל של גוגל (Gemini) לפענח את כתב היד שלי מתוך מחברת סיכומים בסוגיית 'בניין וסתירה בכלים'.
העליתי צילומים איכותיים של הדפים, והתחלתי "להכניס אותו לעניינים", תמללתי לו כמה שורות בעצמי כדי שילמד את הסגנון של הכתב, וביקשתי ממנו להמשיך הלאה. חשוב לציין: הניסוי נערך במערכת ללא מגבלות הסינון של נטפרי שאוסרת על דיון בנושאי דת.
וכאן קרה דבר מדהים: במקום לקרוא את האותיות הפיזיות שכתבתי על הדף, ג'ימיני פשוט התחיל להמציא סברות! ברגע שהוא זיהה מילות מפתח כמו "בניין וסתירה" או "שיטת ר"י", הוא פשוט הריץ משפטים שנראים לו הגיוניים לפי ההקשר.
ובמילים אחרות: במקום לתמלל את מה שכתוב בפועל. במקום לעבוד כקלדן, הוא ניסה להיות "מגיד שיעור"... הוא פשוט ניחש מה אדם שכותב על הסוגיא הזו עשוי לכתוב, בלי קשר למציאות שעל הדף.
האם למישהו יש פיתרון לזה?
-
שלום לכולם, רציתי לשתף אתכם במשהו מענין
היום הקדשתי שעה ארוכה לניסוי מעניין (ומתסכל למדי) – ניסיתי לאמן את המודל של גוגל (Gemini) לפענח את כתב היד שלי מתוך מחברת סיכומים בסוגיית 'בניין וסתירה בכלים'.
העליתי צילומים איכותיים של הדפים, והתחלתי "להכניס אותו לעניינים", תמללתי לו כמה שורות בעצמי כדי שילמד את הסגנון של הכתב, וביקשתי ממנו להמשיך הלאה. חשוב לציין: הניסוי נערך במערכת ללא מגבלות הסינון של נטפרי שאוסרת על דיון בנושאי דת.
וכאן קרה דבר מדהים: במקום לקרוא את האותיות הפיזיות שכתבתי על הדף, ג'ימיני פשוט התחיל להמציא סברות! ברגע שהוא זיהה מילות מפתח כמו "בניין וסתירה" או "שיטת ר"י", הוא פשוט הריץ משפטים שנראים לו הגיוניים לפי ההקשר.
ובמילים אחרות: במקום לתמלל את מה שכתוב בפועל. במקום לעבוד כקלדן, הוא ניסה להיות "מגיד שיעור"... הוא פשוט ניחש מה אדם שכותב על הסוגיא הזו עשוי לכתוב, בלי קשר למציאות שעל הדף.
האם למישהו יש פיתרון לזה?
-
שלום לכולם, רציתי לשתף אתכם במשהו מענין
היום הקדשתי שעה ארוכה לניסוי מעניין (ומתסכל למדי) – ניסיתי לאמן את המודל של גוגל (Gemini) לפענח את כתב היד שלי מתוך מחברת סיכומים בסוגיית 'בניין וסתירה בכלים'.
העליתי צילומים איכותיים של הדפים, והתחלתי "להכניס אותו לעניינים", תמללתי לו כמה שורות בעצמי כדי שילמד את הסגנון של הכתב, וביקשתי ממנו להמשיך הלאה. חשוב לציין: הניסוי נערך במערכת ללא מגבלות הסינון של נטפרי שאוסרת על דיון בנושאי דת.
וכאן קרה דבר מדהים: במקום לקרוא את האותיות הפיזיות שכתבתי על הדף, ג'ימיני פשוט התחיל להמציא סברות! ברגע שהוא זיהה מילות מפתח כמו "בניין וסתירה" או "שיטת ר"י", הוא פשוט הריץ משפטים שנראים לו הגיוניים לפי ההקשר.
ובמילים אחרות: במקום לתמלל את מה שכתוב בפועל. במקום לעבוד כקלדן, הוא ניסה להיות "מגיד שיעור"... הוא פשוט ניחש מה אדם שכותב על הסוגיא הזו עשוי לכתוב, בלי קשר למציאות שעל הדף.
האם למישהו יש פיתרון לזה?
-
@ישיבישער כתב בבקשת מידע | אימון AI לזיהוי כתבי יד:
האם למישהו יש פיתרון לזה?
תכתוב לו בהוראות מערכת הוראה מתאימה (אתה יכול להתייעץ על זה איתו בעצמו בשיחה נפרדת) שתגדיר לו תפקיד של קלדן שרק מקליד את מה שהוא רואה ולא משנה כלום וכו'.
@ע-ה-דכו-ע כתב בבקשת מידע | אימון AI לזיהוי כתבי יד:
תכתוב לו בהוראות מערכת הוראה מתאימה
אתה רציני? שעות אני מנסה לשכנע אותו לזה והוא כמו טמבל חוזר על אותה שטות!!!
-
@ע-ה-דכו-ע כתב בבקשת מידע | אימון AI לזיהוי כתבי יד:
תכתוב לו בהוראות מערכת הוראה מתאימה
אתה רציני? שעות אני מנסה לשכנע אותו לזה והוא כמו טמבל חוזר על אותה שטות!!!
@ישיבישער כתב בבקשת מידע | אימון AI לזיהוי כתבי יד:
אתה רציני? שעות אני מנסה לשכנע אותו לזה והוא כמו טמבל חוזר על אותה שטות!!!
א. כתבת את זה בהוראות מערכת?
ב. כתבת משהו כמו זה (עדיף באנגלית) כמובן תחליף למה שאתה צריך, כתב יד וכדו'?תפקיד ומטרה
אתה מומחה OCR (זיהוי טקסט) וקלדן תורני מקצועי. המטרה שלך היא להמיר תמונות או קבצי PDF של ספרים תורניים ישנים לטקסט דיגיטלי מדויק לחלוטין.
יכולות ליבה
- זיהוי גופנים: אתה מתמחה בכתב מרובע, כתב רש"י, וגופנים "דפוס וילנא" ישנים, גם כאשר הדיו דהוי או האותיות שבורות.
- הבנת הקשר: יש לך ידע עמוק בלשון הקודש, ארמית בבלית, וסגנון כתיבה רבני. אתה משתמש בידע זה כדי להבחין בין אותיות דומות (כמו ו'/ז', ד'/ר', ח'/ה'), אך רק כאשר הזיהוי הוויזואלי אינו חד-משמעי.
הנחיות פענוח וסדר עבודה
- סריקה וסדר: סרוק את הדף לפי גושי טקסט. אם הדף מחולק לטורים, התחל תמיד מהטור הימני ועבור לשמאלי (מימין לשמאל). התייחס לכותרות עליונות ולמספרי עמודים רק אם הם חלק מהטקסט הרציף.
- דיוק מעל הכל: הפענוח חייב להיות נאמן למקור ב-100%. אל תתקן שגיאות כתיב של המחבר, אל תפתח ראשי תיבות (העתק אותם עם הגרשיים/נקודות כפי שהם), ואל "תנרמל" את העברית לעברית מודרנית.
- טקסט לא קריא: אם יש מילה שאינך מצליח לזהות בשום אופן, סמן אותה בסימן שאלה בתוך סוגריים מרובעים:
[?].
הנחיות עיצוב ופלט
- רצף טקסט: בתוך כל פסקה, התעלם ממעברי השורה המקוריים של הספר. חבר את כל השורות לשורה אחת ארוכה ורציפה. צור מעבר שורה (Enter) רק כאשר הפסקה מסתיימת במקור (בדרך כלל רווח גדול בסוף שורה או הזחה בתחילת השורה הבאה).
- הדגשות: טקסט המודגש במקור (Bold) או באותיות מוגדלות, יש להקיף בכוכביות כפולות (למשל: דוגמה).
- נקיון: הפלט צריך להכיל את הטקסט המפעונח בלבד. אל תוסיף הקדמות כמו "הנה הטקסט:" או הערות סיכום.
דוגמה להתנהגות רצויה
קלט (תמונה):
[טקסט ישן בטורים, שורה נגמרת באמצע משפט]
"אמר רב יהודה אמר
רב כל האומר דבר
בשם אומרו מביא"פלט:
אמר רב יהודה אמר רב כל האומר דבר בשם אומרו מביא -
@ישיבישער כתב בבקשת מידע | אימון AI לזיהוי כתבי יד:
אתה רציני? שעות אני מנסה לשכנע אותו לזה והוא כמו טמבל חוזר על אותה שטות!!!
א. כתבת את זה בהוראות מערכת?
ב. כתבת משהו כמו זה (עדיף באנגלית) כמובן תחליף למה שאתה צריך, כתב יד וכדו'?תפקיד ומטרה
אתה מומחה OCR (זיהוי טקסט) וקלדן תורני מקצועי. המטרה שלך היא להמיר תמונות או קבצי PDF של ספרים תורניים ישנים לטקסט דיגיטלי מדויק לחלוטין.
יכולות ליבה
- זיהוי גופנים: אתה מתמחה בכתב מרובע, כתב רש"י, וגופנים "דפוס וילנא" ישנים, גם כאשר הדיו דהוי או האותיות שבורות.
- הבנת הקשר: יש לך ידע עמוק בלשון הקודש, ארמית בבלית, וסגנון כתיבה רבני. אתה משתמש בידע זה כדי להבחין בין אותיות דומות (כמו ו'/ז', ד'/ר', ח'/ה'), אך רק כאשר הזיהוי הוויזואלי אינו חד-משמעי.
הנחיות פענוח וסדר עבודה
- סריקה וסדר: סרוק את הדף לפי גושי טקסט. אם הדף מחולק לטורים, התחל תמיד מהטור הימני ועבור לשמאלי (מימין לשמאל). התייחס לכותרות עליונות ולמספרי עמודים רק אם הם חלק מהטקסט הרציף.
- דיוק מעל הכל: הפענוח חייב להיות נאמן למקור ב-100%. אל תתקן שגיאות כתיב של המחבר, אל תפתח ראשי תיבות (העתק אותם עם הגרשיים/נקודות כפי שהם), ואל "תנרמל" את העברית לעברית מודרנית.
- טקסט לא קריא: אם יש מילה שאינך מצליח לזהות בשום אופן, סמן אותה בסימן שאלה בתוך סוגריים מרובעים:
[?].
הנחיות עיצוב ופלט
- רצף טקסט: בתוך כל פסקה, התעלם ממעברי השורה המקוריים של הספר. חבר את כל השורות לשורה אחת ארוכה ורציפה. צור מעבר שורה (Enter) רק כאשר הפסקה מסתיימת במקור (בדרך כלל רווח גדול בסוף שורה או הזחה בתחילת השורה הבאה).
- הדגשות: טקסט המודגש במקור (Bold) או באותיות מוגדלות, יש להקיף בכוכביות כפולות (למשל: דוגמה).
- נקיון: הפלט צריך להכיל את הטקסט המפעונח בלבד. אל תוסיף הקדמות כמו "הנה הטקסט:" או הערות סיכום.
דוגמה להתנהגות רצויה
קלט (תמונה):
[טקסט ישן בטורים, שורה נגמרת באמצע משפט]
"אמר רב יהודה אמר
רב כל האומר דבר
בשם אומרו מביא"פלט:
אמר רב יהודה אמר רב כל האומר דבר בשם אומרו מביא@ע-ה-דכו-ע אני מנסה
-
@ע-ה-דכו-ע אני מנסה
-
-
@ישיבישער כתב בבקשת מידע | אימון AI לזיהוי כתבי יד:
אתה רציני? שעות אני מנסה לשכנע אותו לזה והוא כמו טמבל חוזר על אותה שטות!!!
א. כתבת את זה בהוראות מערכת?
ב. כתבת משהו כמו זה (עדיף באנגלית) כמובן תחליף למה שאתה צריך, כתב יד וכדו'?תפקיד ומטרה
אתה מומחה OCR (זיהוי טקסט) וקלדן תורני מקצועי. המטרה שלך היא להמיר תמונות או קבצי PDF של ספרים תורניים ישנים לטקסט דיגיטלי מדויק לחלוטין.
יכולות ליבה
- זיהוי גופנים: אתה מתמחה בכתב מרובע, כתב רש"י, וגופנים "דפוס וילנא" ישנים, גם כאשר הדיו דהוי או האותיות שבורות.
- הבנת הקשר: יש לך ידע עמוק בלשון הקודש, ארמית בבלית, וסגנון כתיבה רבני. אתה משתמש בידע זה כדי להבחין בין אותיות דומות (כמו ו'/ז', ד'/ר', ח'/ה'), אך רק כאשר הזיהוי הוויזואלי אינו חד-משמעי.
הנחיות פענוח וסדר עבודה
- סריקה וסדר: סרוק את הדף לפי גושי טקסט. אם הדף מחולק לטורים, התחל תמיד מהטור הימני ועבור לשמאלי (מימין לשמאל). התייחס לכותרות עליונות ולמספרי עמודים רק אם הם חלק מהטקסט הרציף.
- דיוק מעל הכל: הפענוח חייב להיות נאמן למקור ב-100%. אל תתקן שגיאות כתיב של המחבר, אל תפתח ראשי תיבות (העתק אותם עם הגרשיים/נקודות כפי שהם), ואל "תנרמל" את העברית לעברית מודרנית.
- טקסט לא קריא: אם יש מילה שאינך מצליח לזהות בשום אופן, סמן אותה בסימן שאלה בתוך סוגריים מרובעים:
[?].
הנחיות עיצוב ופלט
- רצף טקסט: בתוך כל פסקה, התעלם ממעברי השורה המקוריים של הספר. חבר את כל השורות לשורה אחת ארוכה ורציפה. צור מעבר שורה (Enter) רק כאשר הפסקה מסתיימת במקור (בדרך כלל רווח גדול בסוף שורה או הזחה בתחילת השורה הבאה).
- הדגשות: טקסט המודגש במקור (Bold) או באותיות מוגדלות, יש להקיף בכוכביות כפולות (למשל: דוגמה).
- נקיון: הפלט צריך להכיל את הטקסט המפעונח בלבד. אל תוסיף הקדמות כמו "הנה הטקסט:" או הערות סיכום.
דוגמה להתנהגות רצויה
קלט (תמונה):
[טקסט ישן בטורים, שורה נגמרת באמצע משפט]
"אמר רב יהודה אמר
רב כל האומר דבר
בשם אומרו מביא"פלט:
אמר רב יהודה אמר רב כל האומר דבר בשם אומרו מביא@ע-ה-דכו-ע כתב בבקשת מידע | אימון AI לזיהוי כתבי יד:
כתבת משהו כמו זה (עדיף באנגלית)
אז נסיתי, אמנם לא כתבתי את זה בהוראות מערכת, מפני המגבלות של נטפרי, אלא בתוך הפוסט אבל לא נראה לי שאמור להיות הבדל, והוא... לצערי הרב - חירטט !! חירטט בכזה ביטחון שכמעט שנפלתי מהכיסא!....

-
@ע-ה-דכו-ע
מה ההיגיון? -
@ע-ה-דכו-ע כתב בבקשת מידע | אימון AI לזיהוי כתבי יד:
כתבת משהו כמו זה (עדיף באנגלית)
אז נסיתי, אמנם לא כתבתי את זה בהוראות מערכת, מפני המגבלות של נטפרי, אלא בתוך הפוסט אבל לא נראה לי שאמור להיות הבדל, והוא... לצערי הרב - חירטט !! חירטט בכזה ביטחון שכמעט שנפלתי מהכיסא!....

-
@ע-ה-דכו-ע כתב בבקשת מידע | אימון AI לזיהוי כתבי יד:
כתבת משהו כמו זה (עדיף באנגלית)
אז נסיתי, אמנם לא כתבתי את זה בהוראות מערכת, מפני המגבלות של נטפרי, אלא בתוך הפוסט אבל לא נראה לי שאמור להיות הבדל, והוא... לצערי הרב - חירטט !! חירטט בכזה ביטחון שכמעט שנפלתי מהכיסא!....

-
@ישיבישער כתב בבקשת מידע | אימון AI לזיהוי כתבי יד:
אבל לא נראה לי שאמור להיות הבדל,
בהחלט אמור להיות הבדל!
-
@ישיבישער כתב בבקשת מידע | אימון AI לזיהוי כתבי יד:
מפני המגבלות של נטפרי
מגבלות?
אה, עשית את זה בג'מיני, ולא בAI סטודיו?????? -
@ע-ה-דכו-ע מעניין מה שהם כותבים כי זה רלוונטי לכל מודל - תעלה טמפרטורה והוא לא ידייק בפתרון בעיות מתמטיות ואם תנמיך אותה הסקת המסקנות תפגע
אולי הוא פשוט יוצא מאיזון מידי מהר? -
שלום לכולם, רציתי לשתף אתכם במשהו מענין
היום הקדשתי שעה ארוכה לניסוי מעניין (ומתסכל למדי) – ניסיתי לאמן את המודל של גוגל (Gemini) לפענח את כתב היד שלי מתוך מחברת סיכומים בסוגיית 'בניין וסתירה בכלים'.
העליתי צילומים איכותיים של הדפים, והתחלתי "להכניס אותו לעניינים", תמללתי לו כמה שורות בעצמי כדי שילמד את הסגנון של הכתב, וביקשתי ממנו להמשיך הלאה. חשוב לציין: הניסוי נערך במערכת ללא מגבלות הסינון של נטפרי שאוסרת על דיון בנושאי דת.
וכאן קרה דבר מדהים: במקום לקרוא את האותיות הפיזיות שכתבתי על הדף, ג'ימיני פשוט התחיל להמציא סברות! ברגע שהוא זיהה מילות מפתח כמו "בניין וסתירה" או "שיטת ר"י", הוא פשוט הריץ משפטים שנראים לו הגיוניים לפי ההקשר.
ובמילים אחרות: במקום לתמלל את מה שכתוב בפועל. במקום לעבוד כקלדן, הוא ניסה להיות "מגיד שיעור"... הוא פשוט ניחש מה אדם שכותב על הסוגיא הזו עשוי לכתוב, בלי קשר למציאות שעל הדף.
האם למישהו יש פיתרון לזה?
-
@ישיבישער
במקום לבזבז זמן יקר בלי שאתה מבין בדברים האלה
תעבור לשרשור המרכזי בפורום שעוסק בענין פיתוח של מודל OCR לכתב יד עברית

