היו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!
-
@אמיר
באמת זה עקף בהרבה את ABBYYפרק ביסורין לאוו וזול 11 איתא במסכת ערכין וןי מו: עד מינן תנלית ימח נוזלי 1 סוף נוות יסורין כלומר יסורין שאין מויותין מוזן אמו וני אלוווו 1 גל שארגו לו בגד ללבוש ואין מתקבל עליו ונר נוזליו מיו אמת 1 אפילו נתכוונו למזוג בחמין ומזגו לו בצונן, בצונן ומונו לו גוזמין 1 ונו׳ אפילו נחמן לו חלוקו ונו׳ אפילו הושיט יוו לניס ליפול 1 שלש ועלו בידו שתים ונו׳ ונל נן למה ותניא וני וגי ישמעאל 1 נל שעברו עליו ארבעים יום בלא יסווין קיבל עולמו ונו תניא 1 וני אליעזר הגדול אומר אלמלא בא הקלה עם אנוהס שתן ן ויעקב בדין אין ינולים לעמוד מפני תונחה, <ונ. בעולו אט 1 מלאים יסודן נרמון ונל אחד ואחד לפי מווגתו ויווע מה זהות 1 מוגליה במומיה דרבינו הגה׳׳צ וני איא וטלו זלל ומובא י במנתב מאליהו על הא דאיתא בגמוא פטווים שבעולז צויניט לברך על הרעה ברוך דין האמת ולעתיד לבא הטוב והמטיב היות ושיא השגתנו בעוה״ז נשעדיין מרגיש האדם שהנאביס והיסווין רעים עבורו להצדק את הדן אבל לעתיד לבא נשיג בהשגתנו את פנימיות נוונת הנהגת היית ובראותינו נשו היה הבל אן לטובה נונל לברך הטוב והמטיב ערל, אי אפשו להתעלם שהמנאובים למינהם והיסורין למינהם הן יסוד הגוף והן יטווי הנפש הן ברוחניות והן בגשמיות, הם נואבים חוק חזק ונל אום במצבו נמעט נחשך עליו עולמו אף שאום אחו שנבו נמצא בהשגה יותר גבוהה לא מבין האם לזאת ייקוא יסודן והאמת הגמרא מורה לנו מה נקרא יסודן ונגיל ובמובן נשאום מתייסו נשמנניס ידו לניסו להוציא שלש מטבעות ויוצא שתים בשבילו במצב הזה זה יסודן שצדן שוב להנניס ידו לניסו ומאיון אתו
אך על פניו נראה שזה עובד עם AI
ואין לנו המשאבים המתאימים לזה,
[אגב גם בABBYY יש כלים שעובדים עם AI]. -
@אמיר
באמת זה עקף בהרבה את ABBYYפרק ביסורין לאוו וזול 11 איתא במסכת ערכין וןי מו: עד מינן תנלית ימח נוזלי 1 סוף נוות יסורין כלומר יסורין שאין מויותין מוזן אמו וני אלוווו 1 גל שארגו לו בגד ללבוש ואין מתקבל עליו ונר נוזליו מיו אמת 1 אפילו נתכוונו למזוג בחמין ומזגו לו בצונן, בצונן ומונו לו גוזמין 1 ונו׳ אפילו נחמן לו חלוקו ונו׳ אפילו הושיט יוו לניס ליפול 1 שלש ועלו בידו שתים ונו׳ ונל נן למה ותניא וני וגי ישמעאל 1 נל שעברו עליו ארבעים יום בלא יסווין קיבל עולמו ונו תניא 1 וני אליעזר הגדול אומר אלמלא בא הקלה עם אנוהס שתן ן ויעקב בדין אין ינולים לעמוד מפני תונחה, <ונ. בעולו אט 1 מלאים יסודן נרמון ונל אחד ואחד לפי מווגתו ויווע מה זהות 1 מוגליה במומיה דרבינו הגה׳׳צ וני איא וטלו זלל ומובא י במנתב מאליהו על הא דאיתא בגמוא פטווים שבעולז צויניט לברך על הרעה ברוך דין האמת ולעתיד לבא הטוב והמטיב היות ושיא השגתנו בעוה״ז נשעדיין מרגיש האדם שהנאביס והיסווין רעים עבורו להצדק את הדן אבל לעתיד לבא נשיג בהשגתנו את פנימיות נוונת הנהגת היית ובראותינו נשו היה הבל אן לטובה נונל לברך הטוב והמטיב ערל, אי אפשו להתעלם שהמנאובים למינהם והיסורין למינהם הן יסוד הגוף והן יטווי הנפש הן ברוחניות והן בגשמיות, הם נואבים חוק חזק ונל אום במצבו נמעט נחשך עליו עולמו אף שאום אחו שנבו נמצא בהשגה יותר גבוהה לא מבין האם לזאת ייקוא יסודן והאמת הגמרא מורה לנו מה נקרא יסודן ונגיל ובמובן נשאום מתייסו נשמנניס ידו לניסו להוציא שלש מטבעות ויוצא שתים בשבילו במצב הזה זה יסודן שצדן שוב להנניס ידו לניסו ומאיון אתו
אך על פניו נראה שזה עובד עם AI
ואין לנו המשאבים המתאימים לזה,
[אגב גם בABBYY יש כלים שעובדים עם AI]. -
@אלף-שין אם זה התוצאה שיהיה לך בכל הספרים זה עדיין שווה את המאמץ?
עריכה: השתמשתי עכשיו בכלי החיתוך של ווינדוס, התוצאה הייתה כמעט אחד לאחד לתוצאה למעלה, זה לכאורה בלי AI
מעניין אם יש אפשרות להשתמש בזה בסיטונאות. -
@אלף-שין אם זה התוצאה שיהיה לך בכל הספרים זה עדיין שווה את המאמץ?
עריכה: השתמשתי עכשיו בכלי החיתוך של ווינדוס, התוצאה הייתה כמעט אחד לאחד לתוצאה למעלה, זה לכאורה בלי AI
מעניין אם יש אפשרות להשתמש בזה בסיטונאות. -
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
@אלף-שין אם זה התוצאה שיהיה לך בכל הספרים זה עדיין שווה את המאמץ?
לרוב התוצאות טובות בהרבה,
עכ"פ זה יספיק לנו, כיון שהמטרה היא לאפשר חיפוש
[התוצאות יוצגו בשכה של הצילום], ואכמ"ל. -
@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
כיון שהמטרה היא לאפשר חיפוש
אפשר לחפש בתוצאה שהבאת למעלה?
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
אפשר לחפש בתוצאה שהבאת למעלה?
אענה בקצרה,
כשמטרת הזיהוי היא למצוא ביטוי
אפשר להסתפק ברמת OCR של ABBYY
כי בכל הצילומים הנורמליים קרוב לוודאי שהביטוי ימצא לפחות פעם אחת בעמוד הרלוונטי,
בעיקר מחמת שבד"כ ביטוי חוזר על עצמו בקטע שעוסק בו יותר מפעם אחת,
מה שמספק תוצאת חיפוש לעמוד הרלוונטי באחוזים גבוהים מאד,
וזה בדוק ומנוסה. -
@אמיר
באמת זה עקף בהרבה את ABBYYפרק ביסורין לאוו וזול 11 איתא במסכת ערכין וןי מו: עד מינן תנלית ימח נוזלי 1 סוף נוות יסורין כלומר יסורין שאין מויותין מוזן אמו וני אלוווו 1 גל שארגו לו בגד ללבוש ואין מתקבל עליו ונר נוזליו מיו אמת 1 אפילו נתכוונו למזוג בחמין ומזגו לו בצונן, בצונן ומונו לו גוזמין 1 ונו׳ אפילו נחמן לו חלוקו ונו׳ אפילו הושיט יוו לניס ליפול 1 שלש ועלו בידו שתים ונו׳ ונל נן למה ותניא וני וגי ישמעאל 1 נל שעברו עליו ארבעים יום בלא יסווין קיבל עולמו ונו תניא 1 וני אליעזר הגדול אומר אלמלא בא הקלה עם אנוהס שתן ן ויעקב בדין אין ינולים לעמוד מפני תונחה, <ונ. בעולו אט 1 מלאים יסודן נרמון ונל אחד ואחד לפי מווגתו ויווע מה זהות 1 מוגליה במומיה דרבינו הגה׳׳צ וני איא וטלו זלל ומובא י במנתב מאליהו על הא דאיתא בגמוא פטווים שבעולז צויניט לברך על הרעה ברוך דין האמת ולעתיד לבא הטוב והמטיב היות ושיא השגתנו בעוה״ז נשעדיין מרגיש האדם שהנאביס והיסווין רעים עבורו להצדק את הדן אבל לעתיד לבא נשיג בהשגתנו את פנימיות נוונת הנהגת היית ובראותינו נשו היה הבל אן לטובה נונל לברך הטוב והמטיב ערל, אי אפשו להתעלם שהמנאובים למינהם והיסורין למינהם הן יסוד הגוף והן יטווי הנפש הן ברוחניות והן בגשמיות, הם נואבים חוק חזק ונל אום במצבו נמעט נחשך עליו עולמו אף שאום אחו שנבו נמצא בהשגה יותר גבוהה לא מבין האם לזאת ייקוא יסודן והאמת הגמרא מורה לנו מה נקרא יסודן ונגיל ובמובן נשאום מתייסו נשמנניס ידו לניסו להוציא שלש מטבעות ויוצא שתים בשבילו במצב הזה זה יסודן שצדן שוב להנניס ידו לניסו ומאיון אתו
אך על פניו נראה שזה עובד עם AI
ואין לנו המשאבים המתאימים לזה,
[אגב גם בABBYY יש כלים שעובדים עם AI].@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
ואין לנו המשאבים המתאימים לזה,
המנוע של גוגל לא מותקן על המחשב.
הוא רק בענן.
משלמים פר שימוש.
צריך לבדוק את התמחור ולהחליט אם זה שווה.
או לעשות דף דף בקישור ש @אמיר כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:עריכה:
@אמיר כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
זה נראה אפי' עוד יותר טוב.
גם זה לא דורש עיבוד על המחשב (מלבד אלפי קריאות לכרום, רק מעבד סביר וראם גדול)
וזה ככה"נ בחינם (עד לחסימה מגוגל...)מישהו כאן יכול לנסות לתרגם את זה לתוכנה, וכל אחד במחשב שלו יסרוק כמה קבצים עם התוכנה הזאת.
העניין הוא רק השילוב לPDF.
לא הבנתי את מטרת הפרוייקט בדיוק. צריך לקבל את הספרים בצורתם המקורית עם אפשרות חיפוש?
או רק קובץ טקסט עם הטקסט שלהם?
אם רק קובץ טקסט, זו לדעתי תהיה האפשרות היעילה ביותר. -
@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
ואין לנו המשאבים המתאימים לזה,
המנוע של גוגל לא מותקן על המחשב.
הוא רק בענן.
משלמים פר שימוש.
צריך לבדוק את התמחור ולהחליט אם זה שווה.
או לעשות דף דף בקישור ש @אמיר כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:עריכה:
@אמיר כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
זה נראה אפי' עוד יותר טוב.
גם זה לא דורש עיבוד על המחשב (מלבד אלפי קריאות לכרום, רק מעבד סביר וראם גדול)
וזה ככה"נ בחינם (עד לחסימה מגוגל...)מישהו כאן יכול לנסות לתרגם את זה לתוכנה, וכל אחד במחשב שלו יסרוק כמה קבצים עם התוכנה הזאת.
העניין הוא רק השילוב לPDF.
לא הבנתי את מטרת הפרוייקט בדיוק. צריך לקבל את הספרים בצורתם המקורית עם אפשרות חיפוש?
או רק קובץ טקסט עם הטקסט שלהם?
אם רק קובץ טקסט, זו לדעתי תהיה האפשרות היעילה ביותר. -
שאלתי את GPT והוא כנראה נעלב
הוא בקש שאעלה לו את הקובץ והוא יפענח
נראה לי שהוא לקח את זה קשה@אמיר
בכל אופן התמחור של גוגל לחילוץ טקסט מתמונות:
צריך לבדוק כמה כאלו חבילות צריך בשביל פרויקט כזה.
למרות שהרעיון של הפרויקט החינמי בגיטהאב הרבה יותר טוב.
שוב, כל זה רק אם צריך רק קבצי טקסט.
אם לא כל הדיון מיותר.
חייבים מה ש @אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:1] בתוכנת ABBYY מכאן או באחד מהכלים האחרים שלהם [SDK /סרבר/עוד]
2] בתוכנת PDF-XChange מכאן {בכלי בשם טולס} [יש להגדיר שיהיה OCR משופר].
3] בתוכנה של רחמים זה מיועד רק למי שקנה את התוכנה מרחמים [ורק אם הרישיון שהוא נותן הוא ללא הגבלה]. -
@אמיר
בכל אופן התמחור של גוגל לחילוץ טקסט מתמונות:
צריך לבדוק כמה כאלו חבילות צריך בשביל פרויקט כזה.
למרות שהרעיון של הפרויקט החינמי בגיטהאב הרבה יותר טוב.
שוב, כל זה רק אם צריך רק קבצי טקסט.
אם לא כל הדיון מיותר.
חייבים מה ש @אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:1] בתוכנת ABBYY מכאן או באחד מהכלים האחרים שלהם [SDK /סרבר/עוד]
2] בתוכנת PDF-XChange מכאן {בכלי בשם טולס} [יש להגדיר שיהיה OCR משופר].
3] בתוכנה של רחמים זה מיועד רק למי שקנה את התוכנה מרחמים [ורק אם הרישיון שהוא נותן הוא ללא הגבלה]. -
קודם כל אכן צריך דווקא שיהיה שכבת טקסט מוסתרת מאחורי הצילום,
דבר שני מדובר על 11.7 מיליון עמודים!!לכן זה לא נראה ריאלי לע"ע.
@אלף-שין
הקובץ חייב להיות צילום עם שכבת טקסט?
זה מה ששאלתי.@יאנג-בוי כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
צריך לקבל את הספרים בצורתם המקורית עם אפשרות חיפוש?
או רק קובץ טקסט עם הטקסט שלהם?
אם רק קובץ טקסט, זו לדעתי תהיה האפשרות היעילה ביותר.ואם כן, כל הרעיון של גוגל לא רלוונטי בכלל.
@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
דבר שני מדובר על 11.7 מיליון עמודים!!
אין הבדל בין ABBYY לגוגל בהקשר הזה.
אבל שוב, לא רלוונטי. -
קודם כל אכן צריך דווקא שיהיה שכבת טקסט מוסתרת מאחורי הצילום,
דבר שני מדובר על 11.7 מיליון עמודים!!לכן זה לא נראה ריאלי לע"ע.
-
@אלף-שין
הקובץ חייב להיות צילום עם שכבת טקסט?
זה מה ששאלתי.@יאנג-בוי כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
צריך לקבל את הספרים בצורתם המקורית עם אפשרות חיפוש?
או רק קובץ טקסט עם הטקסט שלהם?
אם רק קובץ טקסט, זו לדעתי תהיה האפשרות היעילה ביותר.ואם כן, כל הרעיון של גוגל לא רלוונטי בכלל.
@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
דבר שני מדובר על 11.7 מיליון עמודים!!
אין הבדל בין ABBYY לגוגל בהקשר הזה.
אבל שוב, לא רלוונטי.@יאנג-בוי כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
הקובץ חייב להיות צילום עם שכבת טקסט?
זה מה ששאלתי.כן.
חייב.@יאנג-בוי כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
ואם כן, כל הרעיון של גוגל לא רלוונטי בכלל.
נכון.
-
@אמיר כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
איך נקרא תהליך ההטמעה של הטקסט לתוך תמונה שב- PDF ?
שאלה טובה אני לא יודע כרגע,
איך שלא יהיה צריך לדעת את הקורדאניטות
ולכן נראה לי האופציות שהצעתי הם הטובות ביותר. -
@aiib כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
מה בוחרים כאן?
את הראשון.
חשוב!! אח"כ תגדיר עברית בלבד.
ואל תתייחס לפירוט השגיאות שהבאת בהודעה הבאה.
רק מה שנפק"מ זה רק מה שכתוב לך להגדיר את הרוזולוצי' ל 600 -
שלום רב,
כהמשך לרעיון שהעלו בשרשור שם
אני פותח פה את הפרוייקט המיוחד בצורה מסודרת וברורה.[פרוייקט שיתופי של OCR ל60,000 קבצים המכילים 11.7 מיליון עמודים!]
תחילה יש להתקין תוכנה של OCR
כל אחד יוכל לבחור באחד מבין 3 אפשרויות איך לבצע את הזיהוי אצלו,1] בתוכנת ABBYY מכאן או באחד מהכלים האחרים שלהם [SDK /סרבר/עוד]
2] בתוכנת PDF-XChange מכאן {בכלי בשם טולס} [יש להגדיר שיהיה OCR משופר].
3] בתוכנה של רחמים זה מיועד רק למי שקנה את התוכנה מרחמים [ורק אם הרישיון שהוא נותן הוא ללא הגבלה].
בשלושתם יהיה תוצאה טובה שמספיקה לעניינינו.בכל האפשרויות יש צורך גדול להגדיר ששפת הזיהוי היא עברית בלבד!
וזה כדי שלא יהיה פיענוחים שגויים בעשרות שפות אחרות, וגם זה יקצר את העבודה מאד!לאחר מכן כל אחד בוחר את כמות הקבצים שהוא מעונין להמיר,
ומעדכן כאן, או במייל 0556781863A@GMAIL.COM או באישי ואנו נשלח לו למייל קישור לדרייב המכיל תיקייה עם כמות הקבצים שהוא ציין,
בנוסף נשלח לו קישור לתיקייה נוספת בדרייב לשם הוא יעלה את הקבצים לאחר העיבוד,יצוין כי אם מתקינים דרייב לשולחן עבודה,
אפשר לבצע את כל ההמרה כולל ההעלאה לדרייב בלחיצת כפתור אחת!
פשוט כל לילה 'לפני השינה' לוחצים על כפתור אחד וכל הלילה המחשב מעבד עוד ועוד קבצים ומעלה אותם בעצמו לתיקייה הרצויה בדרייב!
מי שרוצה נוכל להדריכו כאן.אם מישהו מוכן לעבוד על כמות גדולה אבל לא מתאים לו להוריד מהדרייב,
ישלח לנו את מיקום מגוריו, ונראה אם שייך להעביר לו את הקבצים ידנית.בהצלחה לכולנו!!
ושיהיה בעז"ה ס"ד גדולה לטובת כולם!!
@אלישי @aiib @האדם-החושב @י-פל @יעקב-מ-פינס @יהודה-12 @אמיר @דאנציג @משה-מזרחי @A0533057932 @NH-LOCAL
לכל תגובה/רעיון לשדרוג נא להגיב רק כאן,
זה נושא מסודר וחדש!כל אחד יכול לעזור ולהוסיף!!
בלי שום התחייבות!
בסוף הכל מצטרף לחשבון גדול!!@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
1] בתוכנת ABBYY מכאן או באחד מהכלים האחרים שלהם [SDK /סרבר/עוד]
ניתן פשוט להדגיש את כל הקבצים בתיקייה שמורידים > מקש ימני > אפשרויות נוספות > המר למסמך PDF הניתן לחיפוש
ואז בחלון שנפתח לבחור בשפות OCR עברית והמר אל PDF ולבחור תיקייה שלשם ישמור את המסמכים החדשים
-
@אלף-שין כתב בהיו שותפים בפרוייקט זיהוי תווים גדול וחשוב מאד!:
1] בתוכנת ABBYY מכאן או באחד מהכלים האחרים שלהם [SDK /סרבר/עוד]
ניתן פשוט להדגיש את כל הקבצים בתיקייה שמורידים > מקש ימני > אפשרויות נוספות > המר למסמך PDF הניתן לחיפוש
ואז בחלון שנפתח לבחור בשפות OCR עברית והמר אל PDF ולבחור תיקייה שלשם ישמור את המסמכים החדשים
@מיכאלוש יפה מאוד!
אבל למה לא לבחור ב'איכות תמונה' ב'איכות הטובה ביתר'?