שאלה | איזה שרת צריך בשביל פרויקט גדול?

aiib

@אלף-שין יש לי בהישג יד מחשב עם המפרט הבא:
Intel Core i5-13600K - Core i5 13th Gen Raptor Tayn
Lake 14-Core (6P+8E) LGA 1700 125W

לוח אם ASUS Prime Z60-P WIF DLGA1700Intel Z690
DDR4

זכרון לנייח Kingston FURY BEAST 2x16GB DDR4 3600MHz
CL18

Kingston 1T KC3000 (7,000/6,000) M.2 2280 NVMe |I0nX
SSD

כרטיס מסך:
Gigabyte RTX 3060 12GB EAGLE OC 2.0 PCIE4.0 jon.

זה לא בהישג יד ממש אבל אני יכול לקבל אליו גישה.
ככה שאם יגידו לי שעם המפרט הזה אני יכול במשך לילה/סופשבוע להגיע להספקים ממש משמעותיים (לא רק כחלק מרשת גדולה) אז אני אשתדל מאד בלנ"ד לקחת חלק.

קינג קומפיוטר

@אלף-שין כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:

@zalmensmok
תודה אני מכיר היטב.....
אם זה ממש מענין אותך תפתח שם את חלונית ה'אודות' ותראה שזה גם מבוסס ABBYY
מה שאני צריך זה מ-ח-ש-ב ח-ז-ק והמבחן שאני עושה פה לכל המחשבים שהציעו הוא פשוט ביותר!
כמה זמן לוקח למחשבך להמיר 100 עמודים?

נראה שזה הולך לכיוון של פיצול לכמה מחשבים בו זמנית,
אבל לשם כך אני עדיין מחכה שיהיה כמה בעלי מחשב חזק,
שיבדקו כמה זמן זה לוקח אצלהם, ואז נראה כמה זה אפשרי וכיצד.

יש לי מחשב די חזק (i7=11700h) ולא כ"כ בשימוש
לא אכפת לי לבדוק רק שאין לי כוח לעבור על כל הנושא כדי לראות מה בדיוק לעשות
אשמח שתתמצת את זה לפוסט אחד

אלף שין

@קינג-קומפיוטר @aiib @יעקב-מ-פינס

קודם כל תודה לכולכם!

אני אתמצת שוב כפי שביקשו ואחדד נקודות:

יש ברשותינו מאגר ענק וחשוב של 60,000 קבצים שהם 11,769,728 עמודים! [629 GB]
כלל הקבצים עברו זיהוי תווים מיושן ולא מוצלח,
המטרה כרגע להעביר את כלל הקבצים זיהוי OCR מחדש באמצעות המנוע של תוכנת ABBYY
זהו מנוע הזיהוי המדויק ביותר לעברית,ואכמ"ל.

לצורך כך יש צורך במחשב/מחשבים חזקים במיוחד שיעשו את ההמרה במשך זמן הגיוני
המבחן העיקרי שאנחנו עושים פה הוא כמה זמן לוקח לבצע זיהוי ל100 עמודים,

ולכן:
עלינו לפעול בשני שלבים:
1] ניסוי ראשוני על המחשב כמה זמן זה לוקח לו,
2] הכפלה בכמות הקבצים הקיימים,

יצוין כי מאחר שהתברר לי היום שלא כל העמודים שווים,
ויש עמודים שזמן הזיהוי שלהם עלול להיות פי 10 ויותר מעמודים אחרים שיקחו הרבה פחות זמן!!
לכן נראה לי שהניסוי הראשוני עדיף שיתבצע על כ20 קבצים שונים שבכל אחד יש 100 עמודים או יותר,
זה יתן לכולנו אינדקציה מספיק טובה כדי להעריך את הזמן שיקח לכל הפרוייקט,
ולבדוק את ההיתכנות.

אני יביא כאן קישור לדרייב שמכיל 20 קבצים כאלה
ואחכה מכל אחד מהאנשים הנפלאים כאן שיאמר כמה זמן הקבצים האלו ספצפית לקחו למחשב שלו.

aiib

@אלף-שין כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:

אני יביא כאן קישור לדרייב שמכיל 20 קבצים כאלה
ואחכה מכל אחד מהאנשים הנפלאים כאן שיאמר כמה זמן זה לקח לו.

יהיה לי מסובך גם לעשות ניסיון וגם לבצע.
אני אשמח בלנ"ד אחרי שהניסיון ייצא בהצלחה לקחת חלק מסויים.
אני מאמין שאם במחשבים חלשים יותר (עד עכשיו נראה לי שהמחשב שלי 'מנצח'...) ייתנו תוצאות טובות אז אצלי יהיה עוד יותר טוב.
כמובן שאצטרך הדרכה איך לתעדף את התוכנה שתעבוד דרך הGPU

אלף שין

@aiib
למקרה שלך יש לי עוד רעיון:
כלל המאגר נמצא גם בדרייב,
אז אולי נשתף אותך בדרייב הזה
ואז תפעיל פעם אחת סקריפט אוטומטי,
שכל לילה יפעיל באופן אוטונומי זיהוי על עוד חלק בדרייב?
הרעיון אפשרי?

aiib

@אלף-שין כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:

@aiib
למקרה שלך יש לי עוד רעיון:
כלל המאגר נמצא גם בדרייב,
אז אולי נשתף אותך בדרייב הזה
ואז תפעיל סקריפט אוטומטי שכל לילה יפעיל באופן אוטונומי זיהוי על עוד חלק בדרייב?
הרעיון אפשרי?

אם אני אבין שהמחשב שלי מאד מאד משמעותי אולי.
כרגע הוא נמצא בחדר שישנים בו והמארז עושה הרבה אור עם משחי נורות לד שזה קצת בעייתי... (לא מצאתי דרך לנטרל...)

aiib

@אלף-שין כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:

שכל לילה יפעיל באופן אוטונומי זיהוי על עוד חלק בדרייב?

אפשר להגדיר כשאין עבודה על המחשב אז זה יעבוד?
כי אם כן זה יכול לעשות בכל יום כמה שעות טובות גם בלי הלילה

אלף שין

@aiib
אני לא מספיק יודע לענות לך עד כמה המחשב שלך משמעותי במטלה הזאת יחסית למחשבים האחרים שהציעו,
אני מסופק אם יש מישהוא מחברי הפורום שיודע לענות על שאלה כזאת חוץ מהמנהל @אלישי היקר, מקווה שהוא יוכל לבדוק מה שכתבת פה.
ולהחכימנו האם המחשב שלך אכן שווה את ההשקעה?

@aiib כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:

אפשר להגדיר כשאין עבודה על המחשב אז זה יעבוד?
כי אם כן זה יכול לעשות בכל יום כמה שעות טובות גם בלי הלילה

אני מאמין שבגיסרת SDK אפשר,
אבל שוב אני מחכה גם בזה להנ"ל.

aiib

@אלף-שין כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:

אני מאמין שבגיסרת SDK אפשר,

אני דיברתי על הסקריפט שכתבת עליו

אלף שין

@aiib
וגם אני.....
SDK זה הולך טוב עם סקריפטים.....

קינג קומפיוטר

@אלף-שין צריך גם לצרף קישור לתוכנה והוראות כיצד להפעיל אותה בצורה שתנצל את מלוא ביצועי המעבד הרגיל והגרפי

אלף שין

@קינג-קומפיוטר
נכון, אבל אלישי לא תמיד זמין,
אני עדיין מחכה שהוא יתפנה לבדוק את הענין
ואז נוכל ללמוד את זה ממנו בעז"ה.

יהודה 12

@אלף-שין
המחשבים שלי

נייד לנובו לגיון
מעבד I7 14700HX
כרטיס מסך RTX 4060
זכרון ראם - 32GB

מחשב מס' 2
לנובו לוק
מעבד I7 13650HX
כרטיס מסך RTX 4060
זכרון ראם 32GB

אני מתנצל אבל אין לי זמן לבדוק את זה
אני יכול לתת למישהו את המחשב ללילה לבדוק את זה
בירושלים

אלף שין

@יהודה-12 @aiib @יעקב-מ-פינס @י-פל @אבי_770 @אלישי
@האדם-החושב
נראה לי שפשוט נתחיל,
ונראה תוך כדי התקדמות מה חסר,
מה שברור לכו"ע זה שבכל יום שעובר אפשר להספיק אלפים רבים של ספרים......

רק חסר לי רעיון ברור איך לבצע את העבודה השיתופית הזאת,
הקבצים נמצאים אצלי גם בדרייב, וגם בכונן קשיח,
מדובר ב60,000 קבצים 11.7 מיליון עמודים,

נראה לי שכל אחד יוכל לבחור באחד מבין 3 אפשרויות איך לבצע את הזיהוי אצלו,

1] בתוכנת ABBYY מכאן או באחד מהכלים האחרים שלהם [SDK /סרבר/עוד]
2] בתוכנת PDF-XChange מכאן {בכלי בשם טולס} [יש להגדיר שיהיה OCR משופר].
3] בתוכנה של רחמים זה מיועד רק למי שקנה את התוכנה מרחמים [ורק אם הרישיון שהוא נותן הוא ללא הגבלה].
בשלושתם יהיה תוצאה טובה שמספיקה לעניינינו.

בכל האפשרויות יש צורך גדול להגדיר ששפת הזיהוי היא עברית בלבד!
וזה כדי שלא יהיה פיענוחים שגויים בעשרות שפות אחרות, וגם זה יקצר את העבודה מאד!

וכעת אבקשכם להציע רעיונות ריאליים לביצוע,
מעריך מאד ותודה מראש לכולם!!

@משה-מזרחי התוכל בבקשה לבדוק האם יש לירון את תוכנת ABBYY FineReader Server -שים ב שזה לא מה שהעלית פה וזה גם לא זה של @KINGYOS
או אולי לפחות יש לו את תוכנת ABBYY FlexiCapture SDK?

@דאנציג האם התוכנה של רחמים יעקובוב מוגבלת לכמות עמודים מסוימת?

aiib

@אלף-שין כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:

בכל האפשרויות יש צורך גדול להגדיר ששפת הזיהוי היא עברית בלבד! וזה כדי שלא יהיה פיענוחים שגויים בעשרות שפות אחרות, וגם זה יקצר את העבודה מאד!

אם מישהו יוכל להכין מדריך מפורט ואולי אפילו סרטון כדי שלא יעבדו לחינם.

בנוסף, דובר כאן על שינוי הגדרות כך שהתוכנה תשתמש בעיקר במעבד הגרפי, מה עם זה? יש הדרכה?

אלף שין

@aiib
יש לנו קושי בענין,
שכן חלק מהכלים של ABBYY לא מנצלים את המעבד הגרפי,
ואלו שכן לא נותנים אופציה לשלב את הזיהוי כשכבה מוסתרת לקובץ הקיים,

היה לאלישי מספר כיוונים של רעיונות בענין,
אבל עד שהוא יהיה זמין שוב נראה לי שאפשר להתחיל כך עכ"פ כניסוי,
לגבי מדריך אולי נבקש מהמתרגם בעצמו שיביא לכאן קישור? [@י-פל ?]

דאנציג

@אלף-שין כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:

@דאנציג האם התוכנה של רחמים יעקובוב מוגבלת לכמות עמודים מסוימת?

אין לי את התוכנה הנ"ל.

אני יכול לברר, אבל חבר שיש לו שאמר לי שABBYY מזהה הרבה יותר טוב ממנו גם רש"י

משה מזרחי

@אלף-שין כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:

@משה-מזרחי התוכל בבקשה לבדוק האם יש לירון את תוכנת ABBYY FineReader Server -שים ב שזה לא מה שהעלית פה וזה גם לא זה של @KINGYOS
או אולי לפחות יש לו את תוכנת ABBYY FlexiCapture SDK?

בדקתי
לא ראיתי שום אזכור לזה
מאמין שזה ממש קשה לפרוץ כזה דבר , זה יושב אחרי הכל בשרת, אם אני מבין נכון

אלף שין

@משה-מזרחי
תודה שבדקת!!

אציין שהם מספקים לכל דורש גירסת ניסיון של הסרבר, [וזה יושב אצלך ולא בשרת שלהם]
יש אופציה לשאול את ירון 'עצמו' אם הוא מכיר?

ויל"ע אם נמצא משהו באתר הזה??

@דאנציג כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:

אני יכול לברר,

אני ישמח.

דאנציג

@אלף-שין כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:

כלומר האם יש חברה שיכולה בתשלום להפעיל לי מחשב ברצף לכמה שבועות?

שמעתי שיש אפשרות לרכוש מחשב עם מעבד ווירטואלי, ומשלמים לפי שעת שימוש.
אתה יכול לבנות מחשב חזק ורציני ולהפעיל עליו את התוכנות שאתה רוצה, לכאורה התשלום יקר, אבל יכול להיות שאתה יכול לעמוד בו.