שאלה | איזה שרת צריך בשביל פרויקט גדול?
-
@יעקב-מ-פינס
אם לכל אלף עמודים לוקח לך כרבע שעה,
אז תוך כ15 יום זה יכול לסיים,
אני צודק? -
@יעקב-מ-פינס
אני מנסה לבדוק כמה עמודים זה,
אבל בשביל זה אני צריך עזרה מאנשים שמבין קצת בפייתון כאן.
אעדכן אותך כשאצליח בס"ד. -
@אלף-שין משום מה נחסם לי הצ'אט
ואני לא זמין הרבה בפורום לאחרונה
יש לי כרגע אפילו 2 מחשבים כאלה
לדעתי זה ייצא הכי זול
אם אתה בירושלים אתה יכול לקחת ולבדוק לכמה שעות אם זה עוזר לך
אני ישלח לך את הטלפון בפרטי ממישהו אחר
או שיסדרו לי את הצא'ט -
@יהודה-12 כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:
@אלף-שין משום מה נחסם לי הצ'אט
ואני לא זמין הרבה בפורום לאחרונהחותם חסמו את הצ'אט של הפורום,
@יהודה-12 כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:
יש לי כרגע אפילו 2 מחשבים כאלה
מאי משמע כאלה?
@יהודה-12 כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:
אני ישלח לך את הטלפון בפרטי ממישהו אחר
או שיסדרו לי את הצא'טאני מציע בשלב ראשון תכתוב כאן את המפרט הטכני ,
כמו כן תבדוק שניה כמה זמן לוקח למחשבים שלך לנתח 100 עמודים, [כלומר לעשות להם OCR בABBYY]
ותעדכן כאן.תודה רבה!!
הפורום פה מלא באנשים טובים ונפלאים שנרתמים לעזור
וזה מאד מיוחד!
בעז"ה יחד נפעל ויחד נצליח!......
ועם ישראל כולו ירוויח! -
@אלף-שין בתוכנה הזאת - pdf-xchange אפשר לבנות כלים,
לדוגמא להגדיר שישנה את הגדול של העמודים, בכל הקבצים שתבחר/בתקיה מסוימת,
אחד הכלים זה זיהוי OCRשהוא הגדיר שכלי יעשה זיהוי לכל התקייה של הקבצי PDF שלו.
והזמן תלוי במפרט של המחשב.אבל בעיקר הרעיון הוא שהכלי מופעל על תקיה/קבצים שאתה בוחר.
-
@zalmensmok
תודה אני מכיר היטב.....
אם זה ממש מענין אותך תפתח שם את חלונית ה'אודות' ותראה שזה גם מבוסס ABBYY
מה שאני צריך זה מ-ח-ש-ב ח-ז-ק והמבחן שאני עושה פה לכל המחשבים שהציעו הוא פשוט ביותר!
כמה זמן לוקח למחשבך להמיר 100 עמודים?נראה שזה הולך לכיוון של פיצול לכמה מחשבים בו זמנית,
אבל לשם כך אני עדיין מחכה שיהיה כמה בעלי מחשב חזק,
שיבדקו כמה זמן זה לוקח אצלהם, ואז נראה כמה זה אפשרי וכיצד. -
@אלף-שין כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:
@zalmensmok
תודה אני מכיר היטב.....
אם זה ממש מענין אותך תפתח שם את חלונית ה'אודות' ותראה שזה גם מבוסס ABBYY
מה שאני צריך זה מ-ח-ש-ב ח-ז-ק והמבחן שאני עושה פה לכל המחשבים שהציעו הוא פשוט ביותר!
כמה זמן לוקח למחשבך להמיר 100 עמודים?נראה שזה הולך לכיוון של פיצול לכמה מחשבים בו זמנית,
אבל לשם כך אני עדיין מחכה שיהיה כמה בעלי מחשב חזק,
שיבדקו כמה זמן זה לוקח אצלהם, ואז נראה כמה זה אפשרי וכיצד.אולי אני אשמע מצחיק אבל אני לא באמת מבין בזה.
בטורנט וגם בביטקווין יש אפשרות לשלב כוחות של כמה וכמה מחשבים יחד וליצור רשת על כח עיבוד.
אולי יש איזה תוכנה שעושה זה זה וככה זה ייעל את העניין.עריכה: שאלתי את GPT והוא הפנה אותי ל https://boinc.berkeley.edu/ שעושה בדיוק את הדבר הזה.
הוא אמר לי שניתן להצטרף לפרויקט קיים ואז לפתוח צוות אישי שבו יהיה שליטה למנהל לנווט את כח העיבוד רק לצרכים שלו. -
@אלף-שין יש לי בהישג יד מחשב עם המפרט הבא:
Intel Core i5-13600K - Core i5 13th Gen Raptor Tayn
Lake 14-Core (6P+8E) LGA 1700 125Wלוח אם ASUS Prime Z60-P WIF DLGA1700Intel Z690
DDR4זכרון לנייח Kingston FURY BEAST 2x16GB DDR4 3600MHz
CL18Kingston 1T KC3000 (7,000/6,000) M.2 2280 NVMe |I0nX
SSDכרטיס מסך:
Gigabyte RTX 3060 12GB EAGLE OC 2.0 PCIE4.0 jon.זה לא בהישג יד ממש אבל אני יכול לקבל אליו גישה.
ככה שאם יגידו לי שעם המפרט הזה אני יכול במשך לילה/סופשבוע להגיע להספקים ממש משמעותיים (לא רק כחלק מרשת גדולה) אז אני אשתדל מאד בלנ"ד לקחת חלק. -
@אלף-שין כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:
@zalmensmok
תודה אני מכיר היטב.....
אם זה ממש מענין אותך תפתח שם את חלונית ה'אודות' ותראה שזה גם מבוסס ABBYY
מה שאני צריך זה מ-ח-ש-ב ח-ז-ק והמבחן שאני עושה פה לכל המחשבים שהציעו הוא פשוט ביותר!
כמה זמן לוקח למחשבך להמיר 100 עמודים?נראה שזה הולך לכיוון של פיצול לכמה מחשבים בו זמנית,
אבל לשם כך אני עדיין מחכה שיהיה כמה בעלי מחשב חזק,
שיבדקו כמה זמן זה לוקח אצלהם, ואז נראה כמה זה אפשרי וכיצד.יש לי מחשב די חזק (i7=11700h) ולא כ"כ בשימוש
לא אכפת לי לבדוק רק שאין לי כוח לעבור על כל הנושא כדי לראות מה בדיוק לעשות
אשמח שתתמצת את זה לפוסט אחד -
@קינג-קומפיוטר @aiib @יעקב-מ-פינס
קודם כל תודה לכולכם!
אני אתמצת שוב כפי שביקשו ואחדד נקודות:
יש ברשותינו מאגר ענק וחשוב של 60,000 קבצים שהם 11,769,728 עמודים! [629 GB]
כלל הקבצים עברו זיהוי תווים מיושן ולא מוצלח,
המטרה כרגע להעביר את כלל הקבצים זיהוי OCR מחדש באמצעות המנוע של תוכנת ABBYY
זהו מנוע הזיהוי המדויק ביותר לעברית,ואכמ"ל.לצורך כך יש צורך במחשב/מחשבים חזקים במיוחד שיעשו את ההמרה במשך זמן הגיוני
המבחן העיקרי שאנחנו עושים פה הוא כמה זמן לוקח לבצע זיהוי ל100 עמודים,ולכן:
עלינו לפעול בשני שלבים:
1] ניסוי ראשוני על המחשב כמה זמן זה לוקח לו,
2] הכפלה בכמות הקבצים הקיימים,יצוין כי מאחר שהתברר לי היום שלא כל העמודים שווים,
ויש עמודים שזמן הזיהוי שלהם עלול להיות פי 10 ויותר מעמודים אחרים שיקחו הרבה פחות זמן!!
לכן נראה לי שהניסוי הראשוני עדיף שיתבצע על כ20 קבצים שונים שבכל אחד יש 100 עמודים או יותר,
זה יתן לכולנו אינדקציה מספיק טובה כדי להעריך את הזמן שיקח לכל הפרוייקט,
ולבדוק את ההיתכנות.אני יביא כאן קישור לדרייב שמכיל 20 קבצים כאלה
ואחכה מכל אחד מהאנשים הנפלאים כאן שיאמר כמה זמן הקבצים האלו ספצפית לקחו למחשב שלו. -
@אלף-שין כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:
אני יביא כאן קישור לדרייב שמכיל 20 קבצים כאלה
ואחכה מכל אחד מהאנשים הנפלאים כאן שיאמר כמה זמן זה לקח לו.יהיה לי מסובך גם לעשות ניסיון וגם לבצע.
אני אשמח בלנ"ד אחרי שהניסיון ייצא בהצלחה לקחת חלק מסויים.
אני מאמין שאם במחשבים חלשים יותר (עד עכשיו נראה לי שהמחשב שלי 'מנצח'...) ייתנו תוצאות טובות אז אצלי יהיה עוד יותר טוב.
כמובן שאצטרך הדרכה איך לתעדף את התוכנה שתעבוד דרך הGPU -
@אלף-שין כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:
@aiib
למקרה שלך יש לי עוד רעיון:
כלל המאגר נמצא גם בדרייב,
אז אולי נשתף אותך בדרייב הזה
ואז תפעיל סקריפט אוטומטי שכל לילה יפעיל באופן אוטונומי זיהוי על עוד חלק בדרייב?
הרעיון אפשרי?אם אני אבין שהמחשב שלי מאד מאד משמעותי אולי.
כרגע הוא נמצא בחדר שישנים בו והמארז עושה הרבה אור עם משחי נורות לד שזה קצת בעייתי... (לא מצאתי דרך לנטרל...) -
@aiib
אני לא מספיק יודע לענות לך עד כמה המחשב שלך משמעותי במטלה הזאת יחסית למחשבים האחרים שהציעו,
אני מסופק אם יש מישהוא מחברי הפורום שיודע לענות על שאלה כזאת חוץ מהמנהל @אלישי היקר, מקווה שהוא יוכל לבדוק מה שכתבת פה.
ולהחכימנו האם המחשב שלך אכן שווה את ההשקעה?@aiib כתב בשאלה | איזה שרת צריך בשביל פרויקט גדול?:
אפשר להגדיר כשאין עבודה על המחשב אז זה יעבוד?
כי אם כן זה יכול לעשות בכל יום כמה שעות טובות גם בלי הלילהאני מאמין שבגיסרת SDK אפשר,
אבל שוב אני מחכה גם בזה להנ"ל.