הצעת ייעול | קונספט חדש לפרוייקט השו״ת
-
@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
נו אז צריך רשימה של ספרי אוצר החכמה להשוואה?
אני קצת חושב שיש להם רשימה ארוכה מאד..
אולי אפשר למצוא רשימה של כל ספרי ספריא, וכל ספרי אוצר החכמה, ולראות מה יש בספריא שאין באוצר החכמה, ולמחוק.. זה רק רעיוןעריכה: עכשיו אני שם לב למילה 'להשוואה'.. לא שמתי לב לזה -
האם יש אפשרות להעלות קובץ docs או xl משותף כדי שנוכל להתחיל לעבוד ולהשוות ולמחוק ולפסול וכו’, ?
הצעה: אפשר להחליט על רמזור צבעים של אדום צהוב ירוק.
אדום פסול לכולי עלמא
צהוב נתון לדיון
ירוק כשר לכולי עלמא
אשמח לעזור באופן אישי בפרקטיקה ככל שיתן הזמן.
כט”ס -
@sivan22
אני עברתי על שמות רוב הספרים במאגר של ספריא ש @האדם-החושב הכין.
המסקנות הם:- באנגלית ישנם ספרים רבים שאין רוח חכמים נוחה מהם.
- חידושי תורה שנשים כתבו.
- ספרים מודרנים של רפורמים.
- ספרים המוטלים בספק.
- רבני מזרחי.
אישית אני חושב ש 1-3 חייבים להוריד, 4. ספק, ו5 אין שום בעיה שישאר.
-
@מויטיו אז מסתמא יש איזה אקסל של כל ספרי ספריא.
@דאנציג כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
אני עברתי על שמות רוב הספרים במאגר של ספריא ש @האדם-החושב הכין.
איפה זה? זה אקסל? אפשר להעלות לשיטס ומשם לערוך רק את הצבעים. השאלה היא כמה ספרים יש שם (באחוזים) מתוך כל הספרים בספריא.. זה ידני המאגר או אוטומטי?
-
@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@A0533057932
נו אז צריך רשימה של ספרי אוצר החכמה להשוואה?https://docs.google.com/spreadsheets/d/1trWL-sHoWE3ImIVC3bTLmBVL58ilIpsFdODSqRCGf4Y/edit?pli=1#gid=0
רשימות ספרים מאגרים תורניים.zip
אוסף קטלוגים 21.zip
השוואת מאגרי ספרים היברו בוקס אוצר החכמה.zip -
@pcinfogmach @sivan22
בל"נ גם אני יכול ליטול חלק בסינון הספרים. -
@מישהו12 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@מישהו12 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@pcinfogmach צריך גדרים ברורים מאוד מה בעייתי.
אישית אני חושב שלא צריך להסיר אלא מה שעלול לגרום בעיות - כלומר התנגדות לתוכנה - התוכנה היא השיקול כאן ולא הצדק.
וכנ"ל@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
למעישה צריך להסיר כל מה שנטפרי לא יאשרו כי זה המטרה של התוכנה החדשה אחרי הכל
ומה נטפרי לא יאשרו?
אין להם רשימת ספרים שאותם הם לא מאשרים...נראה לי ברור שאת ספרי הראי"ה קוק הם יאשרו, הרבה אתרים שמצטטים את דבריו פתוחים.
-
@ששמעון כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@מישהו12 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@מישהו12 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@pcinfogmach צריך גדרים ברורים מאוד מה בעייתי.
אישית אני חושב שלא צריך להסיר אלא מה שעלול לגרום בעיות - כלומר התנגדות לתוכנה - התוכנה היא השיקול כאן ולא הצדק.
וכנ"ל@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
למעישה צריך להסיר כל מה שנטפרי לא יאשרו כי זה המטרה של התוכנה החדשה אחרי הכל
ומה נטפרי לא יאשרו?
אין להם רשימת ספרים שאותם הם לא מאשרים...נראה לי ברור שאת ספרי הראי"ה קוק הם יאשרו, הרבה אתרים שמצטטים את דבריו פתוחים.
הוא היה רק דוגמא, השאלה נשארת בעינה.
-
חברה, אני ממש נפעם ממה שקורה פה - קבוצה של צעירים (ברובם, אני מניח), מרימים את הככפה וללא כל כוונת רווח הולכים לזכות את הרבים באחד הדברים הענקיים שהיו בעולם התורני בעשורים האחרונים, איזה אברך בעל מחשב לא חולם על מאגר נוח וקל לשימוש שיאגד בתוכו את כל הספרים שזמינים חינם מפה ומשם, זה פשוט מדהים מה שאתם עושים, חבל שאין לי את הכישורים לעזור, חילכם לאורייתא, עלו והצליחו!
אני רק מנסה להבין, האם מדובר במאגר שיכלול רק ספרי טקסט? רק ספרי PDF או גם וגם?
-
@א-א-א כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
איזה אברך בעל מחשב לא חולם על מאגר נוח וקל לשימוש שיאגד בתוכו את כל הספרים שזמינים חינם מפה ומשם
לא מדוייק הפרוייקט מתמקד בספרים של ספריא - שהם למעשה מפה ומשם....
-
@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
מה שחסר במיוחד כרגע, זה כל השמות בעברית. יש אותם כמובן במסד נתונים, אבל צריך לחלץ אותם מעומק העץ של MongoDB.
schema?.titles.find(t => t.lang === 'he' && t.primary).text
-
@meir-lamdan כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
מה שחסר במיוחד כרגע, זה כל השמות בעברית. יש אותם כמובן במסד נתונים, אבל צריך לחלץ אותם מעומק העץ של MongoDB.
schema?.titles.find(t => t.lang === 'he' && t.primary).text
תודה רבה, יפה מאד! אני לא השתמשתי בשרת node אלא בפייתון עם pymongo וישר לpandas, אז הקוד שלי בסוף נראה כך:
def get_he_title(obj)->object: if 'titles' in obj: for title in obj['titles']: if title['lang'] == 'he' and 'primary' in title: return title['text'] return None books['he_title']=books['schema'].apply(get_he_title)
אין ספק שהקוד בJS יותר אלגנטי (במקרה הזה), אבל הביצועים של pandas הם הרבה יותר מהירים, גם בגלל הספרייה החזקה, וגם בגלל שהכל בראם בלי שרת.
-
@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@אפי-זינגר ל2 מיליון רשומות? נראה לי שכן. pandas כתובה בכלל בc++
V8 מחשב בעפרון על האוזן?
גם C++ -
@אפי-זינגר הדרך היחידה להכריע היא לבדוק בפועל. האמת שמאד קשה להשוות בין טכנולוגיות כל כך שונות. pandas פועלת על הרשומות במקביל באלגוריתמים מעולם המטריצות וnumPy, ולכן יש לה יעילות מעוררת השתאות במסדי נתונים גדולים. בנוד יש אינספור I\O שרצים באופן א-סינכרוני. אז קשה מאד לדעת מה עדיף. אולי זה גם תלוי מה המטלה.
-
@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
אני לא השתמשתי בשרת Django
Django זה פריימוורק פייתון, נראה שהתבלבלת במילה
@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
אין ספק שהקוד בJS יותר אלגנטי (במקרה הזה), אבל הביצועים של pandas הם הרבה יותר מהירים, גם בגלל הספרייה החזקה, וגם בגלל שהכל בראם בלי שרת.
מה זה "שרת"? לפייתון יש "שרת" בדיוק כמו שלnode יש, ואם אתה טוען את המידע לזכרון אז הוא בראם גם בנוד וגם בפייתון, רק שאתה משתמש בספריה כדי לעבד את המידע אח"כ
אני אגב מעריך שמה שיהיה הכי יעיל זה שאילתה מתאימה ישירות למונגו ולא לטעון הכל לזיכרון ואז לולאות או ספריות
תכלס ברגע שמדובר על חילוץ מידע חד פעמי זה לא משנה כל כך הביצועים -
@צדיק-תמים כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת
אני אגב מעריך שמה שיהיה הכי יעיל זה שאילתה מתאימה ישירות למונגו ולא לטעון הכל לזיכרון ואז לולאות או ספריות
דווקא לא, כי שרת mongo הוא מאד איטי, בוודאי ביחס לpandas או node. וכאן הטענה שלי ודאי תקפה.
תכלס ברגע שמדובר על חילוץ מידע חד פעמי זה לא משנה כל כך הביצועים
יש הרבה ניסוי וטעייה והרצתי את הקוד כמה וכמה פעמים, ומדובר על 3.5m רשומות.
החילוץ הוא בהתחלה להעביר הכל לpandad או לdjango.אכן טעיתי כשקראתי לקוד בnode בשם הלא קשור בכלל Django. כוונתי היתה לשרת node. ונדמה לי שהמימוש של mongo בnode הוא באמת לא טוען את הכל לראם אלא רק מתווך את שרת המונגו, מה שמאשש את הטענה שמדובר בהרבה מאד I/o