הצעת ייעול | קונספט חדש לפרוייקט השו״ת
-
@A0533057932
נו אז צריך רשימה של ספרי אוצר החכמה להשוואה?@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
נו אז צריך רשימה של ספרי אוצר החכמה להשוואה?
אני קצת חושב שיש להם רשימה ארוכה מאד..
אולי אפשר למצוא רשימה של כל ספרי ספריא, וכל ספרי אוצר החכמה, ולראות מה יש בספריא שאין באוצר החכמה, ולמחוק.. זה רק רעיוןעריכה: עכשיו אני שם לב למילה 'להשוואה'.. לא שמתי לב לזה
-
@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
נו אז צריך רשימה של ספרי אוצר החכמה להשוואה?
אני קצת חושב שיש להם רשימה ארוכה מאד..
אולי אפשר למצוא רשימה של כל ספרי ספריא, וכל ספרי אוצר החכמה, ולראות מה יש בספריא שאין באוצר החכמה, ולמחוק.. זה רק רעיוןעריכה: עכשיו אני שם לב למילה 'להשוואה'.. לא שמתי לב לזה
האם יש אפשרות להעלות קובץ docs או xl משותף כדי שנוכל להתחיל לעבוד ולהשוות ולמחוק ולפסול וכו’, ?
הצעה: אפשר להחליט על רמזור צבעים של אדום צהוב ירוק.
אדום פסול לכולי עלמא
צהוב נתון לדיון
ירוק כשר לכולי עלמא
אשמח לעזור באופן אישי בפרקטיקה ככל שיתן הזמן.
כט”ס -
@מישהו12 @pcinfogmach @האדם-החושב צריך מתנדבים לסנן את הספרייה של ספריא, וצריך גם להחליט מהו הקו שלפיו מכניסים או לא מכניסים ספר. [בגדול, הקו התורני המקובל. אני חושב בתור התחלה - מה שיש באוצר החכמה, יהיה אצלנו, מה שלא -לא.] אז זה בעצם סוג של ועדה רוחנית.
הנה קובץ אקסל (לא סופי) עם שמות הספרים שיש בספריה הכללית של ספריא וקצת מידע על כל ספר.books.csv.
בהמשך אני מקווה שייצא קובץ סופי מסודר ומפורט והמתנדבים יסמנו את הספרים לפי הכללים שייקבעו. זה יועיל גם לתוספים שכבר התפרסמו כאן בפורום שמכילים את הספריה כולה בלי סינון.@sivan22
אני עברתי על שמות רוב הספרים במאגר של ספריא ש @האדם-החושב הכין.
המסקנות הם:- באנגלית ישנם ספרים רבים שאין רוח חכמים נוחה מהם.
- חידושי תורה שנשים כתבו.
- ספרים מודרנים של רפורמים.
- ספרים המוטלים בספק.
- רבני מזרחי.
אישית אני חושב ש 1-3 חייבים להוריד, 4. ספק, ו5 אין שום בעיה שישאר.
-
האם יש אפשרות להעלות קובץ docs או xl משותף כדי שנוכל להתחיל לעבוד ולהשוות ולמחוק ולפסול וכו’, ?
הצעה: אפשר להחליט על רמזור צבעים של אדום צהוב ירוק.
אדום פסול לכולי עלמא
צהוב נתון לדיון
ירוק כשר לכולי עלמא
אשמח לעזור באופן אישי בפרקטיקה ככל שיתן הזמן.
כט”ס@מויטיו אז מסתמא יש איזה אקסל של כל ספרי ספריא.
@דאנציג כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
אני עברתי על שמות רוב הספרים במאגר של ספריא ש @האדם-החושב הכין.
איפה זה? זה אקסל? אפשר להעלות לשיטס ומשם לערוך רק את הצבעים. השאלה היא כמה ספרים יש שם (באחוזים) מתוך כל הספרים בספריא.. זה ידני המאגר או אוטומטי?
-
@A0533057932
נו אז צריך רשימה של ספרי אוצר החכמה להשוואה?@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@A0533057932
נו אז צריך רשימה של ספרי אוצר החכמה להשוואה?https://docs.google.com/spreadsheets/d/1trWL-sHoWE3ImIVC3bTLmBVL58ilIpsFdODSqRCGf4Y/edit?pli=1#gid=0
רשימות ספרים מאגרים תורניים.zip
אוסף קטלוגים 21.zip
השוואת מאגרי ספרים היברו בוקס אוצר החכמה.zip -
@A0533057932
נו אז צריך רשימה של ספרי אוצר החכמה להשוואה? -
@pcinfogmach @sivan22
בל"נ גם אני יכול ליטול חלק בסינון הספרים. -
@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@מישהו12 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@pcinfogmach צריך גדרים ברורים מאוד מה בעייתי.
אישית אני חושב שלא צריך להסיר אלא מה שעלול לגרום בעיות - כלומר התנגדות לתוכנה - התוכנה היא השיקול כאן ולא הצדק.
וכנ"ל@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
למעישה צריך להסיר כל מה שנטפרי לא יאשרו כי זה המטרה של התוכנה החדשה אחרי הכל
ומה נטפרי לא יאשרו?
אין להם רשימת ספרים שאותם הם לא מאשרים...@מישהו12 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@מישהו12 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@pcinfogmach צריך גדרים ברורים מאוד מה בעייתי.
אישית אני חושב שלא צריך להסיר אלא מה שעלול לגרום בעיות - כלומר התנגדות לתוכנה - התוכנה היא השיקול כאן ולא הצדק.
וכנ"ל@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
למעישה צריך להסיר כל מה שנטפרי לא יאשרו כי זה המטרה של התוכנה החדשה אחרי הכל
ומה נטפרי לא יאשרו?
אין להם רשימת ספרים שאותם הם לא מאשרים...נראה לי ברור שאת ספרי הראי"ה קוק הם יאשרו, הרבה אתרים שמצטטים את דבריו פתוחים.
-
@מישהו12 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@מישהו12 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@pcinfogmach צריך גדרים ברורים מאוד מה בעייתי.
אישית אני חושב שלא צריך להסיר אלא מה שעלול לגרום בעיות - כלומר התנגדות לתוכנה - התוכנה היא השיקול כאן ולא הצדק.
וכנ"ל@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
למעישה צריך להסיר כל מה שנטפרי לא יאשרו כי זה המטרה של התוכנה החדשה אחרי הכל
ומה נטפרי לא יאשרו?
אין להם רשימת ספרים שאותם הם לא מאשרים...נראה לי ברור שאת ספרי הראי"ה קוק הם יאשרו, הרבה אתרים שמצטטים את דבריו פתוחים.
@ששמעון כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@מישהו12 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@מישהו12 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@pcinfogmach צריך גדרים ברורים מאוד מה בעייתי.
אישית אני חושב שלא צריך להסיר אלא מה שעלול לגרום בעיות - כלומר התנגדות לתוכנה - התוכנה היא השיקול כאן ולא הצדק.
וכנ"ל@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
למעישה צריך להסיר כל מה שנטפרי לא יאשרו כי זה המטרה של התוכנה החדשה אחרי הכל
ומה נטפרי לא יאשרו?
אין להם רשימת ספרים שאותם הם לא מאשרים...נראה לי ברור שאת ספרי הראי"ה קוק הם יאשרו, הרבה אתרים שמצטטים את דבריו פתוחים.
הוא היה רק דוגמא, השאלה נשארת בעינה.
-
חברה, אני ממש נפעם ממה שקורה פה - קבוצה של צעירים (ברובם, אני מניח), מרימים את הככפה וללא כל כוונת רווח הולכים לזכות את הרבים באחד הדברים הענקיים שהיו בעולם התורני בעשורים האחרונים, איזה אברך בעל מחשב לא חולם על מאגר נוח וקל לשימוש שיאגד בתוכו את כל הספרים שזמינים חינם מפה ומשם, זה פשוט מדהים מה שאתם עושים, חבל שאין לי את הכישורים לעזור, חילכם לאורייתא, עלו והצליחו!
אני רק מנסה להבין, האם מדובר במאגר שיכלול רק ספרי טקסט? רק ספרי PDF או גם וגם?
-
חברה, אני ממש נפעם ממה שקורה פה - קבוצה של צעירים (ברובם, אני מניח), מרימים את הככפה וללא כל כוונת רווח הולכים לזכות את הרבים באחד הדברים הענקיים שהיו בעולם התורני בעשורים האחרונים, איזה אברך בעל מחשב לא חולם על מאגר נוח וקל לשימוש שיאגד בתוכו את כל הספרים שזמינים חינם מפה ומשם, זה פשוט מדהים מה שאתם עושים, חבל שאין לי את הכישורים לעזור, חילכם לאורייתא, עלו והצליחו!
אני רק מנסה להבין, האם מדובר במאגר שיכלול רק ספרי טקסט? רק ספרי PDF או גם וגם?
@א-א-א כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
איזה אברך בעל מחשב לא חולם על מאגר נוח וקל לשימוש שיאגד בתוכו את כל הספרים שזמינים חינם מפה ומשם
לא מדוייק הפרוייקט מתמקד בספרים של ספריא - שהם למעשה מפה ומשם....
-
@pcinfogmach @לא-מתייאש בהמשך לדיון על מסד הנתונים של ספריא, התחלתי לעבוד על המרה לSQLite, וזה באמת המון עבודה. גיליתי שיש שם כל כך הרבה דאטה, שזה פשוט לא לעניין לא להשתמש בזה, אבל מצד שני זה גם לא פשוט בכלל לחלץ כל כך הרבה מידע.
בינתיים חילצתי להדגמה רק כמה נתונים בסיסיים ממש:
לצורך העבודה השתמשתי בעיקר בספריית pandas (הרי אני כיום מתיימר להיות מדען נתונים),וגם קצת בaggragation של MongoDB.
העליתי את הקוד של ההמרה לגיטהאב.
ואת המסד נתונים עצמו אני אעלה בהמשך להגי פייס.אבל יש עוד הרבה מאד עבודה עד שזה יהיה ראוי לשימוש אפילו מינימלי.
מה שחסר במיוחד כרגע, זה כל השמות בעברית. יש אותם כמובן במסד נתונים, אבל צריך לחלץ אותם מעומק העץ של MongoDB.@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
מה שחסר במיוחד כרגע, זה כל השמות בעברית. יש אותם כמובן במסד נתונים, אבל צריך לחלץ אותם מעומק העץ של MongoDB.
schema?.titles.find(t => t.lang === 'he' && t.primary).text
-
@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
מה שחסר במיוחד כרגע, זה כל השמות בעברית. יש אותם כמובן במסד נתונים, אבל צריך לחלץ אותם מעומק העץ של MongoDB.
schema?.titles.find(t => t.lang === 'he' && t.primary).text
@meir-lamdan כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
מה שחסר במיוחד כרגע, זה כל השמות בעברית. יש אותם כמובן במסד נתונים, אבל צריך לחלץ אותם מעומק העץ של MongoDB.
schema?.titles.find(t => t.lang === 'he' && t.primary).text
תודה רבה, יפה מאד! אני לא השתמשתי בשרת node אלא בפייתון עם pymongo וישר לpandas, אז הקוד שלי בסוף נראה כך:
def get_he_title(obj)->object: if 'titles' in obj: for title in obj['titles']: if title['lang'] == 'he' and 'primary' in title: return title['text'] return None books['he_title']=books['schema'].apply(get_he_title)
אין ספק שהקוד בJS יותר אלגנטי (במקרה הזה), אבל הביצועים של pandas הם הרבה יותר מהירים, גם בגלל הספרייה החזקה, וגם בגלל שהכל בראם בלי שרת.
-
@meir-lamdan כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
מה שחסר במיוחד כרגע, זה כל השמות בעברית. יש אותם כמובן במסד נתונים, אבל צריך לחלץ אותם מעומק העץ של MongoDB.
schema?.titles.find(t => t.lang === 'he' && t.primary).text
תודה רבה, יפה מאד! אני לא השתמשתי בשרת node אלא בפייתון עם pymongo וישר לpandas, אז הקוד שלי בסוף נראה כך:
def get_he_title(obj)->object: if 'titles' in obj: for title in obj['titles']: if title['lang'] == 'he' and 'primary' in title: return title['text'] return None books['he_title']=books['schema'].apply(get_he_title)
אין ספק שהקוד בJS יותר אלגנטי (במקרה הזה), אבל הביצועים של pandas הם הרבה יותר מהירים, גם בגלל הספרייה החזקה, וגם בגלל שהכל בראם בלי שרת.
-
@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
שרת Django
??
node מקומי יעשה א"ז לאט יותר מפייתון?@אפי-זינגר ל2 מיליון רשומות? נראה לי שכן. pandas כתובה בכלל בc++
-
@אפי-זינגר ל2 מיליון רשומות? נראה לי שכן. pandas כתובה בכלל בc++
@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@אפי-זינגר ל2 מיליון רשומות? נראה לי שכן. pandas כתובה בכלל בc++
V8 מחשב בעפרון על האוזן?
גם C++ -
@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@אפי-זינגר ל2 מיליון רשומות? נראה לי שכן. pandas כתובה בכלל בc++
V8 מחשב בעפרון על האוזן?
גם C++@אפי-זינגר הדרך היחידה להכריע היא לבדוק בפועל. האמת שמאד קשה להשוות בין טכנולוגיות כל כך שונות. pandas פועלת על הרשומות במקביל באלגוריתמים מעולם המטריצות וnumPy, ולכן יש לה יעילות מעוררת השתאות במסדי נתונים גדולים. בנוד יש אינספור I\O שרצים באופן א-סינכרוני. אז קשה מאד לדעת מה עדיף. אולי זה גם תלוי מה המטלה.
-
@meir-lamdan כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
מה שחסר במיוחד כרגע, זה כל השמות בעברית. יש אותם כמובן במסד נתונים, אבל צריך לחלץ אותם מעומק העץ של MongoDB.
schema?.titles.find(t => t.lang === 'he' && t.primary).text
תודה רבה, יפה מאד! אני לא השתמשתי בשרת node אלא בפייתון עם pymongo וישר לpandas, אז הקוד שלי בסוף נראה כך:
def get_he_title(obj)->object: if 'titles' in obj: for title in obj['titles']: if title['lang'] == 'he' and 'primary' in title: return title['text'] return None books['he_title']=books['schema'].apply(get_he_title)
אין ספק שהקוד בJS יותר אלגנטי (במקרה הזה), אבל הביצועים של pandas הם הרבה יותר מהירים, גם בגלל הספרייה החזקה, וגם בגלל שהכל בראם בלי שרת.
@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
אני לא השתמשתי בשרת Django
Django זה פריימוורק פייתון, נראה שהתבלבלת במילה
@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
אין ספק שהקוד בJS יותר אלגנטי (במקרה הזה), אבל הביצועים של pandas הם הרבה יותר מהירים, גם בגלל הספרייה החזקה, וגם בגלל שהכל בראם בלי שרת.
מה זה "שרת"? לפייתון יש "שרת" בדיוק כמו שלnode יש, ואם אתה טוען את המידע לזכרון אז הוא בראם גם בנוד וגם בפייתון, רק שאתה משתמש בספריה כדי לעבד את המידע אח"כ
אני אגב מעריך שמה שיהיה הכי יעיל זה שאילתה מתאימה ישירות למונגו ולא לטעון הכל לזיכרון ואז לולאות או ספריות
תכלס ברגע שמדובר על חילוץ מידע חד פעמי זה לא משנה כל כך הביצועים -
@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
@אפי-זינגר ל2 מיליון רשומות? נראה לי שכן. pandas כתובה בכלל בc++
V8 מחשב בעפרון על האוזן?
גם C++ -
@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
אני לא השתמשתי בשרת Django
Django זה פריימוורק פייתון, נראה שהתבלבלת במילה
@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:
אין ספק שהקוד בJS יותר אלגנטי (במקרה הזה), אבל הביצועים של pandas הם הרבה יותר מהירים, גם בגלל הספרייה החזקה, וגם בגלל שהכל בראם בלי שרת.
מה זה "שרת"? לפייתון יש "שרת" בדיוק כמו שלnode יש, ואם אתה טוען את המידע לזכרון אז הוא בראם גם בנוד וגם בפייתון, רק שאתה משתמש בספריה כדי לעבד את המידע אח"כ
אני אגב מעריך שמה שיהיה הכי יעיל זה שאילתה מתאימה ישירות למונגו ולא לטעון הכל לזיכרון ואז לולאות או ספריות
תכלס ברגע שמדובר על חילוץ מידע חד פעמי זה לא משנה כל כך הביצועים@צדיק-תמים כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת
אני אגב מעריך שמה שיהיה הכי יעיל זה שאילתה מתאימה ישירות למונגו ולא לטעון הכל לזיכרון ואז לולאות או ספריות
דווקא לא, כי שרת mongo הוא מאד איטי, בוודאי ביחס לpandas או node. וכאן הטענה שלי ודאי תקפה.
תכלס ברגע שמדובר על חילוץ מידע חד פעמי זה לא משנה כל כך הביצועים
יש הרבה ניסוי וטעייה והרצתי את הקוד כמה וכמה פעמים, ומדובר על 3.5m רשומות.
החילוץ הוא בהתחלה להעביר הכל לpandad או לdjango.אכן טעיתי כשקראתי לקוד בnode בשם הלא קשור בכלל Django. כוונתי היתה לשרת node. ונדמה לי שהמימוש של mongo בnode הוא באמת לא טוען את הכל לראם אלא רק מתווך את שרת המונגו, מה שמאשש את הטענה שמדובר בהרבה מאד I/o