הצעת ייעול | קונספט חדש לפרוייקט השו״ת

יוסי מחשבים

@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

@A0533057932
נו אז צריך רשימה של ספרי אוצר החכמה להשוואה?

https://docs.google.com/spreadsheets/d/1trWL-sHoWE3ImIVC3bTLmBVL58ilIpsFdODSqRCGf4Y/edit?pli=1#gid=0

רשימות ספרים מאגרים תורניים.zip
אוסף קטלוגים 21.zip
השוואת מאגרי ספרים היברו בוקס אוצר החכמה.zip

106

@pcinfogmach @sivan22
בל"נ גם אני יכול ליטול חלק בסינון הספרים.

sivan22

@106 סינון הספרים בפוסט הזה

ששמעון

@מישהו12 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

@מישהו12 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

@pcinfogmach צריך גדרים ברורים מאוד מה בעייתי.

אישית אני חושב שלא צריך להסיר אלא מה שעלול לגרום בעיות - כלומר התנגדות לתוכנה - התוכנה היא השיקול כאן ולא הצדק.
וכנ"ל

@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

למעישה צריך להסיר כל מה שנטפרי לא יאשרו כי זה המטרה של התוכנה החדשה אחרי הכל

ומה נטפרי לא יאשרו?
אין להם רשימת ספרים שאותם הם לא מאשרים...

נראה לי ברור שאת ספרי הראי"ה קוק הם יאשרו, הרבה אתרים שמצטטים את דבריו פתוחים.

מישהו12

@ששמעון כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

@מישהו12 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

@מישהו12 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

@pcinfogmach צריך גדרים ברורים מאוד מה בעייתי.

אישית אני חושב שלא צריך להסיר אלא מה שעלול לגרום בעיות - כלומר התנגדות לתוכנה - התוכנה היא השיקול כאן ולא הצדק.
וכנ"ל

@pcinfogmach כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

למעישה צריך להסיר כל מה שנטפרי לא יאשרו כי זה המטרה של התוכנה החדשה אחרי הכל

ומה נטפרי לא יאשרו?
אין להם רשימת ספרים שאותם הם לא מאשרים...

נראה לי ברור שאת ספרי הראי"ה קוק הם יאשרו, הרבה אתרים שמצטטים את דבריו פתוחים.

הוא היה רק דוגמא, השאלה נשארת בעינה.

א.א.א.

חברה, אני ממש נפעם ממה שקורה פה - קבוצה של צעירים (ברובם, אני מניח), מרימים את הככפה וללא כל כוונת רווח הולכים לזכות את הרבים באחד הדברים הענקיים שהיו בעולם התורני בעשורים האחרונים, איזה אברך בעל מחשב לא חולם על מאגר נוח וקל לשימוש שיאגד בתוכו את כל הספרים שזמינים חינם מפה ומשם, זה פשוט מדהים מה שאתם עושים, חבל שאין לי את הכישורים לעזור, חילכם לאורייתא, עלו והצליחו!

אני רק מנסה להבין, האם מדובר במאגר שיכלול רק ספרי טקסט? רק ספרי PDF או גם וגם?

pcinfogmach

@א-א-א כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

איזה אברך בעל מחשב לא חולם על מאגר נוח וקל לשימוש שיאגד בתוכו את כל הספרים שזמינים חינם מפה ומשם

לא מדוייק הפרוייקט מתמקד בספרים של ספריא - שהם למעשה מפה ומשם....

meir lamdan

@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

מה שחסר במיוחד כרגע, זה כל השמות בעברית. יש אותם כמובן במסד נתונים, אבל צריך לחלץ אותם מעומק העץ של MongoDB.

schema?.titles.find(t => t.lang === 'he' && t.primary).text

sivan22

@meir-lamdan כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

מה שחסר במיוחד כרגע, זה כל השמות בעברית. יש אותם כמובן במסד נתונים, אבל צריך לחלץ אותם מעומק העץ של MongoDB.
schema?.titles.find(t => t.lang === 'he' && t.primary).text

תודה רבה, יפה מאד! אני לא השתמשתי בשרת node אלא בפייתון עם pymongo וישר לpandas, אז הקוד שלי בסוף נראה כך:

def get_he_title(obj)->object:
    if 'titles' in obj:
        for title in obj['titles']:
            if title['lang'] == 'he' and 'primary' in title:
                return title['text']
    return None
books['he_title']=books['schema'].apply(get_he_title)

אין ספק שהקוד בJS יותר אלגנטי (במקרה הזה), אבל הביצועים של pandas הם הרבה יותר מהירים, גם בגלל הספרייה החזקה, וגם בגלל שהכל בראם בלי שרת.

אפי זינגר

@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

שרת Django

??
node מקומי יעשה א"ז לאט יותר מפייתון?

sivan22

@אפי-זינגר ל2 מיליון רשומות? נראה לי שכן. pandas כתובה בכלל בc++

אפי זינגר

@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

@אפי-זינגר ל2 מיליון רשומות? נראה לי שכן. pandas כתובה בכלל בc++

V8 מחשב בעפרון על האוזן?
גם C++

sivan22

@אפי-זינגר הדרך היחידה להכריע היא לבדוק בפועל. האמת שמאד קשה להשוות בין טכנולוגיות כל כך שונות. pandas פועלת על הרשומות במקביל באלגוריתמים מעולם המטריצות וnumPy, ולכן יש לה יעילות מעוררת השתאות במסדי נתונים גדולים. בנוד יש אינספור I\O שרצים באופן א-סינכרוני. אז קשה מאד לדעת מה עדיף. אולי זה גם תלוי מה המטלה.

צדיק תמים

@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

אני לא השתמשתי בשרת Django

Django זה פריימוורק פייתון, נראה שהתבלבלת במילה

@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

אין ספק שהקוד בJS יותר אלגנטי (במקרה הזה), אבל הביצועים של pandas הם הרבה יותר מהירים, גם בגלל הספרייה החזקה, וגם בגלל שהכל בראם בלי שרת.

מה זה "שרת"? לפייתון יש "שרת" בדיוק כמו שלnode יש, ואם אתה טוען את המידע לזכרון אז הוא בראם גם בנוד וגם בפייתון, רק שאתה משתמש בספריה כדי לעבד את המידע אח"כ
אני אגב מעריך שמה שיהיה הכי יעיל זה שאילתה מתאימה ישירות למונגו ולא לטעון הכל לזיכרון ואז לולאות או ספריות
תכלס ברגע שמדובר על חילוץ מידע חד פעמי זה לא משנה כל כך הביצועים

צדיק תמים

פוסט זה נמחק!

sivan22

@צדיק-תמים כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת

אני אגב מעריך שמה שיהיה הכי יעיל זה שאילתה מתאימה ישירות למונגו ולא לטעון הכל לזיכרון ואז לולאות או ספריות

דווקא לא, כי שרת mongo הוא מאד איטי, בוודאי ביחס לpandas או node. וכאן הטענה שלי ודאי תקפה.

תכלס ברגע שמדובר על חילוץ מידע חד פעמי זה לא משנה כל כך הביצועים

יש הרבה ניסוי וטעייה והרצתי את הקוד כמה וכמה פעמים, ומדובר על 3.5m רשומות.
החילוץ הוא בהתחלה להעביר הכל לpandad או לdjango.

אכן טעיתי כשקראתי לקוד בnode בשם הלא קשור בכלל Django. כוונתי היתה לשרת node. ונדמה לי שהמימוש של mongo בnode הוא באמת לא טוען את הכל לראם אלא רק מתווך את שרת המונגו, מה שמאשש את הטענה שמדובר בהרבה מאד I/o

צדיק תמים

@sivan22 כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת:

@צדיק-תמים כתב בהצעת ייעול | קונספט חדש לפרוייקט השו״ת

אני אגב מעריך שמה שיהיה הכי יעיל זה שאילתה מתאימה ישירות למונגו ולא לטעון הכל לזיכרון ואז לולאות או ספריות

דווקא לא, כי שרת mongo הוא מאד איטי, בוודאי ביחס לpandas או node

בשליפה נתונים עם שאילתה מדויקת שזה מהות תפקידו של מסד נתונים ועל אחת כמה וכמה מסד מונגו (NoSql שכל הרעיון שהוא נולד זה עלויות אחסון - ומהירות), ברור לי שאתה טועה ביחס לנוד, את pandas אני לא מכיר

sivan22

@צדיק-תמים נראה לי שדיברתי הרבה שטויות והראיתי את הבורות שלי.

לסיכום, בשביל להעביר נתונים מmongoDB לsqlite, הקושי המרכזי הוא לא במימוש אלא בתכנון, זאת אומרת להעביר מעץ עמוק מאד, למספר טבלאות דו מימדית, זה דורש הכרעות לגבי הייצוג שהוא בהכרח יהיה שונה.

אופן המימוש יכול להיות באמצעות שאילתה של מונגו:

[
    {
        '$set': {
            'he_title': {
                '$filter': {
                    'input': '$schema.titles', 
                    'as': 'he_titles', 
                    'cond': {
                        '$eq': [
                            '$$he_titles.primary', True
                        ]
                    }, 
                    'limit': 2
                }
            }
        }
    }, {
        '$set': {
            'he_title': {
                '$filter': {
                    'input': '$he_title', 
                    'as': 'he_titles', 
                    'cond': {
                        '$eq': [
                            '$$he_titles.lang', 'he'
                        ]
                    }, 
                    'limit': 2
                }
            }
        }
    }, {
        '$set': {
            'he_title': {
                '$arrayElemAt': [
                    '$he_title.text', 0
                ]
            }
        }
    }
]

או באמצעות קליטת הנתונים בנוד, ואז שימוש ביכולות ההתמודדות הטובות של JS עם dictionaries.:

myColl.find(); 
schema?.titles.find(t => t.lang === 'he' && t.primary).text

או בפייתון, לשבור את השיניים עם חוסר תמיכה נוח בdictionaries:

def get_he_title(obj)->object:
    if 'titles' in obj:
        for title in obj['titles']:
            if title['lang'] == 'he' and 'primary' in title:
                return title['text']
    return None
books['he_title']=books['schema'].apply(get_he_title)

ואפשר בכלל להשתמש בJAVA עם קובץ JSON שיצא כפלט מהמסד נתונים:

protected static int addText(Connection c, JSONObject enJSON, JSONObject heJSON, JSONObject schemaFile) throws JSONException{
		if(enJSON == null && heJSON == null){
			System.err.print("Both JSONs are null in Node.addText()");
			return -1;
		}
		int enLang =0,heLang=0;
		String title ="";
		JSONObject node = null;
		if(enJSON != null){
			enLang = returnLangNums(enJSON.getString("language"));
			title = enJSON.getString("title");
			node = (JSONObject) enJSON.get("schema");
		}		
		if(heJSON != null){
			heLang = returnLangNums(heJSON.getString("language"));
			title = heJSON.getString("title");
			node = (JSONObject) heJSON.get("schema");
		}
		int lang = enLang + heLang;
		/**
		 * check for errors
		 */
		if((enLang != SQLite.LANG_EN  && enLang != 0)|| (heLang != SQLite.LANG_HE  && heLang != 0)){
			System.err.println("Error in Node.addText(): not right lang numbers. enLang:" + enLang  + " heLang:" + heLang);
			return -1;
		}
		if(title.equals("")){
			System.err.println("no Title");
			return -1;
		}
		if(enJSON != null && heJSON != null){
			if(!heJSON.get("schema").toString().equals(enJSON.get("schema").toString())){
				System.err.println("en and he JSONs schemas don't match\n");	
				System.out.println(heJSON.get("schema"));
				System.out.println(enJSON.get("schema"));
				return -1;
			}
			if(!enJSON.getString("title").equals(heJSON.getString("title"))){
				System.err.println("en and he JSONs title don't match" + enJSON.getString("title") + " - " + heJSON.getString("title"));
				return -1;
			}

		}
		if(!booksInDB.containsKey(title)){
			System.err.println("Don't have book in DB and trying to add text");
			return -1;
		}
		int bid = booksInDBbid.get(title); 
		JSONObject enText = null, heText = null;
		if(enJSON != null){
			enText = (JSONObject) enJSON.get("text");
		}
		if(heJSON != null){
			heText = (JSONObject) heJSON.get("text");
		}
		JSONObject schema = null;
		try{
			schema = schemaFile.getJSONObject("schema");
		}catch(JSONException e){
			e.printStackTrace();
		}
		insertNode(c, schema, enText,heText, 0,0,bid,0,lang);
		return 1; //it worked
	}

האדם החושב

כמה הערות:
א' בכל ספר יש את גירסת ה"mergd" וגירסאות אחרות, הקובץ הרצוי לכאו' הוא קובץ הmergd ,הוא מכיל טקסט ממוזג מכמה גירסאות [גם במקרה שיש רק גירסא אחת יש קובץ mergd שזהה לקובץ השני]
שאר הקבצים לדעתי מיותרים וסתם יתפסו מקום במחשב
ב' יהיה שימושי מאוד לדעתי לעשות גם את שאר הפיצ'רים של ספריא [פרשנים, קישורים לספרים אחרים וכו'] וכמובן לאפשר ניווט לפי כותרות
ג' אולי גם להוסיף אפשרות לחיפוש ספרים מהיברו בוקס ואוצר החכמה ולאפשר פתיחה באתר [וגם בתוכנה, לאוצר החכמה] יש לי כאן קובץ לאוצר החכמה שכולל לינקים לאתר ולתוכנה, וכאן יש לי קובץ להיברו בוקס שמאפשר הורדה, צפייה בדפדפן והדף הראשי של הספר
ד' שכל הספרים שיסננו יהיו ברשימה שחורה, כך שיהיה אפשר לעדכן את התוכנה מעת לעת [אולי אפי' לאפשר עדכון מתוך התוכנה בעצמה]
ה' להוסיף תמיכה גם בקבצי טקסט בקידוד ansi ולאפשר טעינת קבצים מתיקיות נוספות ועל ידי כך ניתן יהיה לגשת לכל הספרים של תורת אמת מתוך התוכנה ולייתר מעבר בין תוכנות [אני מאמין שיש ל @pcinfogmach קובץ שכולל בתוכו את כל שמות הספרים מתורת אמת בעברית]
יש"כ עצום על היוזמה הנפלאה.

sivan22

@האדם-החושב אני חושב שהשלב הבא הוא לעשות fork לזה, ולהריץ סקריפט שמשאיר רק את הספרים בעברית, ומסיר את הספרים הבעייתיים גם בעברית.