בקשה | הפרויקט השיתופי החדש מבית אוצריא (וזית): הוספת ספרים חסרים
-
בהשראת השרשור הזה החלטתי לנסות לרתום את הציבור לפרויקט שיתופי להשלמת ספרי יסוד שחסרים באוצריא.
בקצרה: התוכנית היא שמי שיכול יקח על עצמו עמודים מהספר, כשעיקר העבודה תיעשה ע״י הבינה המלאכותית באופן שאינו מצריך ידע מיוחד, והשאר באופן ידני. כך שבכל תקופה נסיים ספר שלם
חלוקת הכתיבה:
דף א׳ עמוד א, ודף א׳ עמוד ב, - @איש גמזו
דף ב׳ עמוד א, - @יום-חדש-מתחיל
דף ב׳ עמוד ב, @מענין-לשמוע
דף ג׳ עמוד א, ודף ג׳ עמוד ב, - @יאיר-דניאל
דף ד׳ עמוד א, - @מענין-לשמועהדרבון להתחיל היה השקתו של ג׳מיני 3 בימים האחרונים, שהתברר בניגוד לקודמיו כבעל יכולות ocr (זיהוי תוים אופטי) מעוררות השתאות גם בכתב רש״י ישן ומעוקש קמעה (בלי שום השוואה לשם דוגמא לabbyy).
כמובן שעדיין צריך תיקונים והגהה (המקסימום שהצלחתי להגיע איתו היה בסביבות ה 96 אחוזים), אבל העבודה נעשתה הרבה יותר קלה.
דוגמא להמחשה ועצות בספוילרים בסוף הפוסט.הכתיבה תתבצע בקובץ משותף שאשלח הרשאה אליו למי שיביע נכונות להצטרף.
עריכה: לע״ע יותר נוח לי שכ״א יכתוב לעצמו בקובץ טקסט, וישלח לי לכשיסיים, ואני אצרף את הכל.
כמובן ופשיטא שההצלחה תלויה ברמת היענות הציבור לעניין.אחר התלבטות, ובעקבות הנתון שראשונים חסרים ייתכן ויושלמו בלחיצת כפתור מקובץ שיטות קמאי, החלטתי להתחיל מחשובי האחרונים.
אתחיל כעת מהספר חוות דעת לבעל נתה״מ.יש בהיברובוקס כמה צילומים של החוות דעת, היותר יעיל מביניהם הוא המצורף:3786f67f-c4f5-4646-b118-0f06c93728b0-חוות דעת.pdf.zip
במדה ויש קטעים לא ברורים אפשר להשלימם ע״י עוד שני צילומים אחרים שיש כאן
העמודים שם מחולקים כבתלמוד א׳ עמוד א, א׳ עמוד ב, וכו׳.חלוקת הכתיבה תהיה לפי עמודי הספר, כל אחד שמוכן לקחת על עצמו חלק, שיכתוב איזה עמודים הוא לוקח. ובל״נ אעדכן זאת בפוסט הראשי.
צורת הכתיבה.
צורת הכתיבה תהיה באופן של פסקה חדשה לכל ס״ק, את סימון הס״ק יש להקיף בסוגר עגול, ואת הד״ה להדגיש.
בספר יש הרבה קיצורים (קיצורי׳), מומלץ להשלים אותם לנוחות הקריאה.
יש לכתוב רק את החוו״ד עצמו בלי השו״ע.
נא לכתוב את ה״ביאורים״ בקובץ אחד, ואת ה״חידושים״ בקובץ אחר.דוגמא:
צילום הספר

העתקה של החידושים

כזה
צורת ביצוע ocr
יש להכנס לקישור הזה לשים לב שהמודל המופעל הוא ג׳מיני 3 פרו, לבקש ממנו לחלץ טקסט מקובץ פידיאף או תמונה.
מומלץ לציין לו שמדובר בכתב רש״י, לכתוב לו לשמור על רמת דיוק גבוהה ושלא יוסיף מילים מעצמו.
כעת בנוגע לחוות דעת, נסיוני הוכיח שיותר פשוט אם זה בא בקלות לחלק את העמוד לשני קבצים, באחד למחוק את השלחן ערוך ואת הביאורים, ובשני למחוק את השלחן ערוך והחידושים.
במידה והפענוח הראשוני לא מוצלח כל כך, ניתן לבצע פעולה די מועילה, לתמלל בעצמכם את השורה - שתיים הראשונות של הקובץ, ולכתוב לו להבין על פי זה איך לחלץ את השאר בצורה יותר מדויקת.דוגמא לחילוץ ocr ע״י גוגל סטודיו
לדוגמא העלתי לו את התמונה הזו (מתוך הריטב״א הישנים על ב״מ שמצאתי בהיברו), שהטקסט שבה לכל הדעות בכתב לא הכי ברור

ותמלל אותו כך:
לעיל • אלא ודאי רבי אליעזר כאביי ס"ל ובשטרי דלאו הקנאה ומשום שמא כתב ללות
ולא לוה ולא מטא לידיה והאי אינו רוצה להחזירו לו דהא לא מודה הלכך לא יחזור
וכ"ת דילמא טעמא דברייתא כדאמר משום שמא כתב ללות בניסן כו' ונהי.
דקשיא לרבי אליעזר דלא ס"ל הכי כדפרי' מיהו אמאי איצטריך להקשויי משום פרעון.
דאידך גיסא מצי להקשויי ליה • וי"ל דודאי פשי' דברייתא מטע' משום פרעון.
וקנוניא והכי ניהא ליה טפי לאקשויי :רמת דיוק ממש גבוהה, ולדעתי אפשר לשגע אותו עוד קצת (זה נסיון שני אחרי שבנסיון הראשון הביא תוצאה נחמדה, ודחפתי אותו עוד קצת ע״י שהצגתי לו את התמלול הנכון של השורה הראשונה, ועל פיה תמלל את השאר.), במודל הקודם ניסתי עם אותה תמונה בדיוק, והתוצאה על הפנים.
-
@איש-גמזו יצרתי קובץ HTML לעבודה יותר נוחה
, כרגע המודל בחדש לא זמין בAPI החינמי אבל כשיהיה זמין אז זה יותר נוח
https://drive.google.com/file/d/1NtUBlFpGE*****SHEVBWNGwjkFMFcWtKPXSO-/view?usp=sharing@שמואל5 כתב בבקשה | הפרויקט השיתופי החדש מבית אוצריא (וזית): הוספת ספרים חסרים:
@איש-גמזו יצרתי קובץ HTML לעבודה יותר נוחה
, כרגע המודל בחדש לא זמין בAPI החינמי אבל כשיהיה זמין אז זה יותר נוח
https://drive.google.com/file/d/1NtUBlFpGE*****SHEVBWNGwjkFMFcWtKPXSO-/view?usp=sharingמה הוא מועיל?
-
@שמואל5 כתב בבקשה | הפרויקט השיתופי החדש מבית אוצריא (וזית): הוספת ספרים חסרים:
@איש-גמזו יצרתי קובץ HTML לעבודה יותר נוחה
, כרגע המודל בחדש לא זמין בAPI החינמי אבל כשיהיה זמין אז זה יותר נוח
https://drive.google.com/file/d/1NtUBlFpGE*****SHEVBWNGwjkFMFcWtKPXSO-/view?usp=sharingמה הוא מועיל?
-
אולי זה יהי' הפרוייקט הבא של @NH.LOCAL, כמו אלף בוט
ליצור אתר ל OCR דרך AI. -
אולי זה יהי' הפרוייקט הבא של @NH.LOCAL, כמו אלף בוט
ליצור אתר ל OCR דרך AI.@יום-חדש-מתחיל כתב בבקשה | הפרויקט השיתופי החדש מבית אוצריא (וזית): הוספת ספרים חסרים:
אולי זה יהי' הפרוייקט הבא של @NH.LOCAL, כמו אלף בוט
ליצור אתר ל OCR דרך AI.
-
א איש גמזו התייחס לנושא זה
-
רבוייייייתייייי
מי מוכן להצטרף למלאכה החשובה? -
רבוייייייתייייי
מי מוכן להצטרף למלאכה החשובה?@יום-חדש-מתחיל
אני ממש מעונין, אני יקח את ב' עמוד ב'.
אין לי בינה מלאכותית בכלל, אולי מישהו יכניס הרבה עמודים מראש והעבודה תהיה להגיה אותם?
זה עולה כסף או חינמי? -
@יום-חדש-מתחיל
אני ממש מעונין, אני יקח את ב' עמוד ב'.
אין לי בינה מלאכותית בכלל, אולי מישהו יכניס הרבה עמודים מראש והעבודה תהיה להגיה אותם?
זה עולה כסף או חינמי?@מענין-לשמוע כתב בבקשה | הפרויקט השיתופי החדש מבית אוצריא (וזית): הוספת ספרים חסרים:
@יום-חדש-מתחיל
אני ממש מעונין, אני יקח את ב' עמוד ב'.
אין לי בינה מלאכותית בכלל, אולי מישהו יכניס הרבה עמודים מראש והעבודה תהיה להגיה אותם?
זה עולה כסף או חינמי? -
מ מענין לשמוע התייחס לנושא זה
-
בהשראת השרשור הזה החלטתי לנסות לרתום את הציבור לפרויקט שיתופי להשלמת ספרי יסוד שחסרים באוצריא.
בקצרה: התוכנית היא שמי שיכול יקח על עצמו עמודים מהספר, כשעיקר העבודה תיעשה ע״י הבינה המלאכותית באופן שאינו מצריך ידע מיוחד, והשאר באופן ידני. כך שבכל תקופה נסיים ספר שלם
חלוקת הכתיבה:
דף א׳ עמוד א, ודף א׳ עמוד ב, - @איש גמזו
דף ב׳ עמוד א, - @יום-חדש-מתחיל
דף ב׳ עמוד ב, @מענין-לשמוע
דף ג׳ עמוד א, ודף ג׳ עמוד ב, - @יאיר-דניאל
דף ד׳ עמוד א, - @מענין-לשמועהדרבון להתחיל היה השקתו של ג׳מיני 3 בימים האחרונים, שהתברר בניגוד לקודמיו כבעל יכולות ocr (זיהוי תוים אופטי) מעוררות השתאות גם בכתב רש״י ישן ומעוקש קמעה (בלי שום השוואה לשם דוגמא לabbyy).
כמובן שעדיין צריך תיקונים והגהה (המקסימום שהצלחתי להגיע איתו היה בסביבות ה 96 אחוזים), אבל העבודה נעשתה הרבה יותר קלה.
דוגמא להמחשה ועצות בספוילרים בסוף הפוסט.הכתיבה תתבצע בקובץ משותף שאשלח הרשאה אליו למי שיביע נכונות להצטרף.
עריכה: לע״ע יותר נוח לי שכ״א יכתוב לעצמו בקובץ טקסט, וישלח לי לכשיסיים, ואני אצרף את הכל.
כמובן ופשיטא שההצלחה תלויה ברמת היענות הציבור לעניין.אחר התלבטות, ובעקבות הנתון שראשונים חסרים ייתכן ויושלמו בלחיצת כפתור מקובץ שיטות קמאי, החלטתי להתחיל מחשובי האחרונים.
אתחיל כעת מהספר חוות דעת לבעל נתה״מ.יש בהיברובוקס כמה צילומים של החוות דעת, היותר יעיל מביניהם הוא המצורף:3786f67f-c4f5-4646-b118-0f06c93728b0-חוות דעת.pdf.zip
במדה ויש קטעים לא ברורים אפשר להשלימם ע״י עוד שני צילומים אחרים שיש כאן
העמודים שם מחולקים כבתלמוד א׳ עמוד א, א׳ עמוד ב, וכו׳.חלוקת הכתיבה תהיה לפי עמודי הספר, כל אחד שמוכן לקחת על עצמו חלק, שיכתוב איזה עמודים הוא לוקח. ובל״נ אעדכן זאת בפוסט הראשי.
צורת הכתיבה.
צורת הכתיבה תהיה באופן של פסקה חדשה לכל ס״ק, את סימון הס״ק יש להקיף בסוגר עגול, ואת הד״ה להדגיש.
בספר יש הרבה קיצורים (קיצורי׳), מומלץ להשלים אותם לנוחות הקריאה.
יש לכתוב רק את החוו״ד עצמו בלי השו״ע.
נא לכתוב את ה״ביאורים״ בקובץ אחד, ואת ה״חידושים״ בקובץ אחר.דוגמא:
צילום הספר

העתקה של החידושים

כזה
צורת ביצוע ocr
יש להכנס לקישור הזה לשים לב שהמודל המופעל הוא ג׳מיני 3 פרו, לבקש ממנו לחלץ טקסט מקובץ פידיאף או תמונה.
מומלץ לציין לו שמדובר בכתב רש״י, לכתוב לו לשמור על רמת דיוק גבוהה ושלא יוסיף מילים מעצמו.
כעת בנוגע לחוות דעת, נסיוני הוכיח שיותר פשוט אם זה בא בקלות לחלק את העמוד לשני קבצים, באחד למחוק את השלחן ערוך ואת הביאורים, ובשני למחוק את השלחן ערוך והחידושים.
במידה והפענוח הראשוני לא מוצלח כל כך, ניתן לבצע פעולה די מועילה, לתמלל בעצמכם את השורה - שתיים הראשונות של הקובץ, ולכתוב לו להבין על פי זה איך לחלץ את השאר בצורה יותר מדויקת.דוגמא לחילוץ ocr ע״י גוגל סטודיו
לדוגמא העלתי לו את התמונה הזו (מתוך הריטב״א הישנים על ב״מ שמצאתי בהיברו), שהטקסט שבה לכל הדעות בכתב לא הכי ברור

ותמלל אותו כך:
לעיל • אלא ודאי רבי אליעזר כאביי ס"ל ובשטרי דלאו הקנאה ומשום שמא כתב ללות
ולא לוה ולא מטא לידיה והאי אינו רוצה להחזירו לו דהא לא מודה הלכך לא יחזור
וכ"ת דילמא טעמא דברייתא כדאמר משום שמא כתב ללות בניסן כו' ונהי.
דקשיא לרבי אליעזר דלא ס"ל הכי כדפרי' מיהו אמאי איצטריך להקשויי משום פרעון.
דאידך גיסא מצי להקשויי ליה • וי"ל דודאי פשי' דברייתא מטע' משום פרעון.
וקנוניא והכי ניהא ליה טפי לאקשויי :רמת דיוק ממש גבוהה, ולדעתי אפשר לשגע אותו עוד קצת (זה נסיון שני אחרי שבנסיון הראשון הביא תוצאה נחמדה, ודחפתי אותו עוד קצת ע״י שהצגתי לו את התמלול הנכון של השורה הראשונה, ועל פיה תמלל את השאר.), במודל הקודם ניסתי עם אותה תמונה בדיוק, והתוצאה על הפנים.
@איש-גמזו אלוקים! איך זה הגיע לפיתוח אפליקציות?
לולי שאחד מהרבנים פה הפנה לפוסט הזה, לא הייתי רואה אותו לעולם. -
@איש-גמזו אלוקים! איך זה הגיע לפיתוח אפליקציות?
לולי שאחד מהרבנים פה הפנה לפוסט הזה, לא הייתי רואה אותו לעולם.@צדיק-וטוב-לו-0 כתב בבקשה | הפרויקט השיתופי החדש מבית אוצריא (וזית): הוספת ספרים חסרים:
@איש-גמזו אלוקים! איך זה הגיע לפיתוח אפליקציות?
לולי שאחד מהרבנים פה הפנה לפוסט הזה, לא הייתי רואה אותו לעולם.אוי, לא מצליח לשנות.
מה? אני היחיד שקורא את הודעות דרך ״פוסטים אחרונים״? -
@איש-גמזו
לא הצלחתי להבין איפה אוחזים ?
אני מעוניין לקחת שני עמודים כרגע, בל"נ -
@איש-גמזו
לא הצלחתי להבין איפה אוחזים ?
אני מעוניין לקחת שני עמודים כרגע, בל"נ@יאיר-דניאל
קיבלת את ג' עמוד א' ועמוד ב'.
אני ד' עמוד א', @איש-גמזו תעדכן למעלה.
באמת אולי כדאי שהפוסט יתחיל לפני כל ההסברים ברשימה של העמודים לדעת איפה אוחזים.