בקשה | הפרויקט השיתופי החדש מבית אוצריא (וזית): הוספת ספרים חסרים
-
בהשראת השרשור הזה החלטתי לנסות לרתום את הציבור לפרויקט שיתופי להשלמת ספרי יסוד שחסרים באוצריא.
בקצרה: התוכנית היא שמי שיכול יקח על עצמו עמודים מהספר, כשעיקר העבודה תיעשה ע״י הבינה המלאכותית באופן שאינו מצריך ידע מיוחד, והשאר באופן ידני. כך שבכל תקופה נסיים ספר שלם
הדרבון להתחיל היה השקתו של ג׳מיני 3 בימים האחרונים, שהתברר בניגוד לקודמיו כבעל יכולות ocr (זיהוי תוים אופטי) מעוררות השתאות גם בכתב רש״י ישן ומעוקש קמעה (בלי שום השוואה לשם דוגמא לabbyy).
כמובן שעדיין צריך תיקונים והגהה (המקסימום שהצלחתי להגיע איתו היה בסביבות ה 96 אחוזים), אבל העבודה נעשתה הרבה יותר קלה.
דוגמא להמחשה ועצות בספוילרים בסוף הפוסט.הכתיבה תתבצע בקובץ משותף שאשלח הרשאה אליו למי שיביע נכונות להצטרף.
עריכה: לע״ע יותר נוח לי שכ״א יכתוב לעצמו בקובץ טקסט, וישלח לי לכשיסיים, ואני אצרף את הכל.
כמובן ופשיטא שההצלחה תלויה ברמת היענות הציבור לעניין.אחר התלבטות, ובעקבות הנתון שראשונים חסרים ייתכן ויושלמו בלחיצת כפתור מקובץ שיטות קמאי, החלטתי להתחיל מחשובי האחרונים.
אתחיל כעת מהספר חוות דעת לבעל נתה״מ.יש בהיברובוקס כמה צילומים של החוות דעת, היותר יעיל מביניהם הוא המצורף:3786f67f-c4f5-4646-b118-0f06c93728b0-חוות דעת.pdf.zip
במדה ויש קטעים לא ברורים אפשר להשלימם ע״י עוד שני צילומים אחרים שיש כאן
העמודים שם מחולקים כבתלמוד א׳ עמוד א, א׳ עמוד ב, וכו׳.חלוקת הכתיבה תהיה לפי עמודי הספר, כל אחד שמוכן לקחת על עצמו חלק, שיכתוב איזה עמודים הוא לוקח. ובל״נ אעדכן זאת בפוסט הראשי.
חלוקת הכתיבה:
דף א׳ עמוד א, ודף א׳ עמוד ב, - @איש גמזו
דף ב׳ עמוד א, - @יום-חדש-מתחילצורת הכתיבה.
צורת הכתיבה תהיה באופן של פסקה חדשה לכל ס״ק, את סימון הס״ק יש להקיף בסוגר עגול, ואת הד״ה להדגיש.
בספר יש הרבה קיצורים (קיצורי׳), מומלץ להשלים אותם לנוחות הקריאה.
יש לכתוב רק את החוו״ד עצמו בלי השו״ע.
נא לכתוב את ה״ביאורים״ בקובץ אחד, ואת ה״חידושים״ בקובץ אחר.דוגמא:
צילום הספר

העתקה של החידושים

כזה
צורת ביצוע ocr
יש להכנס לקישור הזה לשים לב שהמודל המופעל הוא ג׳מיני 3 פרו, לבקש ממנו לחלץ טקסט מקובץ פידיאף או תמונה.
מומלץ לציין לו שמדובר בכתב רש״י, לכתוב לו לשמור על רמת דיוק גבוהה ושלא יוסיף מילים מעצמו.
כעת בנוגע לחוות דעת, נסיוני הוכיח שיותר פשוט אם זה בא בקלות לחלק את העמוד לשני קבצים, באחד למחוק את השלחן ערוך ואת הביאורים, ובשני למחוק את השלחן ערוך והחידושים.
במידה והפענוח הראשוני לא מוצלח כל כך, ניתן לבצע פעולה די מועילה, לתמלל בעצמכם את השורה - שתיים הראשונות של הקובץ, ולכתוב לו להבין על פי זה איך לחלץ את השאר בצורה יותר מדויקת.דוגמא לחילוץ ocr ע״י גוגל סטודיו
לדוגמא העלתי לו את התמונה הזו (מתוך הריטב״א הישנים על ב״מ שמצאתי בהיברו), שהטקסט שבה לכל הדעות בכתב לא הכי ברור

ותמלל אותו כך:
לעיל • אלא ודאי רבי אליעזר כאביי ס"ל ובשטרי דלאו הקנאה ומשום שמא כתב ללות
ולא לוה ולא מטא לידיה והאי אינו רוצה להחזירו לו דהא לא מודה הלכך לא יחזור
וכ"ת דילמא טעמא דברייתא כדאמר משום שמא כתב ללות בניסן כו' ונהי.
דקשיא לרבי אליעזר דלא ס"ל הכי כדפרי' מיהו אמאי איצטריך להקשויי משום פרעון.
דאידך גיסא מצי להקשויי ליה • וי"ל דודאי פשי' דברייתא מטע' משום פרעון.
וקנוניא והכי ניהא ליה טפי לאקשויי :רמת דיוק ממש גבוהה, ולדעתי אפשר לשגע אותו עוד קצת (זה נסיון שני אחרי שבנסיון הראשון הביא תוצאה נחמדה, ודחפתי אותו עוד קצת ע״י שהצגתי לו את התמלול הנכון של השורה הראשונה, ועל פיה תמלל את השאר.), במודל הקודם ניסתי עם אותה תמונה בדיוק, והתוצאה על הפנים.
@איש-גמזו אני בלי נדר, דף ב עמוד א.
-
בהשראת השרשור הזה החלטתי לנסות לרתום את הציבור לפרויקט שיתופי להשלמת ספרי יסוד שחסרים באוצריא.
בקצרה: התוכנית היא שמי שיכול יקח על עצמו עמודים מהספר, כשעיקר העבודה תיעשה ע״י הבינה המלאכותית באופן שאינו מצריך ידע מיוחד, והשאר באופן ידני. כך שבכל תקופה נסיים ספר שלם
הדרבון להתחיל היה השקתו של ג׳מיני 3 בימים האחרונים, שהתברר בניגוד לקודמיו כבעל יכולות ocr (זיהוי תוים אופטי) מעוררות השתאות גם בכתב רש״י ישן ומעוקש קמעה (בלי שום השוואה לשם דוגמא לabbyy).
כמובן שעדיין צריך תיקונים והגהה (המקסימום שהצלחתי להגיע איתו היה בסביבות ה 96 אחוזים), אבל העבודה נעשתה הרבה יותר קלה.
דוגמא להמחשה ועצות בספוילרים בסוף הפוסט.הכתיבה תתבצע בקובץ משותף שאשלח הרשאה אליו למי שיביע נכונות להצטרף.
עריכה: לע״ע יותר נוח לי שכ״א יכתוב לעצמו בקובץ טקסט, וישלח לי לכשיסיים, ואני אצרף את הכל.
כמובן ופשיטא שההצלחה תלויה ברמת היענות הציבור לעניין.אחר התלבטות, ובעקבות הנתון שראשונים חסרים ייתכן ויושלמו בלחיצת כפתור מקובץ שיטות קמאי, החלטתי להתחיל מחשובי האחרונים.
אתחיל כעת מהספר חוות דעת לבעל נתה״מ.יש בהיברובוקס כמה צילומים של החוות דעת, היותר יעיל מביניהם הוא המצורף:3786f67f-c4f5-4646-b118-0f06c93728b0-חוות דעת.pdf.zip
במדה ויש קטעים לא ברורים אפשר להשלימם ע״י עוד שני צילומים אחרים שיש כאן
העמודים שם מחולקים כבתלמוד א׳ עמוד א, א׳ עמוד ב, וכו׳.חלוקת הכתיבה תהיה לפי עמודי הספר, כל אחד שמוכן לקחת על עצמו חלק, שיכתוב איזה עמודים הוא לוקח. ובל״נ אעדכן זאת בפוסט הראשי.
חלוקת הכתיבה:
דף א׳ עמוד א, ודף א׳ עמוד ב, - @איש גמזו
דף ב׳ עמוד א, - @יום-חדש-מתחילצורת הכתיבה.
צורת הכתיבה תהיה באופן של פסקה חדשה לכל ס״ק, את סימון הס״ק יש להקיף בסוגר עגול, ואת הד״ה להדגיש.
בספר יש הרבה קיצורים (קיצורי׳), מומלץ להשלים אותם לנוחות הקריאה.
יש לכתוב רק את החוו״ד עצמו בלי השו״ע.
נא לכתוב את ה״ביאורים״ בקובץ אחד, ואת ה״חידושים״ בקובץ אחר.דוגמא:
צילום הספר

העתקה של החידושים

כזה
צורת ביצוע ocr
יש להכנס לקישור הזה לשים לב שהמודל המופעל הוא ג׳מיני 3 פרו, לבקש ממנו לחלץ טקסט מקובץ פידיאף או תמונה.
מומלץ לציין לו שמדובר בכתב רש״י, לכתוב לו לשמור על רמת דיוק גבוהה ושלא יוסיף מילים מעצמו.
כעת בנוגע לחוות דעת, נסיוני הוכיח שיותר פשוט אם זה בא בקלות לחלק את העמוד לשני קבצים, באחד למחוק את השלחן ערוך ואת הביאורים, ובשני למחוק את השלחן ערוך והחידושים.
במידה והפענוח הראשוני לא מוצלח כל כך, ניתן לבצע פעולה די מועילה, לתמלל בעצמכם את השורה - שתיים הראשונות של הקובץ, ולכתוב לו להבין על פי זה איך לחלץ את השאר בצורה יותר מדויקת.דוגמא לחילוץ ocr ע״י גוגל סטודיו
לדוגמא העלתי לו את התמונה הזו (מתוך הריטב״א הישנים על ב״מ שמצאתי בהיברו), שהטקסט שבה לכל הדעות בכתב לא הכי ברור

ותמלל אותו כך:
לעיל • אלא ודאי רבי אליעזר כאביי ס"ל ובשטרי דלאו הקנאה ומשום שמא כתב ללות
ולא לוה ולא מטא לידיה והאי אינו רוצה להחזירו לו דהא לא מודה הלכך לא יחזור
וכ"ת דילמא טעמא דברייתא כדאמר משום שמא כתב ללות בניסן כו' ונהי.
דקשיא לרבי אליעזר דלא ס"ל הכי כדפרי' מיהו אמאי איצטריך להקשויי משום פרעון.
דאידך גיסא מצי להקשויי ליה • וי"ל דודאי פשי' דברייתא מטע' משום פרעון.
וקנוניא והכי ניהא ליה טפי לאקשויי :רמת דיוק ממש גבוהה, ולדעתי אפשר לשגע אותו עוד קצת (זה נסיון שני אחרי שבנסיון הראשון הביא תוצאה נחמדה, ודחפתי אותו עוד קצת ע״י שהצגתי לו את התמלול הנכון של השורה הראשונה, ועל פיה תמלל את השאר.), במודל הקודם ניסתי עם אותה תמונה בדיוק, והתוצאה על הפנים.
-
@איש-גמזו איך אני מעביר לך את מה שכבר עשיתי?
-
@איש-גמזו איך אני מעביר לך את מה שכבר עשיתי?
@יום-חדש-מתחיל כתב בבקשה | הפרויקט השיתופי החדש מבית אוצריא (וזית): הוספת ספרים חסרים:
@איש-גמזו איך אני מעביר לך את מה שכבר עשיתי?
שלחתי לך מייל
-
בהשראת השרשור הזה החלטתי לנסות לרתום את הציבור לפרויקט שיתופי להשלמת ספרי יסוד שחסרים באוצריא.
בקצרה: התוכנית היא שמי שיכול יקח על עצמו עמודים מהספר, כשעיקר העבודה תיעשה ע״י הבינה המלאכותית באופן שאינו מצריך ידע מיוחד, והשאר באופן ידני. כך שבכל תקופה נסיים ספר שלם
הדרבון להתחיל היה השקתו של ג׳מיני 3 בימים האחרונים, שהתברר בניגוד לקודמיו כבעל יכולות ocr (זיהוי תוים אופטי) מעוררות השתאות גם בכתב רש״י ישן ומעוקש קמעה (בלי שום השוואה לשם דוגמא לabbyy).
כמובן שעדיין צריך תיקונים והגהה (המקסימום שהצלחתי להגיע איתו היה בסביבות ה 96 אחוזים), אבל העבודה נעשתה הרבה יותר קלה.
דוגמא להמחשה ועצות בספוילרים בסוף הפוסט.הכתיבה תתבצע בקובץ משותף שאשלח הרשאה אליו למי שיביע נכונות להצטרף.
עריכה: לע״ע יותר נוח לי שכ״א יכתוב לעצמו בקובץ טקסט, וישלח לי לכשיסיים, ואני אצרף את הכל.
כמובן ופשיטא שההצלחה תלויה ברמת היענות הציבור לעניין.אחר התלבטות, ובעקבות הנתון שראשונים חסרים ייתכן ויושלמו בלחיצת כפתור מקובץ שיטות קמאי, החלטתי להתחיל מחשובי האחרונים.
אתחיל כעת מהספר חוות דעת לבעל נתה״מ.יש בהיברובוקס כמה צילומים של החוות דעת, היותר יעיל מביניהם הוא המצורף:3786f67f-c4f5-4646-b118-0f06c93728b0-חוות דעת.pdf.zip
במדה ויש קטעים לא ברורים אפשר להשלימם ע״י עוד שני צילומים אחרים שיש כאן
העמודים שם מחולקים כבתלמוד א׳ עמוד א, א׳ עמוד ב, וכו׳.חלוקת הכתיבה תהיה לפי עמודי הספר, כל אחד שמוכן לקחת על עצמו חלק, שיכתוב איזה עמודים הוא לוקח. ובל״נ אעדכן זאת בפוסט הראשי.
חלוקת הכתיבה:
דף א׳ עמוד א, ודף א׳ עמוד ב, - @איש גמזו
דף ב׳ עמוד א, - @יום-חדש-מתחילצורת הכתיבה.
צורת הכתיבה תהיה באופן של פסקה חדשה לכל ס״ק, את סימון הס״ק יש להקיף בסוגר עגול, ואת הד״ה להדגיש.
בספר יש הרבה קיצורים (קיצורי׳), מומלץ להשלים אותם לנוחות הקריאה.
יש לכתוב רק את החוו״ד עצמו בלי השו״ע.
נא לכתוב את ה״ביאורים״ בקובץ אחד, ואת ה״חידושים״ בקובץ אחר.דוגמא:
צילום הספר

העתקה של החידושים

כזה
צורת ביצוע ocr
יש להכנס לקישור הזה לשים לב שהמודל המופעל הוא ג׳מיני 3 פרו, לבקש ממנו לחלץ טקסט מקובץ פידיאף או תמונה.
מומלץ לציין לו שמדובר בכתב רש״י, לכתוב לו לשמור על רמת דיוק גבוהה ושלא יוסיף מילים מעצמו.
כעת בנוגע לחוות דעת, נסיוני הוכיח שיותר פשוט אם זה בא בקלות לחלק את העמוד לשני קבצים, באחד למחוק את השלחן ערוך ואת הביאורים, ובשני למחוק את השלחן ערוך והחידושים.
במידה והפענוח הראשוני לא מוצלח כל כך, ניתן לבצע פעולה די מועילה, לתמלל בעצמכם את השורה - שתיים הראשונות של הקובץ, ולכתוב לו להבין על פי זה איך לחלץ את השאר בצורה יותר מדויקת.דוגמא לחילוץ ocr ע״י גוגל סטודיו
לדוגמא העלתי לו את התמונה הזו (מתוך הריטב״א הישנים על ב״מ שמצאתי בהיברו), שהטקסט שבה לכל הדעות בכתב לא הכי ברור

ותמלל אותו כך:
לעיל • אלא ודאי רבי אליעזר כאביי ס"ל ובשטרי דלאו הקנאה ומשום שמא כתב ללות
ולא לוה ולא מטא לידיה והאי אינו רוצה להחזירו לו דהא לא מודה הלכך לא יחזור
וכ"ת דילמא טעמא דברייתא כדאמר משום שמא כתב ללות בניסן כו' ונהי.
דקשיא לרבי אליעזר דלא ס"ל הכי כדפרי' מיהו אמאי איצטריך להקשויי משום פרעון.
דאידך גיסא מצי להקשויי ליה • וי"ל דודאי פשי' דברייתא מטע' משום פרעון.
וקנוניא והכי ניהא ליה טפי לאקשויי :רמת דיוק ממש גבוהה, ולדעתי אפשר לשגע אותו עוד קצת (זה נסיון שני אחרי שבנסיון הראשון הביא תוצאה נחמדה, ודחפתי אותו עוד קצת ע״י שהצגתי לו את התמלול הנכון של השורה הראשונה, ועל פיה תמלל את השאר.), במודל הקודם ניסתי עם אותה תמונה בדיוק, והתוצאה על הפנים.
-
@איש-גמזו יצרתי קובץ HTML לעבודה יותר נוחה
, כרגע המודל בחדש לא זמין בAPI החינמי אבל כשיהיה זמין אז זה יותר נוח
https://drive.google.com/file/d/1NtUBlFpGE*****SHEVBWNGwjkFMFcWtKPXSO-/view?usp=sharing@שמואל5 כתב בבקשה | הפרויקט השיתופי החדש מבית אוצריא (וזית): הוספת ספרים חסרים:
@איש-גמזו יצרתי קובץ HTML לעבודה יותר נוחה
, כרגע המודל בחדש לא זמין בAPI החינמי אבל כשיהיה זמין אז זה יותר נוח
https://drive.google.com/file/d/1NtUBlFpGE*****SHEVBWNGwjkFMFcWtKPXSO-/view?usp=sharingמה הוא מועיל?
-
@שמואל5 כתב בבקשה | הפרויקט השיתופי החדש מבית אוצריא (וזית): הוספת ספרים חסרים:
@איש-גמזו יצרתי קובץ HTML לעבודה יותר נוחה
, כרגע המודל בחדש לא זמין בAPI החינמי אבל כשיהיה זמין אז זה יותר נוח
https://drive.google.com/file/d/1NtUBlFpGE*****SHEVBWNGwjkFMFcWtKPXSO-/view?usp=sharingמה הוא מועיל?
-
אולי זה יהי' הפרוייקט הבא של @NH.LOCAL, כמו אלף בוט
ליצור אתר ל OCR דרך AI. -
אולי זה יהי' הפרוייקט הבא של @NH.LOCAL, כמו אלף בוט
ליצור אתר ל OCR דרך AI.@יום-חדש-מתחיל כתב בבקשה | הפרויקט השיתופי החדש מבית אוצריא (וזית): הוספת ספרים חסרים:
אולי זה יהי' הפרוייקט הבא של @NH.LOCAL, כמו אלף בוט
ליצור אתר ל OCR דרך AI.