מדריך | OCR לספרים בשביל אוצרייא
-
בשביל להוסיף ספרים לאוצרייא מקובץ PDF (ניתן להוריד מהיברו-בוקס, יש כאן שירשור של ספרים שחסרים), צריך לעשות להם OCR, כלומר להפוך את הקובץ PDF (שזה תמונות ולא טקסט) לטקסט שאוצרייא תוכל לקרוא, מומלץ להשתמש בAI סטודיו,
כתבתי (ה AI כמובן...
ואני קצת תיקנתי) הוראות לתת לוהוראות להוצאת טקסט מקובץ PDF
יש להוציא מהקובץ את כל הטקסט בלי לשנות ממנו שום דבר.
אין לערוך, לסכם, לתקן, להוסיף או להוריד מילים.
יש לשמור במדויק על הניסוח, השורות, הרווחים והסימנים.הטקסט צריך להיות רציף, בלי לרדת שורה כל הזמן. בכל פעם שעוברים לעמוד חדש יש לכתוב בתחילת הטקסט של אותו עמוד את מספר העמוד בסוגריים מרובעים כך:
[1]
(טקסט של העמוד)
[2]
(טקסט של העמוד)
וכו'.סימונים לטקסט:
-
טקסט מודגש:
בתחילת החלק המודגש יש להוסיף: <b>
ובסוף אותו חלק יש להוסיף: </b> -
כותרת ראשית, בתחילת הספר בלבד!
בתחילת הכותרת יש להוסיף: <h1>
ובסופה יש להוסיף: </h1> -
כותרת משנה (פרקים):
בתחילת הכותרת יש להוסיף: <h2>
ובסופה יש להוסיף: </h2>
.4. נושאים בתוך הפרקים:
בתחילת הכותרת יש להוסיף: <h3>
ובסופה יש להוסיף: </h3>בכול הכותרות יש לשים את כל הכותרת בשורה אחת, גם אם בקובץ זה מופיע בכמה שורות
אסור לכתוב כלל את כל ההערות שבתחתית העמוד (הערות שוליים).
אפשר לשנות את ההוראות לפי הספר (זה למשל היה לספר על חגים, לספרים אחרים ניתן להוסיף סוגים של כותרות) או לפי הטעויות שלו..
-
-
בשביל להוסיף ספרים לאוצרייא מקובץ PDF (ניתן להוריד מהיברו-בוקס, יש כאן שירשור של ספרים שחסרים), צריך לעשות להם OCR, כלומר להפוך את הקובץ PDF (שזה תמונות ולא טקסט) לטקסט שאוצרייא תוכל לקרוא, מומלץ להשתמש בAI סטודיו,
כתבתי (ה AI כמובן...
ואני קצת תיקנתי) הוראות לתת לוהוראות להוצאת טקסט מקובץ PDF
יש להוציא מהקובץ את כל הטקסט בלי לשנות ממנו שום דבר.
אין לערוך, לסכם, לתקן, להוסיף או להוריד מילים.
יש לשמור במדויק על הניסוח, השורות, הרווחים והסימנים.הטקסט צריך להיות רציף, בלי לרדת שורה כל הזמן. בכל פעם שעוברים לעמוד חדש יש לכתוב בתחילת הטקסט של אותו עמוד את מספר העמוד בסוגריים מרובעים כך:
[1]
(טקסט של העמוד)
[2]
(טקסט של העמוד)
וכו'.סימונים לטקסט:
-
טקסט מודגש:
בתחילת החלק המודגש יש להוסיף: <b>
ובסוף אותו חלק יש להוסיף: </b> -
כותרת ראשית, בתחילת הספר בלבד!
בתחילת הכותרת יש להוסיף: <h1>
ובסופה יש להוסיף: </h1> -
כותרת משנה (פרקים):
בתחילת הכותרת יש להוסיף: <h2>
ובסופה יש להוסיף: </h2>
.4. נושאים בתוך הפרקים:
בתחילת הכותרת יש להוסיף: <h3>
ובסופה יש להוסיף: </h3>בכול הכותרות יש לשים את כל הכותרת בשורה אחת, גם אם בקובץ זה מופיע בכמה שורות
אסור לכתוב כלל את כל ההערות שבתחתית העמוד (הערות שוליים).
אפשר לשנות את ההוראות לפי הספר (זה למשל היה לספר על חגים, לספרים אחרים ניתן להוסיף סוגים של כותרות) או לפי הטעויות שלו..
@שמואל5 כותרת רמה 1 זה רק שם הספר.
שאר הכותרות מתחילות מרמה 2 ואילך -
-
@שמואל5 כותרת רמה 1 זה רק שם הספר.
שאר הכותרות מתחילות מרמה 2 ואילך@יום-חדש-מתחיל שיניתי
-
בשביל להוסיף ספרים לאוצרייא מקובץ PDF (ניתן להוריד מהיברו-בוקס, יש כאן שירשור של ספרים שחסרים), צריך לעשות להם OCR, כלומר להפוך את הקובץ PDF (שזה תמונות ולא טקסט) לטקסט שאוצרייא תוכל לקרוא, מומלץ להשתמש בAI סטודיו,
כתבתי (ה AI כמובן...
ואני קצת תיקנתי) הוראות לתת לוהוראות להוצאת טקסט מקובץ PDF
יש להוציא מהקובץ את כל הטקסט בלי לשנות ממנו שום דבר.
אין לערוך, לסכם, לתקן, להוסיף או להוריד מילים.
יש לשמור במדויק על הניסוח, השורות, הרווחים והסימנים.הטקסט צריך להיות רציף, בלי לרדת שורה כל הזמן. בכל פעם שעוברים לעמוד חדש יש לכתוב בתחילת הטקסט של אותו עמוד את מספר העמוד בסוגריים מרובעים כך:
[1]
(טקסט של העמוד)
[2]
(טקסט של העמוד)
וכו'.סימונים לטקסט:
-
טקסט מודגש:
בתחילת החלק המודגש יש להוסיף: <b>
ובסוף אותו חלק יש להוסיף: </b> -
כותרת ראשית, בתחילת הספר בלבד!
בתחילת הכותרת יש להוסיף: <h1>
ובסופה יש להוסיף: </h1> -
כותרת משנה (פרקים):
בתחילת הכותרת יש להוסיף: <h2>
ובסופה יש להוסיף: </h2>
.4. נושאים בתוך הפרקים:
בתחילת הכותרת יש להוסיף: <h3>
ובסופה יש להוסיף: </h3>בכול הכותרות יש לשים את כל הכותרת בשורה אחת, גם אם בקובץ זה מופיע בכמה שורות
אסור לכתוב כלל את כל ההערות שבתחתית העמוד (הערות שוליים).
אפשר לשנות את ההוראות לפי הספר (זה למשל היה לספר על חגים, לספרים אחרים ניתן להוסיף סוגים של כותרות) או לפי הטעויות שלו..
@שמואל5
למה אתה לא מצרף את הקובץ HTML שבנית בשביל זה? -
-
@שמואל5
למה אתה לא מצרף את הקובץ HTML שבנית בשביל זה?@מענין-לשמוע כי צריך בשבילו מפתח API והמודל החדש לא עובד בAPI החינמי
-
@מענין-לשמוע כי צריך בשבילו מפתח API והמודל החדש לא עובד בAPI החינמי
-
@שמואל5
רוב הספרים הרלוונטים מהיברו שחסרים באוצריא הם בכתב רש״י יחסית ישן, שאמנם גוגל סטודיו במודל ג׳מיני 3 עשה קפיצה אדירה ומאד משמעותית בחילוץ טקסט שכזה, אבל עדיין במקרים הטובים הוא נמצא בסביבות ה 85 - 95 אחוזי דיוק, ולא כל המקרים הם טובים (למעט ספרים ברורים מאד, או בכתב מרובע).כך שהעבודה להתאים אותם לאוצריא לא מתחילה ונגמרת בocr, אלא צריך תיקון ידני בעירנות.
ולכן ניסתי לפתוח את האשכול הזה, שלא נחל הצלחה מרובה...
מומלץ שתציין זאת בהודעתך הראשונה, או שתנסה לגייס גם לעבודה זו בנ״א.
(נ.ב. אני אישית מלא במרץ ויש לי נכונות, רק לעבוד לבד קצת מייבש אותי , אם תצליח ליצור איזו סביבת עבודה שתגרה אליה עוד אנשים תבוא עליך הברכה.
@יום-חדש-מתחיל שלחתי לך פעם מייל) -
א איש גמזו התייחס לנושא זה