בקשת עזרה תוכנה למיון ספרים!
-
@sivan22
יש לי כוננים מלאים בכמה עשרות אלפי ספרים רובם מהיברו בוקס,
והשמות שלהם שונו לשמות האמיתיים,
כעת אני צריך למיין הכל.....
ולכן אין לי פתרון מלבד זה.@mefateach כתב בשיתוף | שיתוף ובקשת עזרה, תוכנה למיון ספרים!:
אולי אפשר עם ocr
זה לא יהיה מדאי איטי?
-
@sivan22 כתב בשיתוף | שיתוף ובקשת עזרה, תוכנה למיון ספרים!:
אבל אני מאמין שתוכל עם ספריה כמו PDFPY2 למצוא אם יש תיבת טקסט, כמו שהצעת, וזה יותר פשוט.
ניסיתי קרוב ל40 פעם [עם כל מיני שינויים ותיקונים כל פעם] ולא הצלחתי.
@sivan22 כתב בשיתוף | שיתוף ובקשת עזרה, תוכנה למיון ספרים!:
בשביל OCR תוכל להשתמש בtesseract
אפשר להוריד באמצעות PIP?
-
@אלף-שין כתב בשיתוף | שיתוף ובקשת עזרה, תוכנה למיון ספרים!:
בשביל OCR תוכל להשתמש בtesseract
אפשר להוריד באמצעות PIP?
וודאי, רק תכתוב באותיות קטנות, ותשים לב כשאתה מעתיק לא להעתיק את ה-ב' שבתחילת המילה.
מחכים כבר מאוד להודעה הדרמטית שלך......... -
@אלף-שין כתב בשיתוף | שיתוף ובקשת עזרה, תוכנה למיון ספרים!:
ניסיתי קרוב ל40 פעם [עם כל מיני שינויים ותיקונים כל פעם] ולא הצלחתי.
אני מאמין שהוא התכוין לזה:
pip install PyPDF2
-
@יום-חדש-מתחיל
הספריה הזאת PyPDF2 לא מזהה,
בדקתי בעשרות הגדרות שניסיתי. -
@mefateach כתב בשיתוף | שיתוף ובקשת עזרה, תוכנה למיון ספרים!:
@אלף-שין תגגל על tensorflow
לא, זה מדאי כבד לי,
אני צריך בסך הכל שיהיה חע סקריפט שעובד על קבצי הPDF
שהשקריפט לא זיהה בהם בעמוד הראשון את התו W,
במקרה כזה הסקריפט יעשה OCR לעמוד הראשון בלבד,
ואז יחפש אם יש את התו W. -
פוסט זה נמחק!
-
@אלף-שין כתב בשיתוף | שיתוף ובקשת עזרה, תוכנה למיון ספרים!:
הספריה הזאת PyPDF2 לא מזהה
https://pypi.org/project/PyPDF2/
pip install PyPDF2
עריכה: עכשיו אני רואה שהסקריפט שכתבת למעלה גם משתמש בספרי' הזו...
-
from pypdf import PdfReader def is_hebrew_books(file): reader = PdfReader(file) annotations = reader.pages[0].annotations for annotation in annotations: if annotation.get("/Subtype") == "/Link" and annotation.get("/A").get("/URI") == "http://www.hebrewbooks.org": return True return False
נ.ב. בדקתי רק על שני קבצים
-
@yzahn
כנראה התכוונת לזה:from PyPDF2 import PdfReader def is_hebrew_books(file): reader = PdfReader(file) try: annotations = reader.getOutlines() except: return False for item in annotations: if isinstance(item, dict): if item.get('/URI', '').startswith('http://www.hebrewbooks.org'): return True return False # Example usage: file_path = 'path_to_your_file.pdf' # replace with your file path result = is_hebrew_books(file_path) if result: print("The PDF is a Hebrew book.") else: print("The PDF is not a Hebrew book.")
אבל זה לא זיהה לי...
צריך ספריית PDF מתקדמת יותר... -
@yzahn
אה..
חבל שלא ידעתי...
כי לא הבנתי למה יש כל הזמן שגיאות...
סידרתי רק באדיבות GPT כלשהוא....
עכ"פ אשמח דווקא לקבל עזרה אבל צריך סקריפט שיסרוק ב3 שלבים:
1] האם מופיע תו W בעמוד הראשון- אם כן מעביר, אם לא עובר לשלב 2,
2] האם נמצא בעמוד הראשון תיבת טקסט [אם כן בטוח יש בתוכה W] אם כן מעביר, אם לא עובר לשלב 3,
3] מעביר את העמוד הראשון OCR, ובודק שוב האם נמצא תו W.