@אלף-שין
א) במקום pypdf
אני משתמש עכשיו ב-pymupdf
ב) תתקין במחשב שלך את זה
הקוד הבא עובד על שלושת הקבצים שהבאת,
אם יש לך עוד דוגמאות של קבצים שזה לא עובד עליהם אנא העלה את הקובץ לפה ונראה מה יש לעשות בנושא
הנה הקוד:
from pymupdf import pymupdf
def is_hebrewbooks_file(file_path):
doc = pymupdf.open(file_path)
page = doc[0]
text = page.get_text()
if text.find("hebrewbook") != -1:
return True
# if failed - try ocr
ocr_text = page.get_textpage_ocr(tessdata=r"C:\Program Files\Tesseract-OCR\tessdata").extractText()
if ocr_text.find("hebrewbook") != -1:
return True
return False