בקשת עזרה תוכנה למיון ספרים!

לא, זה מדאי כבד לי,
אני צריך בסך הכל שיהיה חע סקריפט שעובד על קבצי הPDF
שהשקריפט לא זיהה בהם בעמוד הראשון את התו W,
במקרה כזה הסקריפט יעשה OCR לעמוד הראשון בלבד,
ואז יחפש אם יש את התו W.

יום חדש מתחיל

פוסט זה נמחק!

יום חדש מתחיל

@אלף-שין כתב בשיתוף | שיתוף ובקשת עזרה, תוכנה למיון ספרים!:

הספריה הזאת PyPDF2 לא מזהה

https://pypi.org/project/PyPDF2/

pip install PyPDF2

עריכה: עכשיו אני רואה שהסקריפט שכתבת למעלה גם משתמש בספרי' הזו...

yzahn

@אלף-שין

from pypdf import PdfReader

def is_hebrew_books(file):
    reader = PdfReader(file)
    annotations = reader.pages[0].annotations
    for annotation in annotations:
        if annotation.get("/Subtype") == "/Link" and annotation.get("/A").get("/URI") == "http://www.hebrewbooks.org":
            return True
    return False

נ.ב. בדקתי רק על שני קבצים

אלף שין

@yzahn
כנראה התכוונת לזה:

from PyPDF2 import PdfReader

def is_hebrew_books(file):
    reader = PdfReader(file)
    try:
        annotations = reader.getOutlines()
    except:
        return False

    for item in annotations:
        if isinstance(item, dict):
            if item.get('/URI', '').startswith('http://www.hebrewbooks.org'):
                return True

    return False

# Example usage:
file_path = 'path_to_your_file.pdf'  # replace with your file path
result = is_hebrew_books(file_path)

if result:
    print("The PDF is a Hebrew book.")
else:
    print("The PDF is not a Hebrew book.")

אבל זה לא זיהה לי...
צריך ספריית PDF מתקדמת יותר...

yzahn

@אלף-שין השתמשתי בגירסה האחרונה של pypdf (בלי 2) זה אוחז כבר ב-4
לא בדקתי מה המקביל ב-2

אלף שין

@yzahn
אה..
חבל שלא ידעתי...
כי לא הבנתי למה יש כל הזמן שגיאות...
סידרתי רק באדיבות GPT כלשהוא....
עכ"פ אשמח דווקא לקבל עזרה אבל צריך סקריפט שיסרוק ב3 שלבים:
1] האם מופיע תו W בעמוד הראשון- אם כן מעביר, אם לא עובר לשלב 2,
2] האם נמצא בעמוד הראשון תיבת טקסט [אם כן בטוח יש בתוכה W] אם כן מעביר, אם לא עובר לשלב 3,
3] מעביר את העמוד הראשון OCR, ובודק שוב האם נמצא תו W.

yzahn

@אלף-שין כתב בשיתוף | שיתוף ובקשת עזרה, תוכנה למיון ספרים!:

אבל צריך סקריפט שיסרוק ב3 שלבים

למה החלטת ככה? מה לא טוב עם הפונקציה שלי? (תביא דוגמאות של קבצים שזה לא עובד עליהם ואנסה לתקן)

האם נמצא בעמוד הראשון תיבת טקסט

תוכל להגדיר בשפה יותר טכנית/מדוייקת מה זה תיבת טקסט? כי המושג "תיבת טקסט" לא קיים ב-PDF

yzahn

@אלף-שין כתב בשיתוף | שיתוף ובקשת עזרה, תוכנה למיון ספרים!:

באדיבות GPT כלשהוא

הוא טעה בגדול, אין קשר בין הקוד שהוא פלט לקוד שלי
הנה התיקון עבור PyPDF2

from PyPDF2 import PdfReader

def is_hebrew_books(file):
    reader = PdfReader(file)
    annotations = reader.pages[0].annotations
    for annotation in annotations:
        if annotation.get_object().get("/Subtype") == "/Link" and annotation.get_object().get("/A").get("/URI") == "http://www.hebrewbooks.org":
            return True
    return False

אלף שין

@yzahn כתב בשיתוף | שיתוף ובקשת עזרה, תוכנה למיון ספרים!:

למה החלטת ככה? מה לא טוב עם הפונקציה שלי? (תביא דוגמאות של קבצים שזה לא עובד עליהם ואנסה לתקן)

האם נמצא בעמוד הראשון תיבת טקסט

תוכל להגדיר בשפה יותר טכנית/מדוייקת מה זה תיבת טקסט? כי המושג "תיבת טקסט" לא קיים ב-PDF

העליתי כאן עמוד ראשון מ3 ספרים,
שים לב להבדל:
בספר חידושי חתם סופר: הטקסט מופיע בתוך "תיבת טקסט".
בספר בן יהוידע ח"א: מופיע כמלל רגיל בדומה לשאר המלל בעמוד.
בספר בן יהוידע ח"ב: צריך עדיין לעבור OCR.

חדושי חתם סופר - ע''ז_1.pdf
בן יהוידע ח''א_1.pdf
בן יהוידע ח''ב_1.pdf

לכן אני רוצה סקריפט חכם שיבדוק אם מוצא את האות W , כי אולי זה סוג 1 או 2, וחבל סתם לעשות עוד פעם זיהוי תווים,
ורק אם לא מצא שאז יכול להיות שהסיבה היא כי זה סוג 3 אז ליתר ביטחון יחפש שוב לאחר שיעשה OCR לעמוד הראשון.

@אביי אני מחכה רק לך....

yzahn

@אלף-שין
א) במקום pypdf אני משתמש עכשיו ב-pymupdf
ב) תתקין במחשב שלך את זה

הקוד הבא עובד על שלושת הקבצים שהבאת,
אם יש לך עוד דוגמאות של קבצים שזה לא עובד עליהם אנא העלה את הקובץ לפה ונראה מה יש לעשות בנושא

הנה הקוד:

from pymupdf import pymupdf

def is_hebrewbooks_file(file_path):
  doc = pymupdf.open(file_path)
  page = doc[0]
  text = page.get_text()
  if text.find("hebrewbook") != -1:
    return True
  # if failed - try ocr
  ocr_text = page.get_textpage_ocr(tessdata=r"C:\Program Files\Tesseract-OCR\tessdata").extractText()
  if ocr_text.find("hebrewbook") != -1:
    return True
  return False

יום חדש מתחיל

@אלף-שין אני מבין שכל הקבצים נמצאים בתיקי' מסוימת, ויש שם גם עוד קבצים ואתה רוצה להפריד ביניהם.
אז למה אתה צריך דווקא סקריפט אחד שיעשה את שלשת השלבים הנ"ל, למה לא לעשות זאת בשלשה סקריפטים שונים, שתריץ כל אחד אחרי שהשני יגמור?

yzahn

@יום-חדש-מתחיל מה אתה מנסה להרוויח? כל מה שתעשה בשלושה סקריפטים תוכל לעשות בסקריפט אחד בצורה יותר יעילה

יום חדש מתחיל

@yzahn כי כפי שאני מבין, את שתי השלבים הראשונים כבר יש לו סקריפט, אז מה הוא צריך שבסקריפט הזה יכתבו גם את השלבים הנ"ל?

אלף שין

@yzahn
מדהים הסקריפט שלך פשוט עובד נפלא!!
תודה רבה!!

from pymupdf import pymupdf

def is_hebrewbooks_file(file_path):
  doc = pymupdf.open(file_path)
  page = doc[0]
  text = page.get_text()
  if text.find("hebrewbook") != -1:
    return True
  ocr_text = page.get_textpage_ocr(tessdata=r"C:\Program Files\Tesseract-OCR\tessdata").extractText()
  if ocr_text.find("hebrewbook") != -1:
    return True
  return False

file_path = "40809.pdf"  # replace with your file path
result = is_hebrewbooks_file(file_path)
print(result)

עכשיו אני רק צריך כמה שיפורים קטנים ואז זה יהיה מושלם!

1] שהסקריפט ירוץ בלולאה על כל הקבצים שנמצאים בתיקייה [שממנה אני מפעיל אותו], [כולל תתי תיקיות עד סוף כל הדורות] או לחילופין שאוכל לבחור עם ממשק גרפי יותר נחמד אבל לא קריטי...
אבל שלא יהיה ח"ו התנגשויות בין תהליכים של הסקריפט בגלל זה.....
2] שבמקום לענות לי אמת או שקר, הוא פשוט יעביר את כל הקבצים שהם אמת לתיקייה מסוימת, ולא רק להעתיק שיהיה לי כפול... אלא להעביר ולמחוק לגמרי מהמקור....
3] ו... הכי טוב מקומפל.....

מי שיכול לעזור בזה אודה לו עמוקות!

@האדם-החושב.