בירור | ניקוי קובץ טקסט מתווים מיותרים

MGM IVR

@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:

@menajemmendel כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:

@מישהו12
תיקנתי תנסה עכשיו

עכשיו זה שומר את כל הגרשיים

זה עדיין עובד, יש לך עניין דווקא בדרך החלפה. או בתוצאה?
https://mitmachim.top/post/757976

צדיק תמים

@מישהו12 אני עדיין לא מבין את הרעיון המוזר לפרסר JSON באמצעות חיפוש והחלפה לסוגיו כאילו שזה טקסט רגיל

מישהו12

@צדיק-תמים יש לי עניין בתוצאה, לא מעניין אותי הדרך...

ישראל 142

@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:

@menajemmendel כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:

@מישהו12
תיקנתי תנסה עכשיו

עכשיו זה שומר את כל הגרשיים

אז עכשיו אתה יכול לעשות החלפה של כל הרגשיים שיש לפניהם או אחריהם רווח -ברווח לבד, ואז כל הרגשיים שבתוך מילה ישארו

מישהו12

@ישראל-142 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:

כל הרגשיים שיש לפניהם או אחריהם רווח -ברווח לבד

אם הייתי יודע איך לעשות החלפה של " שיש אחריהם אנטר, הנושא מתחילתו לא היה נפתח... זו בדיוק השאלה.

menajemmendel

@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:

אם הייתי יודע איך לעשות החלפה של " שיש אחריהם אנטר, הנושא מתחילתו לא היה נפתח... זו בדיוק השאלה.

אתה יודע להשתמש בחפש והחלף?
CTRL +H
ותכתוב שם "^13

הסבר: ^13 הוא אנטר

מישהו12

@menajemmendel כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:

^13

לא עובד

מישהו12

@MGM-IVR אפשר את זה כסקריפט אחד שירוץ על קובץ בשם file.txt?

MGM IVR

@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:

@MGM-IVR אפשר את זה כסקריפט אחד שירוץ על קובץ בשם file.txt?

import json

file = open('file.txt', 'r').read()
data = json.loads(file)

alltext = ""
 
for i in data:
    alltext += i["text"] + "\n"
    

open("output.txt", "w").write(alltext)

הקובץ צריך להיות במבנה json כמובן
למשל

[
    {
        "timestamp":[3249, 2455],
        "text" : "המחשבה בדבר"
    },
    {
        "timestamp":[3269, 1455],
        "text" : "המחשבה האמיתית"
    },
    {
        "timestamp":[234, 24423342555],
        "text" : "היא מחתימה את הכל "
    },
    {
        "timestamp":[3249, 2455],
        "text" : "עבור מישהו12 "
    }
]

מישהו12

@MGM-IVR

python script.py
Traceback (most recent call last):
  File "C:\Users\*****\Desktop\מסמכים אישיים\*******\New folder\script.py", line 3, in <module>
    file = open('file.txt', 'r').read()
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\*****\AppData\Local\Programs\Python\Python311\Lib\encodings\cp1255.py", line 23, in decode
    return codecs.charmap_decode(input,self.errors,decoding_table)[0]
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
UnicodeDecodeError: 'charmap' codec can't decode byte 0x9e in position 59: character maps to <undefined>

מישהו12

ChatGPT סיפק את התשובה אחרי הרבה ניסיונות

def clean_text(input_text):
    hebrew_sentences = []

    # קרא את הקובץ ונקה את המשפטים העבריים
    with open("input_file.txt", "r", encoding="utf-8") as file:
        for line in file:
            if '"text": "' in line:
                sentence = line.split('"text": "')[1].rstrip('\n').rstrip('"')
                hebrew_sentences.append(sentence)

    # החזר כל משפט בשורה נפרדת
    cleaned_text = "\n".join(hebrew_sentences)

    return cleaned_text

# קרא את קובץ הטקסט וקרא את המשפטים
cleaned_text = clean_text("input_file.txt")
print(cleaned_text)

# אם ברצונך לשמור את הטקסט הנקי בקובץ חדש
with open("output_file.txt", "w", encoding="utf-8") as file:
    file.write(cleaned_text)

https://chat.openai.com/share/3bc11429-df51-4046-b937-a98fc225c1b7

menajemmendel

@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:

@menajemmendel כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:

^13

לא עובד

מעניין לי דוקא כן עובד, אולי כתבת מידי הרבה רווחים

מקצועי_

@מישהו12

תדביק פה את ה JSON ותקבל למטה פלט נקי

https://regex101.com/r/XZGqY7/1

ואם אתה רוצה בשורות נפרדות

https://regex101.com/r/XZGqY7/2

מישהו12

@menajemmendel מוזר, עשיתי העתק הדבק. בטוח שבלי יותר מידי רווחים.
\בכל מקרה תודה לכולם, הסתדרתי עם
https://mitmachim.top/post/759544