בירור | ניקוי קובץ טקסט מתווים מיותרים
-
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@MGM-IVR אפשר את זה כסקריפט אחד שירוץ על קובץ בשם file.txt?
import json file = open('file.txt', 'r').read() data = json.loads(file) alltext = "" for i in data: alltext += i["text"] + "\n" open("output.txt", "w").write(alltext)
הקובץ צריך להיות במבנה json כמובן
למשל[ { "timestamp":[3249, 2455], "text" : "המחשבה בדבר" }, { "timestamp":[3269, 1455], "text" : "המחשבה האמיתית" }, { "timestamp":[234, 24423342555], "text" : "היא מחתימה את הכל " }, { "timestamp":[3249, 2455], "text" : "עבור מישהו12 " } ]
-
python script.py Traceback (most recent call last): File "C:\Users\*****\Desktop\מסמכים אישיים\*******\New folder\script.py", line 3, in <module> file = open('file.txt', 'r').read() ^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Users\*****\AppData\Local\Programs\Python\Python311\Lib\encodings\cp1255.py", line 23, in decode return codecs.charmap_decode(input,self.errors,decoding_table)[0] ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ UnicodeDecodeError: 'charmap' codec can't decode byte 0x9e in position 59: character maps to <undefined>
-
ChatGPT סיפק את התשובה אחרי הרבה ניסיונות
def clean_text(input_text): hebrew_sentences = [] # קרא את הקובץ ונקה את המשפטים העבריים with open("input_file.txt", "r", encoding="utf-8") as file: for line in file: if '"text": "' in line: sentence = line.split('"text": "')[1].rstrip('\n').rstrip('"') hebrew_sentences.append(sentence) # החזר כל משפט בשורה נפרדת cleaned_text = "\n".join(hebrew_sentences) return cleaned_text # קרא את קובץ הטקסט וקרא את המשפטים cleaned_text = clean_text("input_file.txt") print(cleaned_text) # אם ברצונך לשמור את הטקסט הנקי בקובץ חדש with open("output_file.txt", "w", encoding="utf-8") as file: file.write(cleaned_text)
https://chat.openai.com/share/3bc11429-df51-4046-b937-a98fc225c1b7
-
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@menajemmendel כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
^13
לא עובד
מעניין לי דוקא כן עובד, אולי כתבת מידי הרבה רווחים
-
-
@menajemmendel מוזר, עשיתי העתק הדבק. בטוח שבלי יותר מידי רווחים.
\בכל מקרה תודה לכולם, הסתדרתי עם
https://mitmachim.top/post/759544 -
-