בירור | ניקוי קובץ טקסט מתווים מיותרים
-
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@menajemmendel כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@מישהו12
תיקנתי תנסה עכשיועכשיו זה שומר את כל הגרשיים
זה עדיין עובד, יש לך עניין דווקא בדרך החלפה. או בתוצאה?
https://mitmachim.top/post/757976 -
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@menajemmendel כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@מישהו12
תיקנתי תנסה עכשיועכשיו זה שומר את כל הגרשיים
אז עכשיו אתה יכול לעשות החלפה של כל הרגשיים שיש לפניהם או אחריהם רווח -ברווח לבד, ואז כל הרגשיים שבתוך מילה ישארו
-
@ישראל-142 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
כל הרגשיים שיש לפניהם או אחריהם רווח -ברווח לבד
אם הייתי יודע איך לעשות החלפה של " שיש אחריהם אנטר, הנושא מתחילתו לא היה נפתח... זו בדיוק השאלה.
-
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
אם הייתי יודע איך לעשות החלפה של " שיש אחריהם אנטר, הנושא מתחילתו לא היה נפתח... זו בדיוק השאלה.
אתה יודע להשתמש בחפש והחלף?
CTRL +H
ותכתוב שם "^13
הסבר: ^13 הוא אנטר
-
-
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@MGM-IVR אפשר את זה כסקריפט אחד שירוץ על קובץ בשם file.txt?
import json file = open('file.txt', 'r').read() data = json.loads(file) alltext = "" for i in data: alltext += i["text"] + "\n" open("output.txt", "w").write(alltext)
הקובץ צריך להיות במבנה json כמובן
למשל[ { "timestamp":[3249, 2455], "text" : "המחשבה בדבר" }, { "timestamp":[3269, 1455], "text" : "המחשבה האמיתית" }, { "timestamp":[234, 24423342555], "text" : "היא מחתימה את הכל " }, { "timestamp":[3249, 2455], "text" : "עבור מישהו12 " } ]
-
python script.py Traceback (most recent call last): File "C:\Users\*****\Desktop\מסמכים אישיים\*******\New folder\script.py", line 3, in <module> file = open('file.txt', 'r').read() ^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Users\*****\AppData\Local\Programs\Python\Python311\Lib\encodings\cp1255.py", line 23, in decode return codecs.charmap_decode(input,self.errors,decoding_table)[0] ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ UnicodeDecodeError: 'charmap' codec can't decode byte 0x9e in position 59: character maps to <undefined>
-
ChatGPT סיפק את התשובה אחרי הרבה ניסיונות
def clean_text(input_text): hebrew_sentences = [] # קרא את הקובץ ונקה את המשפטים העבריים with open("input_file.txt", "r", encoding="utf-8") as file: for line in file: if '"text": "' in line: sentence = line.split('"text": "')[1].rstrip('\n').rstrip('"') hebrew_sentences.append(sentence) # החזר כל משפט בשורה נפרדת cleaned_text = "\n".join(hebrew_sentences) return cleaned_text # קרא את קובץ הטקסט וקרא את המשפטים cleaned_text = clean_text("input_file.txt") print(cleaned_text) # אם ברצונך לשמור את הטקסט הנקי בקובץ חדש with open("output_file.txt", "w", encoding="utf-8") as file: file.write(cleaned_text)
https://chat.openai.com/share/3bc11429-df51-4046-b937-a98fc225c1b7
-
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@menajemmendel כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
^13
לא עובד
מעניין לי דוקא כן עובד, אולי כתבת מידי הרבה רווחים
-
-
@menajemmendel מוזר, עשיתי העתק הדבק. בטוח שבלי יותר מידי רווחים.
\בכל מקרה תודה לכולם, הסתדרתי עם
https://mitmachim.top/post/759544 -
-