בירור | ניקוי קובץ טקסט מתווים מיותרים
-
@דאנציג כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@מקצועי_ כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
פה תדביק את תוכן הקובץ ותקבל פלט נקי מתווים אחרים אבל עם הרבה רווחים.
זה לא יעזור לר"ת...
או לאותיו' עם גרש וכדו'...מלכתחילה @מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
אני מעוניין שישארו רק המשפטים בעברית, בלי כל הסימנים, הכיתוב באנגלית וכדו'.
כל הסימנים פירושו הכל כולל הכל.
אפשר כמובן להחריג תווים נוספים, רק צריך את הרשימה המדויקת איזה תווים להשאיר מלבד תווים עבריים
-
@מקצועי_ כאמור בהמשך
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
כי חלק מה " אני רוצה לשמור, אבל זה כאלו שאין אחריהם\לפניהם אנטר. אז האנטר בעצם מהווה סימן זיהוי
בכל מקרה, בהמשך אעלה דוגמא מהקובץ ונראה לי שזה יהיה יותר יעיל, תודה לכל המסייעים
-
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@מקצועי_ כאמור בהמשך
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
כי חלק מה " אני רוצה לשמור, אבל זה כאלו שאין אחריהם\לפניהם אנטר. אז האנטר בעצם מהווה סימן זיהוי
בכל מקרה, בהמשך אעלה דוגמא מהקובץ ונראה לי שזה יהיה יותר יעיל, תודה לכל המסייעים
לא צריך שום דוגמה, רק תרשום בדיוק איזה תווים אתה רוצה להשאיר ואתקן את הרגקס בהתאם.
-
@מישהו12 >
תעתיק הכל לוורד
ותריץ את הפקודת מאקרו הזו (אני מאמין שמתכנת דגול כמוך יסתדר עם פקודת מאקרו פשוטה)
כדי לפתוח VBA תלחץ בוורד על ALT F11Sub Macro9() Selection.Find.ClearFormatting Selection.Find.Replacement.ClearFormatting Selection.Find.Replacement.font.Bold = True With Selection.Find .Text = """text"": ""*""^13" .Replacement.Text = "" .Forward = True .Wrap = wdFindContinue .Format = True .MatchCase = False .MatchWholeWord = False .MatchKashida = False .MatchDiacritics = False .MatchAlefHamza = False .MatchControl = False .MatchAllWordForms = False .MatchSoundsLike = False .MatchWildcards = True End With Selection.Find.Execute Replace:=wdReplaceAll Selection.Find.ClearFormatting Selection.Find.font.Bold = False Selection.Find.Replacement.ClearFormatting With Selection.Find .Text = "" .Replacement.Text = "^p" .Forward = True .Wrap = wdFindContinue .Format = True .MatchCase = False .MatchWholeWord = False .MatchKashida = False .MatchDiacritics = False .MatchAlefHamza = False .MatchControl = False .MatchWildcards = False .MatchSoundsLike = False .MatchAllWordForms = False End With Selection.Find.Execute Replace:=wdReplaceAll Selection.Find.ClearFormatting Selection.Find.Replacement.ClearFormatting With Selection.Find .Text = """text"": """ .Replacement.Text = "" .Forward = True .Wrap = wdFindAsk .Format = False .MatchCase = False .MatchWholeWord = False .MatchKashida = False .MatchDiacritics = False .MatchAlefHamza = False .MatchControl = False .MatchWildcards = False .MatchSoundsLike = False .MatchAllWordForms = False End With Selection.Find.Execute Replace:=wdReplaceAll Selection.Find.ClearFormatting Selection.Find.Replacement.ClearFormatting With Selection.Find .Text = """^p" .Replacement.Text = "^p" .Forward = True .Wrap = wdFindAsk .Format = False .MatchCase = False .MatchWholeWord = False .MatchKashida = False .MatchDiacritics = False .MatchAlefHamza = False .MatchControl = False .MatchWildcards = False .MatchSoundsLike = False .MatchAllWordForms = False End With Selection.Find.Execute Replace:=wdReplaceAll End Sub
יצא לך תוצאה כזו
ומכאן תוכחה מגולה לכל הרועים בשדות זרים, תוכנות זרות ומוזרות שלא שיערום אבותינו REGEX וכו' , ועוזבים את המסרות המסורה לנו מדור דור, להשתמש בוורד לדברים פשוטים
-
@menajemmendel תודה, זה עבד.
רק עם בעיה קטנה אחת.
איפה שהיה גרשיים בטקסט (בדרך כלל במילה הרמב"ם). זה מחק אותם ואת כל מה שאחריהם.
וזה מה שאמרתי, שגירשיים בתוך הטקסט אני רוצה לשמור.
הדרך להבדיל היא, שאחרי גרשיים מהסוג שאני רוצה לשמור תמיד יופיע עוד תו, ואחרי אלו שאני רוצה למחוק אותם ואת מה שאחריהם, יופיע אנטר או רווח ואחריו אנטר. -
@menajemmendel כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@מישהו12
תיקנתי תנסה עכשיועכשיו זה שומר את כל הגרשיים
-
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@menajemmendel כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@מישהו12
תיקנתי תנסה עכשיועכשיו זה שומר את כל הגרשיים
זה עדיין עובד, יש לך עניין דווקא בדרך החלפה. או בתוצאה?
https://mitmachim.top/post/757976 -
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@menajemmendel כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@מישהו12
תיקנתי תנסה עכשיועכשיו זה שומר את כל הגרשיים
אז עכשיו אתה יכול לעשות החלפה של כל הרגשיים שיש לפניהם או אחריהם רווח -ברווח לבד, ואז כל הרגשיים שבתוך מילה ישארו
-
@ישראל-142 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
כל הרגשיים שיש לפניהם או אחריהם רווח -ברווח לבד
אם הייתי יודע איך לעשות החלפה של " שיש אחריהם אנטר, הנושא מתחילתו לא היה נפתח... זו בדיוק השאלה.
-
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
אם הייתי יודע איך לעשות החלפה של " שיש אחריהם אנטר, הנושא מתחילתו לא היה נפתח... זו בדיוק השאלה.
אתה יודע להשתמש בחפש והחלף?
CTRL +H
ותכתוב שם "^13
הסבר: ^13 הוא אנטר
-
-
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@MGM-IVR אפשר את זה כסקריפט אחד שירוץ על קובץ בשם file.txt?
import json file = open('file.txt', 'r').read() data = json.loads(file) alltext = "" for i in data: alltext += i["text"] + "\n" open("output.txt", "w").write(alltext)
הקובץ צריך להיות במבנה json כמובן
למשל[ { "timestamp":[3249, 2455], "text" : "המחשבה בדבר" }, { "timestamp":[3269, 1455], "text" : "המחשבה האמיתית" }, { "timestamp":[234, 24423342555], "text" : "היא מחתימה את הכל " }, { "timestamp":[3249, 2455], "text" : "עבור מישהו12 " } ]
-
python script.py Traceback (most recent call last): File "C:\Users\*****\Desktop\מסמכים אישיים\*******\New folder\script.py", line 3, in <module> file = open('file.txt', 'r').read() ^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Users\*****\AppData\Local\Programs\Python\Python311\Lib\encodings\cp1255.py", line 23, in decode return codecs.charmap_decode(input,self.errors,decoding_table)[0] ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ UnicodeDecodeError: 'charmap' codec can't decode byte 0x9e in position 59: character maps to <undefined>
-
ChatGPT סיפק את התשובה אחרי הרבה ניסיונות
def clean_text(input_text): hebrew_sentences = [] # קרא את הקובץ ונקה את המשפטים העבריים with open("input_file.txt", "r", encoding="utf-8") as file: for line in file: if '"text": "' in line: sentence = line.split('"text": "')[1].rstrip('\n').rstrip('"') hebrew_sentences.append(sentence) # החזר כל משפט בשורה נפרדת cleaned_text = "\n".join(hebrew_sentences) return cleaned_text # קרא את קובץ הטקסט וקרא את המשפטים cleaned_text = clean_text("input_file.txt") print(cleaned_text) # אם ברצונך לשמור את הטקסט הנקי בקובץ חדש with open("output_file.txt", "w", encoding="utf-8") as file: file.write(cleaned_text)
https://chat.openai.com/share/3bc11429-df51-4046-b937-a98fc225c1b7