בירור | ניקוי קובץ טקסט מתווים מיותרים
-
ChatGPT סיפק את התשובה אחרי הרבה ניסיונות
def clean_text(input_text): hebrew_sentences = [] # קרא את הקובץ ונקה את המשפטים העבריים with open("input_file.txt", "r", encoding="utf-8") as file: for line in file: if '"text": "' in line: sentence = line.split('"text": "')[1].rstrip('\n').rstrip('"') hebrew_sentences.append(sentence) # החזר כל משפט בשורה נפרדת cleaned_text = "\n".join(hebrew_sentences) return cleaned_text # קרא את קובץ הטקסט וקרא את המשפטים cleaned_text = clean_text("input_file.txt") print(cleaned_text) # אם ברצונך לשמור את הטקסט הנקי בקובץ חדש with open("output_file.txt", "w", encoding="utf-8") as file: file.write(cleaned_text)
https://chat.openai.com/share/3bc11429-df51-4046-b937-a98fc225c1b7
-
יש לי קובץ טקסט שנראה ככה
אני מעוניין שישארו רק המשפטים בעברית, בלי כל הסימנים, הכיתוב באנגלית וכדו'.
חפש והחלף לא עוזר לי כי אפשר לחפש\למחוק שם ירידות שורה (אנטרים).תודה!
-
@ישראל-142 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
אני הייתי עושה חיפוש והחלפה
תודה, אבל כתבתי
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
חפש והחלף לא עוזר לי כי אפשר לחפש\למחוק שם ירידות שורה (אנטרים).
-
@ישראל-142 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
אני הייתי עושה חיפוש והחלפה
תודה, אבל כתבתי
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
חפש והחלף לא עוזר לי כי אפשר לחפש\למחוק שם ירידות שורה (אנטרים).
-
@מישהו12 צודק, באמת לא שמתי לב שכתבת את זה.
אבל אם אתה מסמן את הקטע הזה ומעתיק לשורות ההחלפה ומחליף לכלום זה לא עוזר?
(גם בוורד וגם בפנקס רשימות)
@ישראל-142 לא עוזר. ברור שניסיתי...
@Whenever כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
Regex
אפשר הסבר יותר מפורט? תודה
-
יש לי קובץ טקסט שנראה ככה
אני מעוניין שישארו רק המשפטים בעברית, בלי כל הסימנים, הכיתוב באנגלית וכדו'.
חפש והחלף לא עוזר לי כי אפשר לחפש\למחוק שם ירידות שורה (אנטרים).תודה!
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
חפש והחלף לא עוזר לי
לוורד יש חיפוש והחלפה מאד משוכלל
-
@ישראל-142 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
אני הייתי עושה חיפוש והחלפה
תודה, אבל כתבתי
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
חפש והחלף לא עוזר לי כי אפשר לחפש\למחוק שם ירידות שורה (אנטרים).
@מישהו12 אחרי שעושים את כל ההחלפות
בוורד אפשר לעשות את ההחלפה הבאה (ב"החלף הכל")
זה מסיר את השורות הריקותלפעמים צריך לעשות את זה כמה פעמים, או מ-^p^p^p ל-p^ תלוי כמה שורות ריקות רוצים למחוק ברצף, (בדוגמה שבתמונה זה לשורה אחת ריקה בין טקסט לטקסט)
^p^p
-
@מישהו12 אחרי שעושים את כל ההחלפות
בוורד אפשר לעשות את ההחלפה הבאה (ב"החלף הכל")
זה מסיר את השורות הריקותלפעמים צריך לעשות את זה כמה פעמים, או מ-^p^p^p ל-p^ תלוי כמה שורות ריקות רוצים למחוק ברצף, (בדוגמה שבתמונה זה לשורה אחת ריקה בין טקסט לטקסט)
^p^p
-
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
חפש והחלף לא עוזר לי
לוורד יש חיפוש והחלפה מאד משוכלל
@משחזר-מידע כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
חפש והחלף לא עוזר לי
לוורד יש חיפוש והחלפה מאד משוכלל
אתה יודע לעזור לי בשאלה הנוכחית?
כי אני לא הצלחתי דרכו... (ולא שאני מבין בו יותר מידי) -
@ישראל-142 תודה, אבל זה לא עוזר לי.
כי חלק מה " אני רוצה לשמור, אבל זה כאלו שאין אחריהם\לפניהם אנטר. אז האנטר בעצם מהווה סימן זיהוי@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
כי חלק מה " אני רוצה לשמור
במקרה כזה הייתי מחליף קודם את ה" עם משהו יחודי כמו 123אבג
ולאחר מכן מוריד את כל האנטרים
ולאחר מכן... -
@משחזר-מידע כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
חפש והחלף לא עוזר לי
לוורד יש חיפוש והחלפה מאד משוכלל
אתה יודע לעזור לי בשאלה הנוכחית?
כי אני לא הצלחתי דרכו... (ולא שאני מבין בו יותר מידי)@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
אתה יודע לעזור לי בשאלה הנוכחית?
אם אני מבין נכון
כל שורה שיש בה טקסט בעברית (שאת זה בלבד אתה רוצה להשאיר)
מתחיל עם "text":
מה שהייתי עושה מחפש כל מה שלא מתחיל עם הנל עד סוף שורה ומחליף עם כלום -
@משחזר-מידע כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
חפש והחלף לא עוזר לי
לוורד יש חיפוש והחלפה מאד משוכלל
אתה יודע לעזור לי בשאלה הנוכחית?
כי אני לא הצלחתי דרכו... (ולא שאני מבין בו יותר מידי)@מישהו12 יש אתר מטורף של עריכת טקסטים אונליין עם כלים מדהימים שאפשר לעשות שם הכל.
https://onlinetexttools.com/במקרה שלך אתה צריך את הכלי הבא:
https://onlinetexttools.com/remove-symbols-from-around-wordsכמה דוגמאות של אופציות שונות:
אבל עדיין אני רואה שזה לא מספיק כי אתה צריך להסיר גם את המילים וזה מסיר רק סמלים אז אחרי הכלי הזה אולי צריך כלי נוסף כמו זה:
https://onlinetexttools.com/remove-words-from-textהייתי שמח לקבל העתק אפילו חלק ממנו של המסמך שאתה רוצה לערוך ואז אני יבדוק מה הכי טוב לעשות עם זה
-
יש לי קובץ טקסט שנראה ככה
אני מעוניין שישארו רק המשפטים בעברית, בלי כל הסימנים, הכיתוב באנגלית וכדו'.
חפש והחלף לא עוזר לי כי אפשר לחפש\למחוק שם ירידות שורה (אנטרים).תודה!
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
יש לי קובץ טקסט שנראה ככה
אני מעוניין שישארו רק המשפטים בעברית, בלי כל הסימנים, הכיתוב באנגלית וכדו'.
חפש והחלף לא עוזר לי כי אפשר לחפש\למחוק שם ירידות שורה (אנטרים).תודה!
לא הבנתי מה הבעיה, תעשה חיפוש בוורד החל מה { עד text ותמחוק אותו
-
יש לי קובץ טקסט שנראה ככה
אני מעוניין שישארו רק המשפטים בעברית, בלי כל הסימנים, הכיתוב באנגלית וכדו'.
חפש והחלף לא עוזר לי כי אפשר לחפש\למחוק שם ירידות שורה (אנטרים).תודה!
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
יש לי קובץ טקסט שנראה ככה
אני מעוניין שישארו רק המשפטים בעברית, בלי כל הסימנים, הכיתוב באנגלית וכדו'.
חפש והחלף לא עוזר לי כי אפשר לחפש\למחוק שם ירידות שורה (אנטרים).תודה!
למה לא להריץ איזה סקריפט פייתון קצר,
סוג של כזה דבראפשרי להריץ אונליין גם למשל באתר הבא https://www.programiz.com/python-programming/online-compiler/
data = [ { "timestamp":[3249, 2455], "text" : "המחשבה בדבר" }, { "timestamp":[3269, 1455], "text" : "המחשבה האמיתית" }, { "timestamp":[234, 24423342555], "text" : "היא מחתימה את הכל " }, { "timestamp":[3249, 2455], "text" : "עבור מישהו12 " } ]
ואז
alltext = "" for i in data: alltext += i["text"] + " " print(alltext)
בשביל לחבר בין משפט למשפט ברווח
או
alltext = "" for i in data: alltext += i["text"] + "\n" print(alltext)
כדי לחבר בינהם בשורה חדשה
כמובן שלא חייבים להדפיס את התוצאה, אפשרי גם לכתוב אתה לקובץ (זה לא ניתן באתר הנ״ל לכאורה)
open("text.txt", "w").write(alltext)
-
יש לי קובץ טקסט שנראה ככה
אני מעוניין שישארו רק המשפטים בעברית, בלי כל הסימנים, הכיתוב באנגלית וכדו'.
חפש והחלף לא עוזר לי כי אפשר לחפש\למחוק שם ירידות שורה (אנטרים).תודה!
-
@משחזר-מידע כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
חפש והחלף לא עוזר לי
לוורד יש חיפוש והחלפה מאד משוכלל
אתה יודע לעזור לי בשאלה הנוכחית?
כי אני לא הצלחתי דרכו... (ולא שאני מבין בו יותר מידי)@מישהו12
@pcinfogmach כתב מדריך מפורט לחיפוש והחלפה מקצועיים בוורד, וכן אוסף קודים לחיפוש והחלפה, שם תוכל למצוא בקלות כיצד לעשות את מה ש @menajemmendel הציע לך.
@menajemmendel לא כולם יודעים את מה שאתה יודע, זה מאוד יעזור לו אם תכתוב את הנוסחה!@מישהו12 אם תעלה קובץ דוגמא, יהיה לכולם דרך הרבה יותר קלה לעזור לך - פשוט לנסות על הדוגמא ולראות האם זה באמת פועל.
-
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
כי חלק מה " אני רוצה לשמור
במקרה כזה הייתי מחליף קודם את ה" עם משהו יחודי כמו 123אבג
ולאחר מכן מוריד את כל האנטרים
ולאחר מכן...@משחזר-מידע כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
כי חלק מה " אני רוצה לשמור
במקרה כזה הייתי מחליף קודם את ה" עם משהו יחודי כמו 123אבג
ולאחר מכן מוריד את כל האנטרים
ולאחר מכן...לא הבנתי. (זה קובץ ארוך, ויש מעט מאוד " בתוכו שאני רוצה לשמור) איך זה יעזור
-
@מישהו12 זה לא נראה סתם "קובץ טקסט", זה נראה קובץ JSON
וכנראה שזה מערך אובייקטים (חבל שלא העלית דוגמה ממשית), אז משהו כזהJSON.parse(`...json file content...`).map(obj => obj.text.replace(/[^א-ת ]/g).trim()).join('\n')
-
@מישהו12
@pcinfogmach כתב מדריך מפורט לחיפוש והחלפה מקצועיים בוורד, וכן אוסף קודים לחיפוש והחלפה, שם תוכל למצוא בקלות כיצד לעשות את מה ש @menajemmendel הציע לך.
@menajemmendel לא כולם יודעים את מה שאתה יודע, זה מאוד יעזור לו אם תכתוב את הנוסחה!@מישהו12 אם תעלה קובץ דוגמא, יהיה לכולם דרך הרבה יותר קלה לעזור לך - פשוט לנסות על הדוגמא ולראות האם זה באמת פועל.
@דאנציג לא הסברתי איך עושים את זה, כי סמכתי ש @מישהו12 מבין הרבה מאד במחשבים [כך מוכח מהרבה פוסטים שלו, נראה לי שהוא מתכנת]
כדי לחפש מ{ עד המילה text
בחפש והחלף (CTRL+H) חפש:
{*text
ותסמן תווים כללים,
אם אתה רוצה שיתפוס גם את המרכאות והנקודותיים והרוווח שהחרי TEXT אז תכתוב בחיפוש
{*text":
ועל זה הדרךהסבר: תאויים כללים עושה שיוכל לחפש קודים
הכוכבית * אומר תחפש מX לY
לפי זה בעיקרון הייתה צריך לכתוב רק {*text אבל מכיון שה{ הוא קוד, צריך לעשות לפניו בקסלש \ כדי שהמחשב יבין שזה לא קוד (כמו בפייטון כשרוצים ש" יהיו סטרינג)