בירור | ניקוי קובץ טקסט מתווים מיותרים
-
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
אתה יודע לעזור לי בשאלה הנוכחית?
אם אני מבין נכון
כל שורה שיש בה טקסט בעברית (שאת זה בלבד אתה רוצה להשאיר)
מתחיל עם "text":
מה שהייתי עושה מחפש כל מה שלא מתחיל עם הנל עד סוף שורה ומחליף עם כלום -
@מישהו12 יש אתר מטורף של עריכת טקסטים אונליין עם כלים מדהימים שאפשר לעשות שם הכל.
https://onlinetexttools.com/במקרה שלך אתה צריך את הכלי הבא:
https://onlinetexttools.com/remove-symbols-from-around-wordsכמה דוגמאות של אופציות שונות:
אבל עדיין אני רואה שזה לא מספיק כי אתה צריך להסיר גם את המילים וזה מסיר רק סמלים אז אחרי הכלי הזה אולי צריך כלי נוסף כמו זה:
https://onlinetexttools.com/remove-words-from-textהייתי שמח לקבל העתק אפילו חלק ממנו של המסמך שאתה רוצה לערוך ואז אני יבדוק מה הכי טוב לעשות עם זה
-
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
יש לי קובץ טקסט שנראה ככה
אני מעוניין שישארו רק המשפטים בעברית, בלי כל הסימנים, הכיתוב באנגלית וכדו'.
חפש והחלף לא עוזר לי כי אפשר לחפש\למחוק שם ירידות שורה (אנטרים).תודה!
לא הבנתי מה הבעיה, תעשה חיפוש בוורד החל מה { עד text ותמחוק אותו
-
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
יש לי קובץ טקסט שנראה ככה
אני מעוניין שישארו רק המשפטים בעברית, בלי כל הסימנים, הכיתוב באנגלית וכדו'.
חפש והחלף לא עוזר לי כי אפשר לחפש\למחוק שם ירידות שורה (אנטרים).תודה!
למה לא להריץ איזה סקריפט פייתון קצר,
סוג של כזה דבראפשרי להריץ אונליין גם למשל באתר הבא https://www.programiz.com/python-programming/online-compiler/
data = [ { "timestamp":[3249, 2455], "text" : "המחשבה בדבר" }, { "timestamp":[3269, 1455], "text" : "המחשבה האמיתית" }, { "timestamp":[234, 24423342555], "text" : "היא מחתימה את הכל " }, { "timestamp":[3249, 2455], "text" : "עבור מישהו12 " } ]
ואז
alltext = "" for i in data: alltext += i["text"] + " " print(alltext)
בשביל לחבר בין משפט למשפט ברווח
או
alltext = "" for i in data: alltext += i["text"] + "\n" print(alltext)
כדי לחבר בינהם בשורה חדשה
כמובן שלא חייבים להדפיס את התוצאה, אפשרי גם לכתוב אתה לקובץ (זה לא ניתן באתר הנ״ל לכאורה)
open("text.txt", "w").write(alltext)
-
-
@מישהו12
@pcinfogmach כתב מדריך מפורט לחיפוש והחלפה מקצועיים בוורד, וכן אוסף קודים לחיפוש והחלפה, שם תוכל למצוא בקלות כיצד לעשות את מה ש @menajemmendel הציע לך.
@menajemmendel לא כולם יודעים את מה שאתה יודע, זה מאוד יעזור לו אם תכתוב את הנוסחה!@מישהו12 אם תעלה קובץ דוגמא, יהיה לכולם דרך הרבה יותר קלה לעזור לך - פשוט לנסות על הדוגמא ולראות האם זה באמת פועל.
-
@משחזר-מידע כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
כי חלק מה " אני רוצה לשמור
במקרה כזה הייתי מחליף קודם את ה" עם משהו יחודי כמו 123אבג
ולאחר מכן מוריד את כל האנטרים
ולאחר מכן...לא הבנתי. (זה קובץ ארוך, ויש מעט מאוד " בתוכו שאני רוצה לשמור) איך זה יעזור
-
@דאנציג לא הסברתי איך עושים את זה, כי סמכתי ש @מישהו12 מבין הרבה מאד במחשבים [כך מוכח מהרבה פוסטים שלו, נראה לי שהוא מתכנת]
כדי לחפש מ{ עד המילה text
בחפש והחלף (CTRL+H) חפש:
{*text
ותסמן תווים כללים,
אם אתה רוצה שיתפוס גם את המרכאות והנקודותיים והרוווח שהחרי TEXT אז תכתוב בחיפוש
{*text":
ועל זה הדרךהסבר: תאויים כללים עושה שיוכל לחפש קודים
הכוכבית * אומר תחפש מX לY
לפי זה בעיקרון הייתה צריך לכתוב רק {*text אבל מכיון שה{ הוא קוד, צריך לעשות לפניו בקסלש \ כדי שהמחשב יבין שזה לא קוד (כמו בפייטון כשרוצים ש" יהיו סטרינג) -
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
ויש מעט מאוד " בתוכו שאני רוצה לשמור
אם רק חלקי תרצה לשמור אין אפשרות לעשות זאת אוטומט
מנין המחשב ידע איזה תרצה לשמור ואיזה לא -
@menajemmendel באופן כללי, אתה יכול לעבוד באופן הופך,
[ככה אני עושה]
לחפש איזה מזהה בתוך מה שאתה רוצה במקרה שלנו יהיה מ TEXT": עד המרכאות הבאות
והחלף להגיד שיהיו בולד (לעמוד שם ולעשות CTRL+B
ואחרי זה למחוק את כל הלא בולד
ועל זה הדרך -
@משחזר-מידע כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
ויש מעט מאוד " בתוכו שאני רוצה לשמור
אם רק חלקי תרצה לשמור אין אפשרות לעשות זאת אוטומט
מנין המחשב ידע איזה תרצה לשמור ואיזה לא@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
אבל זה כאלו שאין אחריהם\לפניהם אנטר. אז האנטר בעצם מהווה סימן זיהוי
-
@דאנציג כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@מקצועי_ כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
פה תדביק את תוכן הקובץ ותקבל פלט נקי מתווים אחרים אבל עם הרבה רווחים.
זה לא יעזור לר"ת...
או לאותיו' עם גרש וכדו'...מלכתחילה @מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
אני מעוניין שישארו רק המשפטים בעברית, בלי כל הסימנים, הכיתוב באנגלית וכדו'.
כל הסימנים פירושו הכל כולל הכל.
אפשר כמובן להחריג תווים נוספים, רק צריך את הרשימה המדויקת איזה תווים להשאיר מלבד תווים עבריים
-
@מקצועי_ כאמור בהמשך
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
כי חלק מה " אני רוצה לשמור, אבל זה כאלו שאין אחריהם\לפניהם אנטר. אז האנטר בעצם מהווה סימן זיהוי
בכל מקרה, בהמשך אעלה דוגמא מהקובץ ונראה לי שזה יהיה יותר יעיל, תודה לכל המסייעים
-
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
@מקצועי_ כאמור בהמשך
@מישהו12 כתב בבירור | ניקוי קובץ טקסט מתווים מיותרים:
כי חלק מה " אני רוצה לשמור, אבל זה כאלו שאין אחריהם\לפניהם אנטר. אז האנטר בעצם מהווה סימן זיהוי
בכל מקרה, בהמשך אעלה דוגמא מהקובץ ונראה לי שזה יהיה יותר יעיל, תודה לכל המסייעים
לא צריך שום דוגמה, רק תרשום בדיוק איזה תווים אתה רוצה להשאיר ואתקן את הרגקס בהתאם.
-
@מישהו12 >
תעתיק הכל לוורד
ותריץ את הפקודת מאקרו הזו (אני מאמין שמתכנת דגול כמוך יסתדר עם פקודת מאקרו פשוטה)
כדי לפתוח VBA תלחץ בוורד על ALT F11Sub Macro9() Selection.Find.ClearFormatting Selection.Find.Replacement.ClearFormatting Selection.Find.Replacement.font.Bold = True With Selection.Find .Text = """text"": ""*""^13" .Replacement.Text = "" .Forward = True .Wrap = wdFindContinue .Format = True .MatchCase = False .MatchWholeWord = False .MatchKashida = False .MatchDiacritics = False .MatchAlefHamza = False .MatchControl = False .MatchAllWordForms = False .MatchSoundsLike = False .MatchWildcards = True End With Selection.Find.Execute Replace:=wdReplaceAll Selection.Find.ClearFormatting Selection.Find.font.Bold = False Selection.Find.Replacement.ClearFormatting With Selection.Find .Text = "" .Replacement.Text = "^p" .Forward = True .Wrap = wdFindContinue .Format = True .MatchCase = False .MatchWholeWord = False .MatchKashida = False .MatchDiacritics = False .MatchAlefHamza = False .MatchControl = False .MatchWildcards = False .MatchSoundsLike = False .MatchAllWordForms = False End With Selection.Find.Execute Replace:=wdReplaceAll Selection.Find.ClearFormatting Selection.Find.Replacement.ClearFormatting With Selection.Find .Text = """text"": """ .Replacement.Text = "" .Forward = True .Wrap = wdFindAsk .Format = False .MatchCase = False .MatchWholeWord = False .MatchKashida = False .MatchDiacritics = False .MatchAlefHamza = False .MatchControl = False .MatchWildcards = False .MatchSoundsLike = False .MatchAllWordForms = False End With Selection.Find.Execute Replace:=wdReplaceAll Selection.Find.ClearFormatting Selection.Find.Replacement.ClearFormatting With Selection.Find .Text = """^p" .Replacement.Text = "^p" .Forward = True .Wrap = wdFindAsk .Format = False .MatchCase = False .MatchWholeWord = False .MatchKashida = False .MatchDiacritics = False .MatchAlefHamza = False .MatchControl = False .MatchWildcards = False .MatchSoundsLike = False .MatchAllWordForms = False End With Selection.Find.Execute Replace:=wdReplaceAll End Sub
יצא לך תוצאה כזו
ומכאן תוכחה מגולה לכל הרועים בשדות זרים, תוכנות זרות ומוזרות שלא שיערום אבותינו REGEX וכו' , ועוזבים את המסרות המסורה לנו מדור דור, להשתמש בוורד לדברים פשוטים
-
@menajemmendel תודה, זה עבד.
רק עם בעיה קטנה אחת.
איפה שהיה גרשיים בטקסט (בדרך כלל במילה הרמב"ם). זה מחק אותם ואת כל מה שאחריהם.
וזה מה שאמרתי, שגירשיים בתוך הטקסט אני רוצה לשמור.
הדרך להבדיל היא, שאחרי גרשיים מהסוג שאני רוצה לשמור תמיד יופיע עוד תו, ואחרי אלו שאני רוצה למחוק אותם ואת מה שאחריהם, יופיע אנטר או רווח ואחריו אנטר.