להורדה | תוכנה לתמלול הקלטות/סרטונים בעברית! לטקסט בחינם על המחשב באופליין
-
@מישהו12 @כבוד-הרב @י-פל @A0533057932 @צדיק-תמים @כולם
הריני מתכבד להודיעכם
כי לאחר עבודה רבה ויסודית
ולאחר שהשוויתי את התוצאות של התמלול בפלטפורמות השונות הקיימות,
אפרט את היעילות:1] בהקלטה ברורה וחדה, ושהדובר מדבר בה בעברית רהוטה צחה ותקנית עם מבטא עברי ובלי שגיאות וכו' וכו',
במקרה כזה אין הבדל ביניהם, וכולם מצליחים לזהות כמעט 100% מהמילים כולל פסיקים וסימני שאלה וכו',2] בהקלטה שהדובר לא ברור, מבליע מילים מדבר מהר, במבטא עמום, יש סביבו רעשי רקע, חסר חיתוך אותיות, קול מונטוני אחיד או הגייה לא אחידה ומעורבלת, גם במקרה כזה אין הבדל ביניהם, וכולם ממציאים, או לא מצליחים בכמעט 100% מהמילים.
3] מתי ההבדל? כמובן בהקלטות סטנדרטיות, שהם משהו באמצע, אני בחרתי להתמקד בבדיקת והשוואת התמלול בהקלטות תורניות ובהגייה ליטאית, אך כשהדיבור יחסית ברור, וכמובן בלי רעשי רקע רבים, השוויתי אותם בהקלטה של 25 דקות לפחות,
ההשוואה היתה ב4 פלטפורמות חלקם מהמובילות והמפורסמות ביותר,1] זיהוי דיבור של גוגל,
2] זיהוי דיבור של מייקרוסופט
3] התוכנה הנוכחית,
4] אתר חינמי מוגבל.האתר הרביעי אכזב מיד, הוא מרבה מאד בהמצאות ומכניס לך המון משפטים לתוך הפה, נראה שהוא בנוי על מילון של משפטים והוא מנסה להבין איזה מתוכם הכי הגיוני שאמרת.......
גוגל ממול מייקרוסופוט - ההשוואה קצת קשה, בסוף יש נטיה מסוימת למייקרוסופט שמדייקת יותר פעמים,
מה שהכריע לבסוף את הכף... שגוגל זה חינמי רק בהתחלה [בAPI] אבל מייקרוסופוט זה לכל חודש 5 שעות חינם.... לשימוש רגיל זה לפעמים מספיק..... וזה וודאי לא פחות מגוגל, בכל אופן לא משהו שרואים, אם כבר זה רק יותר,התוכנה הזאת ממול מייקרוסופוט - התלבטתי מאד הרבה זמן, כי בדרך כלל התוצאה זהה.... היו פה ושם מילים שאחד מהם יותר קלט, בדרך כלל מייקרוספוט יותר מדייקים בכל הקשור למילים תקניות, כנראה יש להם זיהוי רחב ועמוק מובנה מילון ועל פי ניקוד! [למשל כשאמרתי "מטה" [של מרע"ה] הוא לא חשב שאמרתי "מתה" כי זה לא תקני בניקוד הזה, אבל התוכנה הזאת לא חישבנה את זה, וחשבה שאמרתי "מתה" בסגו"ל...] , לעומת זה כשהדיבור לא היה מספיק חד וברור, או כשהיה הגייה למדנית וכדומה שאין לשום תוכנה, בזה לפעמים דווקא התוכנה הנוכחית דייקה יותר ממיקרוסופוט!! כנראה היא יותר 'מתאמצת' לדייק לפענח לפי הצלילים ולא רק לפי מילים קלאסיות שהיא מכירה....]
ולכן הרבה זמן בדקתי וניסיתי את ההבדלים בטקסט רב,
ואני חייב לומר שלמעשה שתיהם מזהים מאד יפה! אפילו שזה לא בהגייה עברית תקינה... כולל פסיק, אתנחתא, וסימן שאלה, [,.?]
ואפשר בעבודה פשוטה יחסית לעבור על הכל ולתקן,
בסופו של דבר כמובן יש מעלה במייקרוספוט שהשרתים שלה המפלצתיים מפענחים בזמן קצר יחסית,
מצד שני כאן זה חינמי... וגם יוצא מחולק יפה לפי שניות,
בסופו של יום ולאחר השוואות רבות, מסקנתי היא כך: אם המילים של הדובר ברורות חדות, עם הפסקות נורמליות ביניהם- וההגייה שלו היא כעברית תקינה- מייקרוספוט היא הטובה ביותר! כיון שכל מילה מפוענחת בהתאם לאפשרויות התקניות בלבד, [וכמו שהבאתי דוגמא 'מטה' היא לא תטעה שאמרת 'מתה' כי זה ניקוד אחר], אבל בכל הקלטה שהדובר לא הכי ברור, או בהגייה למדנית וכדומה- בזה עדיף התוכנה שלנו כי היא מדייקת לפי הצלילים גם אם זה לא מדאי הגיוני בשבילה, והיא לא מבינה מה אמרת, למשל כשאמרתי "אברה-קדברה" רק התוכנה זיהתה נכון.... כנ"ל בהרבה מילים למשל "חפצא של אנשים", כי מייקרוסופוט מעדיפה לשפר את המילה לפי מילון הגיוני יותר, ובסופו של דבר לדעתי יש בהחלט נטייה לטובת התוכנה שלנו!!!! [גם כי זה יוצא יותר מובן לקורא, וגם כי למעשה מדייק יותר פעמים]
[רק צריך מחשב חזק, הכי טוב לפחות G16 RAM]בעז"ה נקווה שהתוכנה תתאמן גם על קולות תורניים, ובכל ההגיות,
ואסיים בתודה לכל מי שעזר עד כה וסייע בדברים
זה דבר חשוב ותועלתי ועד היום נכתבו עשרות[!] שרשורים מלאי פוסטים רק בחיפוש אחר תוכנה כזאת.......@KINGYOS האם עכשיו תוכל להעלות זאת לשרת בצורה מסודרת? תראה ש-@אלישי רצה את זה כבר כאן.
נ"ב: דוגמא נחמדה שהביאו פה פעם ממייקרוסופט [מזיהוי דיבור בוורד]....
@אלף-שין תיכף מעלה תוכנה + מדריך לתוכנה אחרת.
גם היא לתמלול אופליין, והבשורה לכל אלו שהסתבכו עם הקיצורים השונים.
ובפרט לאלו שיש להם כרטיס nvidia ולעת עתה לא נמצא פתרון מתאים. וכו' וכו'..
התוכנה שאני משתף עוד מעט היא עם ממשק גרפי פשוט וקל להפעלה, ללא צורך בעריכת קבצי באט וכדומה.יהיה לך עוד עבודה של השוואה.. מול התוכנה שגיליתי,
שגם היא משתמשת במודל מודל Whisper large-v2
עריכה:
עלה בעז"ה ובס"ד!!
-
@אלף-שין תיכף מעלה תוכנה + מדריך לתוכנה אחרת.
גם היא לתמלול אופליין, והבשורה לכל אלו שהסתבכו עם הקיצורים השונים.
ובפרט לאלו שיש להם כרטיס nvidia ולעת עתה לא נמצא פתרון מתאים. וכו' וכו'..
התוכנה שאני משתף עוד מעט היא עם ממשק גרפי פשוט וקל להפעלה, ללא צורך בעריכת קבצי באט וכדומה.יהיה לך עוד עבודה של השוואה.. מול התוכנה שגיליתי,
שגם היא משתמשת במודל מודל Whisper large-v2
עריכה:
עלה בעז"ה ובס"ד!!
-
@תודה-לבורא-עולם האמת שנתקלתי בתוכנה הזו (Buzz) ואף מצאתי אחת נוחה אפילו יותר (בעיני).
הבעיה - בשתיהן לא מצאתי איפה ממקמים ידנית את קובץ המודל, וההורדה לא עבדה לי (נטפרי)@מישהו12 אני יכתוב עוד מעט איפה מעבירים את קובץ המודול.
אחרי שאני יעלה את זה לדרייב. -
@מישהו12 אני יכתוב עוד מעט איפה מעבירים את קובץ המודול.
אחרי שאני יעלה את זה לדרייב. -
@תודה-לבורא-עולם הקובץ כבר קיים בדרייב, במדריך של הסקריפט שלי
@מישהו12 המודול לתוכנה שהעליתי משתמש בפורמט אחר.
לכן זה לא מתאים.עריכה:
הקובץ בתוכנה כאן זה עם סיומת bin ובתוכנה שהבאתי זה עם סיומת pt -
@אלף-שין תיכף מעלה תוכנה + מדריך לתוכנה אחרת.
גם היא לתמלול אופליין, והבשורה לכל אלו שהסתבכו עם הקיצורים השונים.
ובפרט לאלו שיש להם כרטיס nvidia ולעת עתה לא נמצא פתרון מתאים. וכו' וכו'..
התוכנה שאני משתף עוד מעט היא עם ממשק גרפי פשוט וקל להפעלה, ללא צורך בעריכת קבצי באט וכדומה.יהיה לך עוד עבודה של השוואה.. מול התוכנה שגיליתי,
שגם היא משתמשת במודל מודל Whisper large-v2
עריכה:
עלה בעז"ה ובס"ד!!
פוסט זה נמחק! -
פוסט זה נמחק!
פוסט זה נמחק! -
פוסט זה נמחק!
פוסט זה נמחק! -
פוסט זה נמחק!
פוסט זה נמחק! -
@כבוד-הרב באיזה פרמטר השתמשת כדי להוריד את חותמות הזמן כי אני משתמש ב
--without_timestamps
וזה נותן לי שגיאה
Error: --without_timestamps and --word_timestamps doesn't work together.
הפקודה המלאה היא
whisper-faster.exe --task transcribe --language he --output_format txt --without_timestamps audio1.mp3
אשמח אם תוכל לעזור
-
@מישהו12 כתב במדריך | תמלול הקלטות/סרטונים בעברית! לטקסט בחינם על המחשב באופליין:
חסר לו רכיב בשם CUDA להרצת התוכנה הזו על GPU.
לא!
התקנתי את הרכיב הזה!
ובצילו"מ רואים במפורש שהוא עובד על CUDA!
[איפה שלכולם כתוב: ON CPU, אצלי כתוב ON CUDA].@י-פל כתב במדריך | תמלול הקלטות/סרטונים בעברית! לטקסט בחינם על המחשב באופליין:
התקנתי את הרכיב הזה!
ובצילו"מ רואים במפורש שהוא עובד על CUDA!
[איפה שלכולם כתוב: ON CPU, אצלי כתוב ON CUDA].יכול ליהיות אבל זה לא ראיה, כי גם מתי שהוא רק מנסה אבל לא מצליח להשתמש ב-GPU, אז כתוב ON CUDA
ועדיין רשום שהוא לא מצליח לטעון קובץ של dll של Nvidia
-
@י-פל כתב במדריך | תמלול הקלטות/סרטונים בעברית! לטקסט בחינם על המחשב באופליין:
התקנתי את הרכיב הזה!
ובצילו"מ רואים במפורש שהוא עובד על CUDA!
[איפה שלכולם כתוב: ON CPU, אצלי כתוב ON CUDA].יכול ליהיות אבל זה לא ראיה, כי גם מתי שהוא רק מנסה אבל לא מצליח להשתמש ב-GPU, אז כתוב ON CUDA
ועדיין רשום שהוא לא מצליח לטעון קובץ של dll של Nvidia
@ישראל-142 בעיה קטנה, עניתי לך בפרטי.
-
טוב.
העכבר הגיע...
וזה באמת רץ על GPU, אחרי התקנת התוכנה [גם רואים את הGPU קופץ לרגע], אבל:
למישהו יש פתרון? -
@י-פל כתב במדריך | תמלול הקלטות/סרטונים בעברית! לטקסט בחינם על המחשב באופליין:
העכבר הגיע...
וזה באמת רץ על GPU, אחרי התקנת התוכנה [גם רואים את הGPU קופץ לרגע], אבל:למישהו יש פתרון?
אולי תגיד לי מה עשית ואני ינסה גם לבדוק אצלי
@ישראל-142
התקנתי CUDA. זה הכל. -
@ישראל-142 @תודה-לבורא-עולם הוספתי במדריך מה לעשות כדי שזה יעבוד עם NVIDIA
קרדיט ל-@י-פל שהוא אמר לי מה לעשות פשוט לי אין מושג בנושא -
-
OpenAi הוציאו ספרייה בקוד פתוח לתמלול הקלטות וסרטונים חינם בעשרות שפות ובינהם עברית!.
התמלול עם הספרייה שלהם הוא מההכי איכותים שקימים כיום בשוק, הוא אמן על 680,000 שעות! של דיבור.
במדריך זה אני יביא תוכנה שמתמללת הקלטות עם אחד המודלים שהוכן לזה, שלא מצריך התקנות למינהם וסיבוכים מיותרים.
שימו לב שזה צריך מחשב סטנדרטי ומעלה. וכן שזה להוריד למחשב קובץ ששוקל בערך 3 GB.שימו לב מצאתי תוכנה עם ממשק גרפי בעברית בפוסט הזה
להתקנה יש לפעול עפ"י השלבים הבאים:
-
הורידו את תוכנית ההתקנה מכאן.
-
יש לחלץ את התוכנה, הסיסמה היא: "מתמחים"
-
להפעיל את קובץ ההתקנה וללחוץ על התקן.
הקבצים ישמרו בתקיית "Program Files" עדיף שלא לשנות נתיב כי אז הקיצורים בשלח אל לא יעבדו.
שימו לב! מכיוון שזה שומר את התקייה של התוכנה בכונן C, יש לתת הרשאות מנהל כשיתבקש.ביצוע התמלול:
- יש ללחוץ על לחצן ימני בעכבר על הקובץ שאתם רוצים לתמלל ולבחור ב "שלח אל"-"תמלול בעברית"
אם אתם רוצים לתמלל הקלטה באנגלית יש לבחור ב-"שלח אל"-"Transcript in English"
יקח כמה דקות שבסופם תקבלו את התמלול של ההקלטה/סרטון שהכנסתם, והחלון שנפתח ישמיע צליל ויסגר.
התמלול ישמר בקובץ טקסט בתקייה שבה נמצא הקובץ שתומלל, ושמו יהיה כשם הקובץ שתומלל.
לאלו שיש להם כרטיס מסך של NVIDIA צריך להתקין CUDA. כדי שהתמלול יעבוד.
פרטים בספוילר:כדי להשתמש בתוכנה למי שיש לוכרטיס מסך של NVIDIA צריך להתקין CUDA.
יש לפעול לפי השלבים הבאים:- להוריד את התוכנה מכאן ולהתקין אותה על המחשב.
- להוריד את הקובץ הזה.
- לחלץ את הקובץ שהורדנו (בשלב 2) ולשים אותו בנתיב הבא: "toolkit\cuda\bin"
אם עדיין יש לכם בעיות עם זה אפשר תמיד להגיב בשרשור.
מקורות לעיון בבעיות כאן
קרדיט-@י-פלתוכנות ואתרים נוספים:
- התוכנה הזאת רק עם ממשק חצי גרפי עפ"י מה ש-@מישהו12 כתב כאן.
- תוכנה עם ממשק גרפי אמיתי ש-@תודה-לבורא-עולם פרסם עליה מדריך כאן.
- תוכנה ש-@מישהו12 הביא כאן (לא ראיתי מישהו שבדק אותה בפועל).
- אתר שאני כתבתי עליו מדריך כאן
- האתר הזה בעבר ראיתי שיש לו תוצאות די טובות (כרגע זה נראה שהוא עושה בעיות)
מקור:
https://github.com/Purfview/whisper-standalone-win/tree/main
פרטים נוספים למפתחים בפוסט הזהלאלו שיש להם כרטיס מסך של NVIDIA צריך להתקין CUDA. כדי שהתמלול יעבוד.
@י-פל התקנתי וכו' וזה התוצאה.
מתחיל לעבוד ולא עושה כלום בפועל.Standalone Faster-Whisper r167.4 running on: CUDA Starting transcription on: C:\12345\אחים.mp3 Estimating duration from bitrate, this may be inaccurate Press any key to continue . . .
עריכה:
ניסיתי שוב ושוב ואופסס.. שגיאה שכבר לעיל דיווחו עליה, שגיאה שאין לו הסבר מה הקשר לכונן D ואיזה קבצים הוא מחפש שם:Standalone Faster-Whisper r167.4 running on: CUDA Starting transcription on: C:\12345\דוגמא.mp3 Traceback (most recent call last): File "D:\whisper-fast\__main__.py", line 1104, in <module> File "D:\whisper-fast\__main__.py", line 1044, in cli File "faster_whisper\transcribe.py", line 1145, in restore_speech_timestamps File "faster_whisper\transcribe.py", line 590, in generate_segments File "faster_whisper\transcribe.py", line 814, in encode RuntimeError: CUDA failed with error out of memory [8168] Failed to execute script '__main__' due to unhandled exception! Press any key to continue . . .
-
-
אני התייאשתי.
כל פעם - תקלה אחרת.