ראיתי שרבו הנושאים הנפתחים פה בנושא זה, ולכן אני אנסה לעשות פה קצת סדר לפי מיעוט ידיעותיי.
נהוג לחלק את עניין השמעת קול בעזרת בינה מלאכותית לשתי טכניקות:
הטכניקה הראשונה היא- text to speech או בקיצור tts:
כאן לוקחים טקסט ובעזרת בינה מלאכותית "מפיחים" בו רוח חיים. כלומר, לוקחים טקסט גולמי והופכים אותו לקובץ שמע.
כיום, אין שירות מספיק טוב בעברית עבור ההמרה הזו, יש כל מיני אלגוריתמים שמסוגלים לעשות את הפעולה בעברית אבל זה יוצא רובוטי ולא אנושי.
(יצוין - אני מתייחס אך ורק לעברית. באנגלית- כבר קיימים כלים שמנפיקים קולות אנושיים ברמה גבוהה מאוד)
הטכניקה השנייה היא- speech to speech:
כאן, יש אלגוריתם שמקבל קובץ שמע, וקובץ שמכיל כל מיני פרמטרים של קול קיים, שנקרא - מודל.
||(ניתן ליצור מודל כזה מכל קול שרוצים- הדבר דורש קצת התעסקות, אבל אפשרי בהחלט||
האלגוריתם לוקח את קובץ השמע- מחלץ ממנו כל מיני פרטים ולבסוף- "מלביש" את גוון הקול מתוך המודל, על ההקלטה המקורית של קובץ השמע.
כלומר במקום לקחת טקסט ולהקריא אותו מ0, הטכניקה הזו כבר מקבלת טקסט מוקרא, ורק מלבישה עליו קול שונה.
הטכניקה הזו פשוטה יותר לשימוש בעברית, כי מבחינת האלגוריתם אין הבדל בין שפות שונות- כל מה שהוא עושה זה להחליף בין שני קולות.
יש תוכנה פשוטה מאוד לשימוש בשם replay
שמבצעת את ההחלפה הזאת. מורידים מהקישור שצרפתי, מתקינים, ומשם זה די פשוט, אם כי התוכנה עצמה באנגלית.
אם הציבור ירצה- אני אעלה בעז"ה הדרכה מפורטת איך להשתמש בה.
לסיכום:
קיימות שתי טכניקות להשמעת קול בעזרת בינה מלאכותית:
הראשונה היא לקחת קובץ טקסט ולהקריא אותו מ-0. זו שיטה שכרגע עוד לא מספיק טובה בעברית.
השנייה- לקחת קובץ שמע ולהלביש עליו קול אחר. זו טכניקה קצת יותר מורכבת כיון שצריך להקליט מראש את הטקסט המבוקש, אבל באיכות מספקת בשביל עברית.