בירור | בינה מלאכותית שאפשר לאמן/להכניס טקסט ויש לה API
-
@cubase אפשר שאלה על טקיוצ'ר?
מעולם לא השתמשתי בו אבל זה נשמע מאוד איכותי ומהיר, חשוב לי החלק של המהיר.איך עושים את זה?
בשביל לחסוך כמה שיותר זמן חשבתי להתקין שרת עם אסטריסק + בינה מלאכותית + מנוע TTS.
ככה לא אשתמש במודל API אלא SIP שהוא אונליין ופשוט שיחת טלפון שאפשר לעשות עליה מניפולציות (רק אצטרך לעשות STT משירות חיצוני... שזה יקח זמן), אשאל את הבינה מלאכותית על השרת ואחסוך את הזמן של שליחת וקבלת התשובה ואצור את הTTS על השרת בחלקים קטנים (שוב חוסך זמן) ואשמיע ישירות בשיחה ככה לא צריך להעלות את ההקלטה לקו ולא יקח את הזמן עד שהשרת של ימות בונה את הTTS בעצמו.
ואם כל זה, לדעתי יהיה דיליי רציני, איך עושים שיהיה כמה שיותר רציף?
אם זה בסדר מבחינתך לענות על זה, תוכל לשלוח לי גם במייל stamandsefer של ג'ימייל
-
@cubase אפשר שאלה על טקיוצ'ר?
מעולם לא השתמשתי בו אבל זה נשמע מאוד איכותי ומהיר, חשוב לי החלק של המהיר.איך עושים את זה?
בשביל לחסוך כמה שיותר זמן חשבתי להתקין שרת עם אסטריסק + בינה מלאכותית + מנוע TTS.
ככה לא אשתמש במודל API אלא SIP שהוא אונליין ופשוט שיחת טלפון שאפשר לעשות עליה מניפולציות (רק אצטרך לעשות STT משירות חיצוני... שזה יקח זמן), אשאל את הבינה מלאכותית על השרת ואחסוך את הזמן של שליחת וקבלת התשובה ואצור את הTTS על השרת בחלקים קטנים (שוב חוסך זמן) ואשמיע ישירות בשיחה ככה לא צריך להעלות את ההקלטה לקו ולא יקח את הזמן עד שהשרת של ימות בונה את הTTS בעצמו.
ואם כל זה, לדעתי יהיה דיליי רציני, איך עושים שיהיה כמה שיותר רציף?
אם זה בסדר מבחינתך לענות על זה, תוכל לשלוח לי גם במייל stamandsefer של ג'ימייל
-
@CUBASE בעיקר מחיר, ואני לא יודע איך זה יעבוד מבחינת זמן תגובה. לכן שאלתי מישהו מנוסה.
היית חסר לנו כאן משהו כמו 4 ימים
@עידו300 לגבי המחיר - נדבר במייל, זמן תגובה - בוודאי מהיר בהרבה מ-STT ואז שליחה לג׳מיני ו-TTS, ב-LiveAPI אתה מקבל הכל בחבילה אחת - גם המודל מקבל את ההקלטה כקלט שמע וגם מחזיר פלט שמע כך שכל מה שעליך לעשות זה לחבר בין המערכת הטלפונית ל-Gemini (וכמובן להגדיר נכון איך שיקרקע נתונים על פי קובץ פרטים על העסק ופרומפט מתאים שישאיר לו אפס מקום לסטיות)
אני באמת בשבוע האחרון (ובתקופה הקרובה) על המחשב פחות בתכיפות
-
@עידו300 לגבי המחיר - נדבר במייל, זמן תגובה - בוודאי מהיר בהרבה מ-STT ואז שליחה לג׳מיני ו-TTS, ב-LiveAPI אתה מקבל הכל בחבילה אחת - גם המודל מקבל את ההקלטה כקלט שמע וגם מחזיר פלט שמע כך שכל מה שעליך לעשות זה לחבר בין המערכת הטלפונית ל-Gemini (וכמובן להגדיר נכון איך שיקרקע נתונים על פי קובץ פרטים על העסק ופרומפט מתאים שישאיר לו אפס מקום לסטיות)
אני באמת בשבוע האחרון (ובתקופה הקרובה) על המחשב פחות בתכיפות
-
@CUBASE א. תודה, אז אני מחכה למייל?!
ב. הבעיה שהTTS שלהם לא מציאה... וא"א להחליף לקול אחר...
תראה את זה, הבעיה שאין לו עברית טובה (במילים עדינות), מאמין שקול אפשר לשנות.@עידו300 כתב בבירור | בינה מלאכותית שאפשר לאמן/להכניס טקסט ויש לה API:
תודה, אז אני מחכה למייל?!
מצטער.. שכחתי מזה, תשלח לי מייל כדי שכשאהיה על המייל אזכר (כרגע אני על מכשיר שלא מחובר לחשבון שלי)
@עידו300 כתב בבירור | בינה מלאכותית שאפשר לאמן/להכניס טקסט ויש לה API:
הבעיה שהTTS שלהם לא מציאה... וא"א להחליף לקול אחר...
אתה יודע על מה אתה מדבר?
תעשה ניסוי קטן כאן על ה-LiveAPI, ותבין למה אתה טועה בגדול! -
@עידו300 כתב בבירור | בינה מלאכותית שאפשר לאמן/להכניס טקסט ויש לה API:
תודה, אז אני מחכה למייל?!
מצטער.. שכחתי מזה, תשלח לי מייל כדי שכשאהיה על המייל אזכר (כרגע אני על מכשיר שלא מחובר לחשבון שלי)
@עידו300 כתב בבירור | בינה מלאכותית שאפשר לאמן/להכניס טקסט ויש לה API:
הבעיה שהTTS שלהם לא מציאה... וא"א להחליף לקול אחר...
אתה יודע על מה אתה מדבר?
תעשה ניסוי קטן כאן על ה-LiveAPI, ותבין למה אתה טועה בגדול!@CUBASE כתב בבירור | בינה מלאכותית שאפשר לאמן/להכניס טקסט ויש לה API:
@עידו300 כתב בבירור | בינה מלאכותית שאפשר לאמן/להכניס טקסט ויש לה API:
תודה, אז אני מחכה למייל?!
מצטער.. שכחתי מזה, תשלח לי מייל כדי שכשאהיה על המייל אזכר (כרגע אני על מכשיר שלא מחובר לחשבון שלי)
שלחתי, תודה!
@עידו300 כתב בבירור | בינה מלאכותית שאפשר לאמן/להכניס טקסט ויש לה API:
הבעיה שהTTS שלהם לא מציאה... וא"א להחליף לקול אחר...
אתה יודע על מה אתה מדבר?
תעשה ניסוי קטן כאן על ה-LiveAPI, ותבין למה אתה טועה בגדול!יפה, אני רואה עכשיו שאפשר להחליף קול, כנראה בגלל שכבר התחלתי שיחה הוא לא נתן לי לשנות קול.
האמת העברית שלו הכי טובה שראיתי בינתיים, אבל יש קצת בעיות של קריאה בניקוד לא נכון וגם שגם הקולות הנשיים מדברים בלשון זכר...
אהבתי שהוא יודע לשחק עם האינטנציה.
-
@CUBASE כתב בבירור | בינה מלאכותית שאפשר לאמן/להכניס טקסט ויש לה API:
@עידו300 כתב בבירור | בינה מלאכותית שאפשר לאמן/להכניס טקסט ויש לה API:
תודה, אז אני מחכה למייל?!
מצטער.. שכחתי מזה, תשלח לי מייל כדי שכשאהיה על המייל אזכר (כרגע אני על מכשיר שלא מחובר לחשבון שלי)
שלחתי, תודה!
@עידו300 כתב בבירור | בינה מלאכותית שאפשר לאמן/להכניס טקסט ויש לה API:
הבעיה שהTTS שלהם לא מציאה... וא"א להחליף לקול אחר...
אתה יודע על מה אתה מדבר?
תעשה ניסוי קטן כאן על ה-LiveAPI, ותבין למה אתה טועה בגדול!יפה, אני רואה עכשיו שאפשר להחליף קול, כנראה בגלל שכבר התחלתי שיחה הוא לא נתן לי לשנות קול.
האמת העברית שלו הכי טובה שראיתי בינתיים, אבל יש קצת בעיות של קריאה בניקוד לא נכון וגם שגם הקולות הנשיים מדברים בלשון זכר...
אהבתי שהוא יודע לשחק עם האינטנציה.
-
@עידו300 כמו שחשבתי (חשבת שזה ה-TTS של Google Cloud?)
תראה שיש שם עוד כמה אפשרויות כמו דיבור עם יותר הבעת רגשות (לא נצרך למקרה שלך - אבל שתבין את רמת ה-TTS)
@CUBASE כן ראיתי, שיש שם הרבה אופציות, אני לא מכיר את Google Cloud אבל לג'ימני יש המון קולות, וגם המון אופציות שלצערי לוקחות קצת יותר זמן חשיבה, גם יש לו משהו מוזר שאחרי כמה שאלות הוא נהיה כאילו צרוד או שלא שומעים טוב, אולי זה רק בחינמי, לא יודע.
בכל מקרה גם בזה יש לו בעיות עם הניקוד והוא מדבר בלשון זכר גם אם זה קול של אשה. לא הפעלתי את כל הפונקציות, אבל מה שראיתי כן היה את הבעיות האלו. אולי כי באנגליות אין הבדל בין זכר לנקבה.