תמלול שיחות STT עם aws api
-
@a-jew אמר בתמלול שיחות STT עם aws api:
ניסיתי כבר את זה והבעיה שהוא מזהה כמה דוברים גם כאשר מדובר רק בדובר אחד.
טוב.. לא יודע. אולי צריך להגדיר יותר? תבדוק
@a-jew אמר בתמלול שיחות STT עם aws api:
יש למשהו הצעה לשירות API שנותן תמלול של שיחות טלפון עם 2 דוברים ברמה גבוהה?
יש לכל החברות הגדולות.
AWS מה שהבאת
לגוגל יש https://cloud.google.com/speech-to-text/docs/multiple-voices#speech_transcribe_diarization_beta-nodejs
למייקרוסופט יש https://azure.microsoft.com/en-us/services/cognitive-services/speaker-recognition/גם ל-IBM יש בשירותי קלאוד שלהם https://console.ng.bluemix.net/catalog/services/speech-to-text?taxonomyNavigation=apps
אני חושב שזה עניין של הגדרה + אולי תעשה איזו מניפולציה לאודיו שהAWS ישמע אותו יותר ברור? לא יודע
(אני השתמשתי בגוגל קלאוד בפיצ'ר הזה ועבד מעולה, זיהה 2 דוברים רק כשהיה שניים באמת)