תמלול שיחות STT עם aws api
-
אני מתכנת וצריך לשלוח שיחות מוקלטות לAPI של אמזון ולקבל חזרה תמלול.
מכיון שההקלטות הם שיחות טלפון - יש 2 דוברים בשיחה.
הבעיה שאמזון לא מזהה נכון את 2 הדוברים. -
@a-jew אמר בתמלול שיחות STT עם aws api:
ניסיתי כבר את זה והבעיה שהוא מזהה כמה דוברים גם כאשר מדובר רק בדובר אחד.
טוב.. לא יודע. אולי צריך להגדיר יותר? תבדוק
@a-jew אמר בתמלול שיחות STT עם aws api:
יש למשהו הצעה לשירות API שנותן תמלול של שיחות טלפון עם 2 דוברים ברמה גבוהה?
יש לכל החברות הגדולות.
AWS מה שהבאת
לגוגל יש https://cloud.google.com/speech-to-text/docs/multiple-voices#speech_transcribe_diarization_beta-nodejs
למייקרוסופט יש https://azure.microsoft.com/en-us/services/cognitive-services/speaker-recognition/גם ל-IBM יש בשירותי קלאוד שלהם https://console.ng.bluemix.net/catalog/services/speech-to-text?taxonomyNavigation=apps
אני חושב שזה עניין של הגדרה + אולי תעשה איזו מניפולציה לאודיו שהAWS ישמע אותו יותר ברור? לא יודע
(אני השתמשתי בגוגל קלאוד בפיצ'ר הזה ועבד מעולה, זיהה 2 דוברים רק כשהיה שניים באמת) -
@a-jew אמר בתמלול שיחות STT עם aws api:
ניסיתי כבר את זה והבעיה שהוא מזהה כמה דוברים גם כאשר מדובר רק בדובר אחד.
טוב.. לא יודע. אולי צריך להגדיר יותר? תבדוק
@a-jew אמר בתמלול שיחות STT עם aws api:
יש למשהו הצעה לשירות API שנותן תמלול של שיחות טלפון עם 2 דוברים ברמה גבוהה?
יש לכל החברות הגדולות.
AWS מה שהבאת
לגוגל יש https://cloud.google.com/speech-to-text/docs/multiple-voices#speech_transcribe_diarization_beta-nodejs
למייקרוסופט יש https://azure.microsoft.com/en-us/services/cognitive-services/speaker-recognition/גם ל-IBM יש בשירותי קלאוד שלהם https://console.ng.bluemix.net/catalog/services/speech-to-text?taxonomyNavigation=apps
אני חושב שזה עניין של הגדרה + אולי תעשה איזו מניפולציה לאודיו שהAWS ישמע אותו יותר ברור? לא יודע
(אני השתמשתי בגוגל קלאוד בפיצ'ר הזה ועבד מעולה, זיהה 2 דוברים רק כשהיה שניים באמת) -
@chv
תודה רבה על הפירוט.
אני צריך שירות של תמלול שיחות גם בעברית.
google מזהה דוברים גם בעברית? -
@a-jew אמר בתמלול שיחות STT עם aws api:
google מזהה דוברים גם בעברית?
כן, לי הוא זיהה (כך לפחות על פי הזיכרון הקצר שלי. מה שעשיתי היה לתמלל כמה ראיונות עבודה - והוא חילק בין המראיינת למרואיינת)