בירור | בינה מלאכותית שאפשר לאמן/להכניס טקסט ויש לה API

עידו300

@yehokarpel האמת שהוא היה האופציה הראשונה שלי, אבל לא מצאתי שיש לו api, טוב שאתה אומר.

עידו300

כמה הוא עולה?

yehokarpel

@עידו300 לא יודע

עידו300

@yehokarpel כתב בבירור | בינה מלאכותית שאפשר לאמן/להכניס טקסט ויש לה API:

API ישיר סתם ככה לא צריך לפנות לגוגל כארגון כדיי שיאשרו לך API

איך משיגים API?

yehokarpel

@עידו300 טעיתי שרשמתי לא צריך כן צריך לפנות אליהם כארגון תקנתי את זה בהודעה

החכם התם

@עידו300 יש API לא רשמי לnotebooklm כאן https://github.com/teng-lin/notebooklm-py
וכאן https://github.com/tmc/nlm?tab=readme-ov-file

עידו300

@cubase אפשר שאלה על טקיוצ'ר?
מעולם לא השתמשתי בו אבל זה נשמע מאוד איכותי ומהיר, חשוב לי החלק של המהיר.

איך עושים את זה?

בשביל לחסוך כמה שיותר זמן חשבתי להתקין שרת עם אסטריסק + בינה מלאכותית + מנוע TTS.

ככה לא אשתמש במודל API אלא SIP שהוא אונליין ופשוט שיחת טלפון שאפשר לעשות עליה מניפולציות (רק אצטרך לעשות STT משירות חיצוני... שזה יקח זמן), אשאל את הבינה מלאכותית על השרת ואחסוך את הזמן של שליחת וקבלת התשובה ואצור את הTTS על השרת בחלקים קטנים (שוב חוסך זמן) ואשמיע ישירות בשיחה ככה לא צריך להעלות את ההקלטה לקו ולא יקח את הזמן עד שהשרת של ימות בונה את הTTS בעצמו.

ואם כל זה, לדעתי יהיה דיליי רציני, איך עושים שיהיה כמה שיותר רציף?

אם זה בסדר מבחינתך לענות על זה, תוכל לשלוח לי גם במייל stamandsefer של ג'ימייל

עידו300

אף אחד?

ל א מצאתי בollama מודל סביר שמדבר עברית טובה, הכל ג'בריש

CUBASE

@עידו300 אם כבר SIP אז למה לא Live API?

מצטער על האיחור בתשובה..

עידו300

@CUBASE בעיקר מחיר, ואני לא יודע איך זה יעבוד מבחינת זמן תגובה. לכן שאלתי מישהו מנוסה.

היית חסר לנו כאן משהו כמו 4 ימים

CUBASE

@עידו300 לגבי המחיר - נדבר במייל, זמן תגובה - בוודאי מהיר בהרבה מ-STT ואז שליחה לג׳מיני ו-TTS, ב-LiveAPI אתה מקבל הכל בחבילה אחת - גם המודל מקבל את ההקלטה כקלט שמע וגם מחזיר פלט שמע כך שכל מה שעליך לעשות זה לחבר בין המערכת הטלפונית ל-Gemini (וכמובן להגדיר נכון איך שיקרקע נתונים על פי קובץ פרטים על העסק ופרומפט מתאים שישאיר לו אפס מקום לסטיות)

אני באמת בשבוע האחרון (ובתקופה הקרובה) על המחשב פחות בתכיפות

עידו300

@CUBASE א. תודה, אז אני מחכה למייל?!
ב. הבעיה שהTTS שלהם לא מציאה... וא"א להחליף לקול אחר...
תראה את זה, הבעיה שאין לו עברית טובה (במילים עדינות), מאמין שקול אפשר לשנות.

CUBASE

@עידו300 כתב בבירור | בינה מלאכותית שאפשר לאמן/להכניס טקסט ויש לה API:

תודה, אז אני מחכה למייל?!

מצטער.. שכחתי מזה, תשלח לי מייל כדי שכשאהיה על המייל אזכר (כרגע אני על מכשיר שלא מחובר לחשבון שלי)

@עידו300 כתב בבירור | בינה מלאכותית שאפשר לאמן/להכניס טקסט ויש לה API:

הבעיה שהTTS שלהם לא מציאה... וא"א להחליף לקול אחר...

אתה יודע על מה אתה מדבר?
תעשה ניסוי קטן כאן על ה-LiveAPI, ותבין למה אתה טועה בגדול!

עידו300

@CUBASE כתב בבירור | בינה מלאכותית שאפשר לאמן/להכניס טקסט ויש לה API:

@עידו300 כתב בבירור | בינה מלאכותית שאפשר לאמן/להכניס טקסט ויש לה API:

תודה, אז אני מחכה למייל?!

מצטער.. שכחתי מזה, תשלח לי מייל כדי שכשאהיה על המייל אזכר (כרגע אני על מכשיר שלא מחובר לחשבון שלי)

שלחתי, תודה!

@עידו300 כתב בבירור | בינה מלאכותית שאפשר לאמן/להכניס טקסט ויש לה API:

הבעיה שהTTS שלהם לא מציאה... וא"א להחליף לקול אחר...

אתה יודע על מה אתה מדבר?
תעשה ניסוי קטן כאן על ה-LiveAPI, ותבין למה אתה טועה בגדול!

יפה, אני רואה עכשיו שאפשר להחליף קול, כנראה בגלל שכבר התחלתי שיחה הוא לא נתן לי לשנות קול.

האמת העברית שלו הכי טובה שראיתי בינתיים, אבל יש קצת בעיות של קריאה בניקוד לא נכון וגם שגם הקולות הנשיים מדברים בלשון זכר...

אהבתי שהוא יודע לשחק עם האינטנציה.

CUBASE

@עידו300 כמו שחשבתי (חשבת שזה ה-TTS של Google Cloud?)

תראה שיש שם עוד כמה אפשרויות כמו דיבור עם יותר הבעת רגשות (לא נצרך למקרה שלך - אבל שתבין את רמת ה-TTS)

עידו300

@CUBASE כן ראיתי, שיש שם הרבה אופציות, אני לא מכיר את Google Cloud אבל לג'ימני יש המון קולות, וגם המון אופציות שלצערי לוקחות קצת יותר זמן חשיבה, גם יש לו משהו מוזר שאחרי כמה שאלות הוא נהיה כאילו צרוד או שלא שומעים טוב, אולי זה רק בחינמי, לא יודע.

בכל מקרה גם בזה יש לו בעיות עם הניקוד והוא מדבר בלשון זכר גם אם זה קול של אשה. לא הפעלתי את כל הפונקציות, אבל מה שראיתי כן היה את הבעיות האלו. אולי כי באנגליות אין הבדל בין זכר לנקבה.

כככככ

נראלי אפשר כאן

כבוד הרב

@עידו300

האם יש בינה מלאכותית שאפשר לאמן או להכניס לה טקסט (ותהיה צמודה אליו, ורק אליו, בלי >סטיות כלל) ויש לה API שנותן לשלוח בקשות ולקבל תשובות?

לצורך יצירת בוט טלפוני עסקי.

לכן חשוב שהוא ישתמש אך ורק בחומר שנתנו לו ולא יבלבלו אותו או ינצלו אותו לדברים אחרים.

יש לי קצת ניסיון בתחום.
לדעתי אם יש לך עד 150 טקסטים קבועים פשוט תיצור 150 שלוחות שכל אחת משמיע טקסט אחר ואז אתה כותב לג'מני אינדקס של תמצית של כל שלוחה ומה מספר השלוחה ומבקש ממנו להחזיר את מספר השלוחה התואם בלבד ואז כמובן עם זה אתה מפנה את הלקוח לשלוחה הרצויה.
אם מדובר על הרבה יותר מזה אז אני גם ניסיתי עם גמני 3 פלש עם הטמעה והוא עובד כמעט ב-100% בציטוט מדוייק אתה יכול לנסות למצא את הטקסט שאליו הוא התכוון עם חיפוש מקורב.
אני הגעתי איתו מתוך מאגרים ענקיים לתוצאות מושלמות.