הודעות שפורסמו על ידי האדם החושב | מתמחים טופ

ה

@עדלאידע הוספתי אותך.

ה

@עדלאידע
זה תלויות...
לא יודע, כשאני מריץ אצלי זה נכשל.
מה הuser name שלך בgithub?, אני אתן לך הרשאת עריכה ותעלה את הקובץ לReleases.

ה

@עדלאידע
הצלחת?, בהרצת התוכנה אני מקבל את השגיאה הבאה:

Traceback (most recent call last):
  File "main.py", line 1564, in <module>
  File "flet\app.py", line 96, in run
  File "asyncio\runners.py", line 204, in run
  File "asyncio\runners.py", line 127, in run
  File "asyncio\base_events.py", line 719, in run_until_complete
  File "flet\app.py", line 228, in run_async
  File "flet_desktop\__init__.py", line 54, in open_flet_view_async
  File "flet_desktop\__init__.py", line 108, in __locate_and_unpack_flet_view
FileNotFoundError: Flet executable not found at C:\Users\User\AppData\Local\Temp\_MEI92642\flet_desktop\app

ה

https://github.com/zevisvei/therory

ניסיתי לקמפל אותה, ללא הצלחה.

ה

@t.k הקמת בוט? קשה לי לענות על שאלה כללית כזו.

ה

@מענין-לשמוע למיטב זכרוני אם פותחים את הקובץ דרך Libra office זה עוקף את הסיסמאות.

ה

@פלמנמוני כתב בשיתוף | 'פלאפון מייל' - הגירסא המשופרת של מייל לפלאפון, כולל קבלת ושליחת מיילים דרך הפלאפון, קריינות מקצועית, ועוד...:

בנתיים יש מעלות לזה ולזה, למשל: בג'מיני אפשר לעשות קולות שונים לכותרות, אבל בגוגל קלאוד אפשר לשלוט על מהירות ההקראה.

גם בgemini אפשר עם פרומפט, אם כי זה לא מדע מדוייק.

ה

@שקיעות-בלימוד רק לך.

ה

@פלמנמוני

function tts(text){
  const model = "gemini-2.5-flash-preview-tts"
  const token = "gemini token"
  const url = `https://generativelanguage.googleapis.com/v1beta/models/${model}:generateContent?key=${token}`
  const payload = {
    contents: [{
      parts:[{
        text: text
      }]
    }],
    generationConfig: {
      responseModalities: ["AUDIO"],
      speechConfig: {
        voiceConfig: {
          prebuiltVoiceConfig: {
            voiceName: "Kore"
          }
        }
      }
    },
    model: "gemini-2.5-flash-preview-tts",
  }
  const options = {
    method: 'post',
    contentType: 'application/json',
    payload: JSON.stringify(payload)
  }
  const response = JSON.parse(UrlFetchApp.fetch(url, options))
  console.log(response)
  return response.candidates[0].content.parts[0].inlineData.data
}

function test(){
  const text = "בדיקת tts gemini";
  const pcmBase64 = tts(text);
  const pcmBytes = Utilities.base64Decode(pcmBase64);
  const blob = Utilities.newBlob(pcmBytes, 'application/octet-stream', 'test.pcm');
  DriveApp.createFile(blob);
}

ואז הורדת הקובץ מהדרייב והמרה בעזרת ffmpeg

ffmpeg -f s16le -ar 24000 -ac 1 -i test.pcm test.wav

test.wav
test.pcm

צריך למצוא דרך להמיר את זה בגוגל סקריפט.

עריכה:
הצלחתי

function tts(text){
  const model = "gemini-2.5-flash-preview-tts"
  const token = "gemini token"
  const url = `https://generativelanguage.googleapis.com/v1beta/models/${model}:generateContent?key=${token}`
  const payload = {
    contents: [{
      parts:[{
        text: text
      }]
    }],
    generationConfig: {
      responseModalities: ["AUDIO"],
      speechConfig: {
        voiceConfig: {
          prebuiltVoiceConfig: {
            voiceName: "Kore"
          }
        }
      }
    },
    model: "gemini-2.5-flash-preview-tts",
  }
  const options = {
    method: 'post',
    contentType: 'application/json',
    payload: JSON.stringify(payload)
  }
  const response = JSON.parse(UrlFetchApp.fetch(url, options))
  return response.candidates[0].content.parts[0].inlineData.data
}

function createWavFromPcm(pcmBytes, sampleRate, numChannels, bitsPerSample) {
  const byteRate = sampleRate * numChannels * (bitsPerSample / 8);
  const blockAlign = numChannels * (bitsPerSample / 8);
  const dataSize = pcmBytes.length;
  const fileSize = 44 - 8 + dataSize;

  const header = [];

  function pushString(s) {
    for (let i = 0; i < s.length; i++) header.push(s.charCodeAt(i));
  }

  function pushUint32LE(val) {
    header.push(val & 0xFF,
      (val >> 8) & 0xFF,
      (val >> 16) & 0xFF,
      (val >> 24) & 0xFF);
  }

  function pushUint16LE(val) {
    header.push(val & 0xFF,
      (val >> 8) & 0xFF);
  }

  pushString("RIFF");
  pushUint32LE(fileSize);
  pushString("WAVE");

  pushString("fmt ");
  pushUint32LE(16);
  pushUint16LE(1);
  pushUint16LE(numChannels);
  pushUint32LE(sampleRate);
  pushUint32LE(byteRate);
  pushUint16LE(blockAlign);
  pushUint16LE(bitsPerSample);

  pushString("data");
  pushUint32LE(dataSize);
  const headerBytes = new Uint8Array(header);
  const out = new Uint8Array(headerBytes.length + pcmBytes.length);
  out.set(headerBytes, 0);
  out.set(pcmBytes, headerBytes.length);

  return out;
}


function test(){
  const text = "נשלחה אליך הודעת מייל חדשה בתאריך א כסליו תשפו";
  const pcmBase64 = tts(text);
  const pcmBytes = Utilities.base64Decode(pcmBase64);
  const pcmBlob = Utilities.newBlob(pcmBytes, 'application/octet-stream', 'test.pcm');
  DriveApp.createFile(pcmBlob);

  const sampleRate = 24000;
  const channels = 1;
  const bits = 16;

  const wavBytes = createWavFromPcm(pcmBytes, sampleRate, channels, bits);
  const wavBlob = Utilities.newBlob(wavBytes, 'audio/wav', 'test.wav');
  DriveApp.createFile(wavBlob);
}

אגב, לגבי שליחת מיילים אפשר לשלוח על ידי שלוחת api במקום לקרוא את הymgr בשלוחת קבלת נתונים (יצטרכו לעשות פריסה של הסקריפט ולהוסיף פונקציית doGet ולהשתיק את הודעת אין מענה משרת api.) כך הוא לא יצטרך בכל ריצה לבדוק את הymgr וכך הסקריפט יהיה מהיר יותר.

ה

@פלמנמוני זאת ספרייה לpython, הבקשות מאחורי הקלעים.
לכאו' זה הלינק הזה:

https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent?key=

ה

@פלמנמוני בpython זה נראה כך:

import io
import wave

from google import genai
from google.genai import types


def tts_single_speaker(token: str, text: str, model: str = "gemini-2.5-flash-preview-tts", voice: str = "Zephyr") -> bytes | None:
    client = genai.Client(api_key=token)
    response = client.models.generate_content(
        model=model,
        contents=[types.Part.from_text(text=text)],
        config=types.GenerateContentConfig(
            response_modalities=["AUDIO"],
            speech_config=types.SpeechConfig(
                voice_config=types.VoiceConfig(
                    prebuilt_voice_config=types.PrebuiltVoiceConfig(
                        voice_name=voice
                    )
                )
            ),
        )
    )
    if response and response.candidates and response.candidates[0] and response.candidates[0].content and response.candidates[0].content.parts and response.candidates[0].content.parts[0].inline_data:
        return response.candidates[0].content.parts[0].inline_data.data
    return None


def wave_file(pcm, channels=1, rate=24000, sample_width=2) -> bytes:
    buf = io.BytesIO()
    with wave.open(buf, "wb") as wf:
        wf.setnchannels(channels)
        wf.setsampwidth(sample_width)
        wf.setframerate(rate)
        wf.writeframes(pcm)
    return buf.getvalue()

def main():
    text = "שלום, זהו מבחן של המערכת להמרת טקסט לדיבור."
    token = "YOUR_API_KEY_HERE"
    audio_pcm = tts_single_speaker(token, text)
    if audio_pcm:
        audio_bytes = wave_file(audio_pcm)
        with open("output.wav", "wb") as f:
            f.write(audio_bytes)
        print("Audio content written to output.wav")
    else:
        print("Failed to generate audio.")

פעם ניסיתי לעשות את זה בgoogle script אבל לא הצלחתי לתרגם את החלק של המרת הpcm לwav.

ה

@פלמנמוני למה שלא תעשה tts דרך gemini?
(מודל ~~gemini-2.5-flash-preview-tts~~ gemini-2.5-pro-preview-tts הוא חינמי עד 15 בקשות ביום).
דרך גוגל קלאוד זה חינמי רק עד 3 חודשים ולדעתי הוא מביא תוצאות פחות טובות.

ה

@במה כתב בבקשת מידע | שמיעת מיקום וזמן המנין הקרוב:

האם זה שנדרים פלוס שחררו את API שלהם יכול לעזור בענין?

היכן נמצא התיעוד?

ה

@הנני-העני
https://mitmachim.top/topic/65076/שיתוף-סוג-של-תפילון-לנוקיה-225-ולכול-הנוקיות-החדשות
https://mitmachim.top/topic/84760/להורדה-אפליקצית-תפילה-לנוקיה-225-215-2020?_=1761093772248

ה

@חיים100 שוכר מתכנת שיכתוב לך את הקוד בשביל הדבר הזה...

ה

@י.ע כתב במדריך | הקלטות תא קולי והתראת שיחות שלא נענו לקו טלפוני, מייל, וואטסאפ וטלגרם:

אם זה כבר עובד אם ג'מיני אולי כדאי שג'מיני גם יענה במקומי
בשלוחה אחת אני יסביר לו מי אני ואיך אני רוצה שהוא יענה לשיחות שלי....

בשביל זה צריך live-api + שרת שיתווך בין gemini live api ל sip ולהפנות את השיחה לsip ההוא, קיצער, לא ישים בgoogle script בשביל זה צריך שרת אמיתי.

ה

@kasnik נכון, אני מחכה שהמפח הקבוע יהיה בכל הapi.

האדם החושב

פוסטים