בקשה | תמלול שיעורי תורה עבור AI
-
@אלף-שין כתב בבקשה | תמלול שיעורי תורה עבור AI:
@NH-LOCAL
איזה משאבים דרוש לזה [בהנחה שיש להם כ2 טרה של MP3 {כך שמעתי פעם אם אני זוכר נכון}.]
עריכה- יש להם 4,000,000 קבצי אודיוזה דורש חישוב קצת מורכב להערכה משוערת. פרטים בהמשך
מה שחשוב זה מספר השעות של האודיו, לא מספר הקבצים
חישוב ראשוני (בתהליך):
מחירים משוערים עבור ג'מיני 1.5 PRO (עבור 2.5 המחירים עשויים להיות גבוהים יותר):
קלט אודיו = $0.00003125 לשנייה (10 שעות = דולר אחד)
קלט טקסט = $0.0003125 ל-1000 טוקנים (3.2 מיליון טוקנים = דולר אחד)פלט טקסט = $0.00125 ל-1000 מילה (800,000 טוקנים = דולר אחד)
עבור תוכן ארוך (מעל 128,000 טוקנים) העלות מוכפלת!
עבור שיעור דוגמה קצרצר באורך 6 דקות, העלויות הן כלדלהן:
קלט טקסט = 0.0003 דולר. (הנחיית מערכת איכותית היא כ-1000 אסימונים)
קלט אודיו = 0.01 דולר.
פלט טקסט = 0.0125 דולר.
(בדוגמה שבדקתי, המודל השתמש ב-10,000 אסימונים.)סה"כ = בערך 0.023 דולר, או במילים אחרות: פחות מעשר אגורות.
בקיצור: עבור שיעור של שעה, העלות התיאורטית היא שקל אחד - שניים.
עבור 4,000,000 שיעורים:
העלות המשוערת היא לכל הפחות, מיליון ש"חחשוב לשים לב שאלו נתונים חלקיים מאוד, לא כוללים מידע על עלות המודל החדש, על עלות של פלט ארוך מאוד, שיטות לחיסכון (באמצעות סכמת json, שמירה במטמון), עלויות הפעלת שרת ועוד
-
@NH-LOCAL כתב בבקשה | תמלול שיעורי תורה עבור AI:
השעות של האודיו
אתה יכול לצאת מנקודת ייחוס של 35 דקות לקובץ.
למה אני חושב כך?
כי מעטים השיעורים בני השעתיים, מרובים בני השעה, והמוניים בני ה15 שעה בערך, להתרשמותי במערכת [והיא לא גדולה, ההתרשמות]. -
@אלף-שין כתב בבקשה | תמלול שיעורי תורה עבור AI:
@NH-LOCAL
מחיפוש ברשת לא העליתי דבר [חוץ מזה שאין לי מושג אם זה מוסמך].אבל בוא נניח רגע לפי ממוצע [חישוב גס + ניחוש] כ40 דקות לשיעור
כפול 4 מיליוןעריכה יש דיון על זה בפורום שלנו
ופתחתי על זה שרשור מסודרלפי החשבון שלך, מדובר על בין 2.5 ל-5 מיליון ש"ח עבור תמלול כלל השיעורים
נ.ב. תערוך את ההודעה שלך. השאלה כמה המאגר שוקל כמעט לא משנה, אלא מה האורך של השיעורים בדקות/שעות
-
@אלף-שין כתב בבקשה | תמלול שיעורי תורה עבור AI:
@NH-LOCAL
נכון אבל הצעת מקודם פתרון גאוני
כמה הוא אמור לעלות להערכתך?
[או יותר מדויק איזה שרת צריך לשכור, ולכמה זמן]סדר גודל של כמה עשרות אלפי שקלים.
אני לא ממש התנסיתי בכגון דא, אבל צריך שרתי GPU של NVIDIA, העלות שלהם היא לפי שימוש שעתי, זה לא עניין של השכרה לתקופה ממושכת (בשונה משרת רגיל של אתר)
Ivrit AI מסתמכים על תרומות של כל מיני גופים שמספקים להם GPU. אולי אפשר למצוא גוף כזה
אני מניח של-DICTA למשל יש משאבים כאלו@אלף-שין כתב בבקשה | תמלול שיעורי תורה עבור AI:
@NH-LOCAL
אם כן זה נראה חסר סיכוי במצב הנוכחי,
אלא אם בקרוב יהיה לגוגל שבבים חדשים שיהיו זולים הרבה יותר ......
עם זאת אנסה לשאול את מיודעי שהוא מומחה גדול בשכירת שרתים עוצמתיים בזול, ונראה מה יצא.בכל מקרה, הסר דאגה מליבך. בכל שנה עלויות הרצת המודלים מתקטנות פי 10 ויותר.
ב-3 שנים האחרונות העלויות ירדו פי 1000!וגם לטווח הקצר, שימוש במודל של ג'מיני ליצירת מערכי נתונים בקלות ובעלויות זולות, במקום שימוש בשיטות אנושיות, עשוי לעניין את אנשי ivrit AI, לפחות עבור יצירת מודל לעברית סטנדרטית
-
@מתלמד-צעיר כתב בבקשה | תמלול שיעורי תורה עבור AI:
@צבי-דורש-ציון עדכנתי בסקריפט את האפשרות להתאים את הפרומפט באופן אישי
יישר כח עצום!!
מה הציבור אומר, אולי כמה מבינים בתחום הבינה יעזרו ויציעו נוסח הנחיה טובה להגיה האשכנזית ליטאית?
כמובן שאחר כך יהיה ניתן להתאים יותר לקול מסויים, נניח רב שמרבה לומר "חומיש" או שרואים בתמלול שיש מילה קבועה של טעות וכדו'. ככה ניצור נוסח הנחיה טוב שיהיה באופן קבוע יחסית (למי שרוצה כמובן...).
אולי אני טועה? תתקנו אותי.תודה רבה!!
-
@צבי-דורש-ציון
אני מציע בשלב ראשון לשאול את ג'מיני עצמו, מה הוא יודע בענין.
מחכים לציטוט שתעלו [מי שפתוח לו] -
אני לא מבין למה אתם מחשבנים לפי מספר המילים בשיעור
לשם מה יש צורך לתמלל את כל השיעור
מספיק שיהיה השיעור כתוב כמו שכותבים בספר
שזה 2-4 עמודים בלבד.
בערך 1/10 מהמילים בשיעור.כמו בקבצים כאן.
מדוע אסור לאכול בשר בחלב - קול תודה - גברים - יח' ניסן, תשע'ז1201059_סיכום.pdf
החודש הזה לכם 380.pdf -
@יהודה-טאוב כתב בבקשה | תמלול שיעורי תורה עבור AI:
מספיק שיהיה השיעור כתוב כמו שכותבים בספר
כי אף אחד לא סומך עליו שהוא לא הוזה.
אם אומרים לו לכתוב מה שהוא שומע, סביר שלא יהזה. אבל לסכם? צפה לצרות צרורות... -
@י-פל כתב בבקשה | תמלול שיעורי תורה עבור AI:
@יהודה-טאוב כתב בבקשה | תמלול שיעורי תורה עבור AI:
מספיק שיהיה השיעור כתוב כמו שכותבים בספר
כי אף אחד לא סומך עליו שהוא לא הוזה.
אם אומרים לו לכתוב מה שהוא שומע, סביר שלא יהזה. אבל לסכם? צפה לצרות צרורות...הוא יכול לסכם מצויין. אבל תנו לחרש שלא שומע טוב לסכם שיעור.
אם הוא מסכם אותו למרות שחצי מהמילים הוא בכלל לא הבין, אפשר לשער שהוא ממציא הרבה לפי ההקשר -
@NH-LOCAL כתב בבקשה | תמלול שיעורי תורה עבור AI:
סדר גודל של כמה עשרות אלפי שקלים.
אני לא ממש התנסיתי בכגון דא, אבל צריך שרתי GPU של NVIDIA, העלות שלהם היא לפי שימוש שעתי, זה לא עניין של השכרה לתקופה ממושכת (בשונה משרת רגיל של אתר)
Ivrit AI מסתמכים על תרומות של כל מיני גופים שמספקים להם GPU. אולי אפשר למצוא גוף כזה
אני מניח של-DICTA למשל יש משאבים כאלולהלן העתקה של תשובת המומחה אליו שלחתי את הרעיון שלך [לאמן מודל קלאסי על בסיס תוצאות מג'מיני]
מאיפה שתסובב את זה, יש כאן עניין של עלות
יש מנועים שיודעים לעבוד יותר חסכוני ויש שפחות
לייצר את הגלגל מאפס זה ממש חבל והרבה פחות יעיל
למה אתה קונה מחשב ולא בונה מחשב לבד? -
@י-פל כתב בבקשה | תמלול שיעורי תורה עבור AI:
@NH-LOCAL כתב בבקשה | תמלול שיעורי תורה עבור AI:
הוא יכול לסכם מצויין.
חוץ שמיעה וראיה, לא מצאתי אותו טוב.
לא יודע מה אומרים הבנצ'מרקים, זו החוויה שלי.
לא בקידוד, לא בניתוח טקסט.המציאות היא הפוכה בדיוק. הוא הרבה יותר טוב בקידוד וניתוח טקסט מאשר שמיעה וראיה.
החוויה שלך לא משקפת את המציאות -
@NH-LOCAL
העלו מספר רעיונות חדשים ומוצלחים לגבי תמלול קול הלשון,
הראשון שבהם הוא שהתמלול יהיה ניתן כאופציה בשעת הורדת השיעור עצמו,
וכמובן ישמר במאגרי קול הלשון עבור המשתמשים הבאים,
כך התמלול יתמקד בשיעורים הפופלאריים יותר,כעת אני מעונין להתחיל פיילוט ראשוני של 1,000 שיעורים באורך כשעה כל אחד,
כמה זה עולה נכון להיום בג'מיני?
תודה רבה! -
@אלף-שין כתב בבקשה | תמלול שיעורי תורה עבור AI:
כעת אני מעונין להתחיל פיילוט ראשוני של 1,000 שיעורים באורך כשעה כל אחד,
כמה זה עולה נכון להיום בג'מיניאין עלות. כפי שנכתב לעיל, מכיוון שמדובר בדגם נסיוני, אין עדיין אופציה של תפעול שלו בתשלום עבור כמויות גדולות