בקשה | תמלול שיעורי תורה עבור AI
-
@אלף-שין כתב בבקשה | תמלול שיעורי תורה עבור AI:
ואם תחשוב קצת תבין שהוא רעיון אדיר שיעשה מהפך היסטורי בעולם התורה ....
אתה מבין את המשמעות של חיפוש טקסטואלי בכל מאגר השיעורים הגדול בעולם?עם זה אני מסכים לגמרי. וגם משתוקק שזה יקרה.
יעזרנו ה'.המנגינה של דבריך הניחה רושם כאילו יוכלו להחליף את צורת הלימוד..
כאילו לא דיינו שבמקום לבוא לשיעור אנו יושבים ושמועים [או צופים] בו
במה שאינו מוגדר אפילו 'כלי שני' ואינו מבשל
כי אין החכמה עוברת אלא דרך חכם חי, בהארה פנים אל פנים.ואמנם מדוחק השעה ולהגדיל תורה אנו משתמשים בכלי ה'הֶעתק', בהקלטות למיניהן,
[וזה טוב מאוד !!!]
אבל אוי לנו אם יהפך הכל לשכתוב כללי מתוך הקלטה והסרטה...
אפילו צונן זה לא יהיה. -
@NH-LOCAL
נו לא התכוונתי בשניה הזאת.....
באופן כללי כדאי ש@קול הלשון יתחילו להיערך לזה
כי ברגע שיש מודול כל כך מדויק זה נהיה השקעה ממש משתלמת [בהמשך כמובן],
אני מניח שיש להם מקורות מימון לזה, כמו לכל הפרויקט שלהם,
לענ"ד זה יהיה מהפך גדול מאד בעולם התורה כולו!
ברמה של אוצר החכמה וכדומה....@איש-שלו כתב בבקשה | תמלול שיעורי תורה עבור AI:המנגינה של דבריך הניחה רושם כאילו יוכלו להחליף את צורת הלימוד..
איך שלא יהיה את צורת הלימוד זה לא מחליף כי בכל אופן העמל הוא עצמי.....
אני חושב שלא גרע מאוצר החכמה
מישהוא יודע כמה גיגה/שעות יש לקול הלשון?
-
@אלף-שין כתב בבקשה | תמלול שיעורי תורה עבור AI:
@NH-LOCAL
נו לא התכוונתי בשניה הזאת.....
באופן כללי כדאי ש@קול הלשון יתחילו להיערך לזה
כי ברגע שיש מודול כל כך מדויק זה נהיה השקעה ממש משתלמת [בהמשך כמובן],
אני מניח שיש להם מקורות מימון לזה, כמו לכל הפרויקט שלהם,
לענ"ד זה יהיה מהפך גדול מאד בעולם התורה כולו!
ברמה של אוצר החכמה וכדומה....@איש-שלו כתב בבקשה | תמלול שיעורי תורה עבור AI:המנגינה של דבריך הניחה רושם כאילו יוכלו להחליף את צורת הלימוד..
איך שלא יהיה את צורת הלימוד זה לא מחליף כי בכל אופן העמל הוא עצמי.....
אני חושב שלא גרע מאוצר החכמה
מישהוא יודע כמה גיגה/שעות יש לקול הלשון?
הדרך הנכונה לעשות את זה, היא ליצור מערך נתונים איכותי עבור כמה אלפי-עשרות אלפי שעות באמצעות ג'מיני וכדו', ואחר כך לאמן מודל קטן סטנדרטי על הנתונים הללו ולהשתמש בו לשאר התוכן
-
@אלף-שין כתב בבקשה | תמלול שיעורי תורה עבור AI:
@NH-LOCAL
איזה משאבים דרוש לזה [בהנחה שיש להם כ2 טרה של MP3 {כך שמעתי פעם אם אני זוכר נכון}.]
עריכה- יש להם 4,000,000 קבצי אודיוזה דורש חישוב קצת מורכב להערכה משוערת. פרטים בהמשך
מה שחשוב זה מספר השעות של האודיו, לא מספר הקבצים
חישוב ראשוני (בתהליך):
מחירים משוערים עבור ג'מיני 1.5 PRO (עבור 2.5 המחירים עשויים להיות גבוהים יותר):
קלט אודיו = $0.00003125 לשנייה (10 שעות = דולר אחד)
קלט טקסט = $0.0003125 ל-1000 טוקנים (3.2 מיליון טוקנים = דולר אחד)פלט טקסט = $0.00125 ל-1000 מילה (800,000 טוקנים = דולר אחד)
עבור תוכן ארוך (מעל 128,000 טוקנים) העלות מוכפלת!
עבור שיעור דוגמה קצרצר באורך 6 דקות, העלויות הן כלדלהן:
קלט טקסט = 0.0003 דולר. (הנחיית מערכת איכותית היא כ-1000 אסימונים)
קלט אודיו = 0.01 דולר.
פלט טקסט = 0.0125 דולר.
(בדוגמה שבדקתי, המודל השתמש ב-10,000 אסימונים.)סה"כ = בערך 0.023 דולר, או במילים אחרות: פחות מעשר אגורות.
בקיצור: עבור שיעור של שעה, העלות התיאורטית היא שקל אחד - שניים.
עבור 4,000,000 שיעורים:
העלות המשוערת היא לכל הפחות, מיליון ש"חחשוב לשים לב שאלו נתונים חלקיים מאוד, לא כוללים מידע על עלות המודל החדש, על עלות של פלט ארוך מאוד, שיטות לחיסכון (באמצעות סכמת json, שמירה במטמון), עלויות הפעלת שרת ועוד
-
@NH-LOCAL כתב בבקשה | תמלול שיעורי תורה עבור AI:
השעות של האודיו
אתה יכול לצאת מנקודת ייחוס של 35 דקות לקובץ.
למה אני חושב כך?
כי מעטים השיעורים בני השעתיים, מרובים בני השעה, והמוניים בני ה15 שעה בערך, להתרשמותי במערכת [והיא לא גדולה, ההתרשמות]. -
@אלף-שין כתב בבקשה | תמלול שיעורי תורה עבור AI:
@NH-LOCAL
מחיפוש ברשת לא העליתי דבר [חוץ מזה שאין לי מושג אם זה מוסמך].אבל בוא נניח רגע לפי ממוצע [חישוב גס + ניחוש] כ40 דקות לשיעור
כפול 4 מיליוןעריכה יש דיון על זה בפורום שלנו
ופתחתי על זה שרשור מסודרלפי החשבון שלך, מדובר על בין 2.5 ל-5 מיליון ש"ח עבור תמלול כלל השיעורים
נ.ב. תערוך את ההודעה שלך. השאלה כמה המאגר שוקל כמעט לא משנה, אלא מה האורך של השיעורים בדקות/שעות
-
@אלף-שין כתב בבקשה | תמלול שיעורי תורה עבור AI:
@NH-LOCAL
נכון אבל הצעת מקודם פתרון גאוני
כמה הוא אמור לעלות להערכתך?
[או יותר מדויק איזה שרת צריך לשכור, ולכמה זמן]סדר גודל של כמה עשרות אלפי שקלים.
אני לא ממש התנסיתי בכגון דא, אבל צריך שרתי GPU של NVIDIA, העלות שלהם היא לפי שימוש שעתי, זה לא עניין של השכרה לתקופה ממושכת (בשונה משרת רגיל של אתר)
Ivrit AI מסתמכים על תרומות של כל מיני גופים שמספקים להם GPU. אולי אפשר למצוא גוף כזה
אני מניח של-DICTA למשל יש משאבים כאלו@אלף-שין כתב בבקשה | תמלול שיעורי תורה עבור AI:
@NH-LOCAL
אם כן זה נראה חסר סיכוי במצב הנוכחי,
אלא אם בקרוב יהיה לגוגל שבבים חדשים שיהיו זולים הרבה יותר ......
עם זאת אנסה לשאול את מיודעי שהוא מומחה גדול בשכירת שרתים עוצמתיים בזול, ונראה מה יצא.בכל מקרה, הסר דאגה מליבך. בכל שנה עלויות הרצת המודלים מתקטנות פי 10 ויותר.
ב-3 שנים האחרונות העלויות ירדו פי 1000!וגם לטווח הקצר, שימוש במודל של ג'מיני ליצירת מערכי נתונים בקלות ובעלויות זולות, במקום שימוש בשיטות אנושיות, עשוי לעניין את אנשי ivrit AI, לפחות עבור יצירת מודל לעברית סטנדרטית
-
@מתלמד-צעיר כתב בבקשה | תמלול שיעורי תורה עבור AI:
@צבי-דורש-ציון עדכנתי בסקריפט את האפשרות להתאים את הפרומפט באופן אישי
יישר כח עצום!!
מה הציבור אומר, אולי כמה מבינים בתחום הבינה יעזרו ויציעו נוסח הנחיה טובה להגיה האשכנזית ליטאית?
כמובן שאחר כך יהיה ניתן להתאים יותר לקול מסויים, נניח רב שמרבה לומר "חומיש" או שרואים בתמלול שיש מילה קבועה של טעות וכדו'. ככה ניצור נוסח הנחיה טוב שיהיה באופן קבוע יחסית (למי שרוצה כמובן...).
אולי אני טועה? תתקנו אותי.תודה רבה!!
-
@צבי-דורש-ציון
אני מציע בשלב ראשון לשאול את ג'מיני עצמו, מה הוא יודע בענין.
מחכים לציטוט שתעלו [מי שפתוח לו] -
אני לא מבין למה אתם מחשבנים לפי מספר המילים בשיעור
לשם מה יש צורך לתמלל את כל השיעור
מספיק שיהיה השיעור כתוב כמו שכותבים בספר
שזה 2-4 עמודים בלבד.
בערך 1/10 מהמילים בשיעור.כמו בקבצים כאן.
מדוע אסור לאכול בשר בחלב - קול תודה - גברים - יח' ניסן, תשע'ז1201059_סיכום.pdf
החודש הזה לכם 380.pdf