בקשה | תמלול שיעורי תורה עבור AI
-
@אלף-שין כתב בבקשה | תמלול שיעורי תורה עבור AI:
@MusiCode כתב בבקשה | תמלול שיעורי תורה עבור AI:
אני חושב לפתוח קבוצה בפלטפורמה כלשהי שפתוחה בנטפרי עבור הפרוייקט התורני.
האתר שלהם פתוח בנטפרי
רק צריך למצוא דרך להכניס לשם הקלטות תורניות.ברגע שיהיה אישור מהרבה רבנים, או מקול הלשון, נבקש ממשק מקביל עבור תכנים תורניים.
אחד ממנהלי הפרוייקט אמר לי שהם רוצים מינ' 20 דוברים, ו 100 שעות.
-
-
@צדיק-וטוב-לו-0 מינורי מאוד (לענ"ד) אבל אם כל הרעיון הוא שהוא צריך לקלוט את ה'מילון' אז זה אמור להיות טוב
-
@צללית כתב בבקשה | תמלול שיעורי תורה עבור AI:
@MusiCode השאלה היא האם אימון על הגיות ומבטאים של רבנים שונים יהיה תועלתי או שצריך לאמן על הרבה הקלטות של רב מסוים
זו שאלה למבינים באימון מודלים.
אולי @sivan22 ידע לענות?בהחלט יש עדיפות לאימון על מגוון של קולות ומבטאים שונים
-
@MusiCode יישר כח על היוזמה
כמה הערות:
היתרון של קול הלשון הוא במסה העצומה של המידע שנמצא אצלם אבל יש להם כמה חסרונות:
1)הקבצים עוברים עיבוד ויש מעין "חתימת מים" שמכריז בשקט "קול הלשון" שמוסיפים לכל קובץ שיש בקול הלשון ויכול להיות שקצת "מלכלך" את המידע -ייתכן שאם קול הלשון יאשרו לכם להשתמש במאגר יורידו את זה
2)איכות הקול היא לכל היותר איכות קו טלפון שכן זהו מקור ההקלטה על פי רוב
-
@jack כתב בבקשה | תמלול שיעורי תורה עבור AI:
@MusiCode יישר כח על היוזמה
כמה הערות:
היתרון של קול הלשון הוא במסה העצומה של המידע שנמצא אצלם אבל יש להם כמה חסרונות:
1)הקבצים עוברים עיבוד ויש מעין "חתימת מים" שמכריז בשקט "קול הלשון" שמוסיפים לכל קובץ שיש בקול הלשון ויכול להיות שקצת "מלכלך" את המידע -ייתכן שאם קול הלשון יאשרו לכם להשתמש במאגר יורידו את זה
מה הקשר?
הוא יתמלל גם אותו.2)איכות הקול היא לכל היותר איכות קו טלפון שכן זהו מקור ההקלטה על פי רוב
לא ממש, יש שם המון דאטה של סרטי וידיאו איכותיים מאד.
-
@jack כתב בבקשה | תמלול שיעורי תורה עבור AI:
1)הקבצים עוברים עיבוד ויש מעין "חתימת מים" שמכריז בשקט "קול הלשון" שמוסיפים לכל קובץ שיש בקול הלשון ויכול להיות שקצת "מלכלך" את המידע -ייתכן שאם קול הלשון יאשרו לכם להשתמש במאגר יורידו את זה
@MusiCode כתב בבקשה | תמלול שיעורי תורה עבור AI:
הפרוייקט המקורי הוא כזה: המתנדבים אספו אישורים מפודקאסטים ישראליים, לאחר מכן הם חתכו אותם לרצועות של 2 - 25 שניות, הזינו למודל תמלול Whisper (L v2), ומתנדבים מתקנים את השגיאות בדף ייעודי.
לא תוכל למצוא 25 שניות ללא החתימה הנ"ל???