בקשה | תמלול שיעורי תורה עבור AI
-
@jack כתב בבקשה | תמלול שיעורי תורה עבור AI:
@MusiCode יישר כח על היוזמה
כמה הערות:
היתרון של קול הלשון הוא במסה העצומה של המידע שנמצא אצלם אבל יש להם כמה חסרונות:
1)הקבצים עוברים עיבוד ויש מעין "חתימת מים" שמכריז בשקט "קול הלשון" שמוסיפים לכל קובץ שיש בקול הלשון ויכול להיות שקצת "מלכלך" את המידע -ייתכן שאם קול הלשון יאשרו לכם להשתמש במאגר יורידו את זה
מה הקשר?
הוא יתמלל גם אותו.2)איכות הקול היא לכל היותר איכות קו טלפון שכן זהו מקור ההקלטה על פי רוב
לא ממש, יש שם המון דאטה של סרטי וידיאו איכותיים מאד.
-
@jack כתב בבקשה | תמלול שיעורי תורה עבור AI:
1)הקבצים עוברים עיבוד ויש מעין "חתימת מים" שמכריז בשקט "קול הלשון" שמוסיפים לכל קובץ שיש בקול הלשון ויכול להיות שקצת "מלכלך" את המידע -ייתכן שאם קול הלשון יאשרו לכם להשתמש במאגר יורידו את זה
@MusiCode כתב בבקשה | תמלול שיעורי תורה עבור AI:
הפרוייקט המקורי הוא כזה: המתנדבים אספו אישורים מפודקאסטים ישראליים, לאחר מכן הם חתכו אותם לרצועות של 2 - 25 שניות, הזינו למודל תמלול Whisper (L v2), ומתנדבים מתקנים את השגיאות בדף ייעודי.
לא תוכל למצוא 25 שניות ללא החתימה הנ"ל???
-
@jack כתב בבקשה | תמלול שיעורי תורה עבור AI:
אבל יש היגיון לאמן דווקא עם רבנים פופולרים ומבוקשים שכן ככל שהמודל ייתאמן עליו יותר הוא גם ידייק אותו יותר
עקרונית זה נכון. אבל בא נאמר שהמטרה של יצירת מודל כזה, היא ממש לא להיות מותאם לרב מסויים, ככה שבפועל, אין שום עניין לאמן דוקא עם הקלטות של רב זה או אחר
בהערת אגב, לגוגל היה בעבר פרוייקט של זיהוי דיבור לאנשים עם בעיות בדיבור וכו', באחד המקרים הם בנו זיהוי דיבור לאדם ספציפי באופן מיוחדhttps://www.laptopmag.com/features/project-euphonia-help-people-with-atypical-speech
-
@jack כתב בבקשה | תמלול שיעורי תורה עבור AI:
איכות הקול היא לכל היותר איכות קו טלפון שכן זהו מקור ההקלטה על פי רוב
גם אם אכן כך, יש להם מערכת בקרת איכות שיעורים, והם מגיעים לרמה גבוהה במיוחד (כמובן לא איכות של הקלטת סאונד באולפן, אבל זה לא יורד מרמת הקלטה קלאסית של שיעורים
-
@2580 כתב בבקשה | תמלול שיעורי תורה עבור AI:
@jack כתב בבקשה | תמלול שיעורי תורה עבור AI:
1)הקבצים עוברים עיבוד ויש מעין "חתימת מים" שמכריז בשקט "קול הלשון" שמוסיפים לכל קובץ שיש בקול הלשון ויכול להיות שקצת "מלכלך" את המידע -ייתכן שאם קול הלשון יאשרו לכם להשתמש במאגר יורידו את זה
@MusiCode כתב בבקשה | תמלול שיעורי תורה עבור AI:
הפרוייקט המקורי הוא כזה: המתנדבים אספו אישורים מפודקאסטים ישראליים, לאחר מכן הם חתכו אותם לרצועות של 2 - 25 שניות, הזינו למודל תמלול Whisper (L v2), ומתנדבים מתקנים את השגיאות בדף ייעודי.
לא תוכל למצוא 25 שניות ללא החתימה הנ"ל???
ברור שאפשר למצוא אבל נראה לי שהם לא בוחרים את הקטעים אלא חותכים אותם באופן אוטומטי כך שהבעיה נשארת.
-
@2580 כתב בבקשה | תמלול שיעורי תורה עבור AI:
@jack כתב בבקשה | תמלול שיעורי תורה עבור AI:
2)איכות הקול היא לכל היותר איכות קו טלפון שכן זהו מקור ההקלטה על פי רוב
גם אם זה נכון זה בדיוק מה שצריך שהמודל יתאמן גם על הקלטות לא איכותיות כיון שהוא אמור לפענח גם הקלטות לא איכותיות...
בעקרון אתה צודק ,אבל :
1.קל יותר "למאמנים האנושיים" לשקלט קבצי קול ברורים יותר
2.בראיה צופה פני עתיד ,בדור 4 VOLTE איכות הקול אמורה להיות יותר גבוהה אז הגיוני לאמן את המודל ברמת האיכות הגבוהה ביותר שאפשר
ולכן לדעתי עדיף לנסות לקבל מאנשים פרטיים את ההקלטות ישר ממכשיר ההקלטה -
@MusiCode כתב בבקשה | תמלול שיעורי תורה עבור AI:
האמת שהיו בעיות עם קול הלשון.
בינתיים קיבלנו אישור להתחיל עם אתר "בינינו".
מקווה שילך מהר, זה לא תלוי רק בי, אלא גם ביוזמי הפרוייקט האב - Ivrit.AI.כל הכבוד ישכ"ח עצום אשמח לעזור בתמלול בל"נ כשהפרויקט יעלה לאוויר.
אני מציע שעד שקול הלשון יאפשרו שימוש במאגר שלהם אפשר לפנות ישירות לאנשים שישלחו את ההקלטות במייל.
הפירסום חינם במדור "רשות הרבים" או בפורמים התורניים השונים כמו פורום מורשת מרן או פורום לתורה
-
דבר אחד לא הבנתי, מי אמור להתנגד למהלך? מה העיקרון של "לבקש אישור" זה סה״כ שימוש פרטי ולא הפצה מסחרית של ספר למשל...
-
@Ykingsmart מבחינה חוקית לא בדיוק ברור כל הקטע של שימוש בדאטה ששייך לאנשים לאימון מודלים של AI יש על זה דיונים משפטיים בארץ ובעולם לכאורה הרעיון הוא למנוע אח"כ תביעות משפטיות מכל סוג שהוא
-
@2580 כתב בבקשה | תמלול שיעורי תורה עבור AI:
@Ykingsmart מבחינה חוקית לא בדיוק ברור כל הקטע של שימוש בדאטה ששייך לאנשים לאימון מודלים של AI יש על זה דיונים משפטיים בארץ ובעולם לכאורה הרעיון הוא למנוע אח"כ תביעות משפטיות מכל סוג שהוא
https://www.gov.il/he/departments/legalInfo/machine-learning
-
@Ykingsmart חוץ מהקטע החוקי יש גם את הענין הפרקטי של שת"פ טכני שנדרשים כמו קבלת API ישיר למשל
-
2 דברים 1. לפני כחצי שנה רציתי להוריד מקל הלשון את כל החזנות אז יצרתי סקריפט python שיוריד תיקיה שאתה נותן לה אפשר לנסות לראות אם זה עדיין עובד
2. יש לי שרת טוב לאמן מודול אם אתה צריך, רק אני רוצה להשיג אותו בצורה מסודרת מכיוון שאין לי הרבה זמן עכשיו לפרויקטים צדדיים נוספים (רק צריך להיות פשוט כדי שאוכל להעלות אותו ולהפעיל)