שיתוף | יותר טוב מהמודל של OpenAI: שוחרר מודל תמלול AI ראשון בעברית שנוצר על ידי הקהילה
-
פרויקט Ivrit.AI רוצה ליצור מאגר מידע בעברית, שישמש לאימון של מודלי AI מתקדמים. עכשיו הוא משחרר את המודל הראשון שאומן על חלק מהמאגר, והתוצאות כבר מרשימות
פיתוחי AI שונים צצים כמו פטריות אחרי הגשם, אבל רובם מבוססים על אנגלית, ולא בכדי. יש לא מעט מידע פתוח וזמין באנגלית לכל דורש, ויש כמובן שוק הרבה יותר גדול של דוברי ודוברות אנגלית. בעברית הכל קצת יותר קשה ופחות שכיח, אבל מיזם ישראלי הגיע השבוע להישג מרשים מאוד, כשהוא משחרר את מודל התמלול הראשון בעברית, והוא אפילו טוען שהוא יותר טוב בתמלול בעברית מ-Whisper, המודל עליו נתמכים כמעט כל הכלים שתומכים בעברית.
מאות מתנדבים, 13 אלף שעות תוכן ומודל אחד
פרויקט Ivrit.AI הוא מיזם ללא כוונת רווח שנוצר לפני כמעט שנה על ידי יניר מרמור, יאיר ליפשיץ וכנרת משגב, עם אתגר לא פשוט: ליצור תשתיות שיאפשרו תמיכה אמיתית ואיכותית בעברית בכלי AI שונים. כמו בכל פיתוח AI, הכל מתחיל בדאטהסט רחב ככל הניתן, שיאפשר את אימון המודלים השונים. מרמור מספר כי מאז שהקבוצה יצאה לדרך, הדאטהסט שלה התעצם והגיע ל-13 אלף שעות מוקלטות של תוכן אודיו בעברית, עם רישיון שימוש ייעודי, שמאפשר אימון תוך שמירה על זכויות היוצרים. על פי היוצרים, הרציונל שהנחה אותם בפרויקט הוא "להנגיש הרבה דאטה ברישיון שיאפשר שימוש מסחרי ומחקרי לשיפור מודלי שפה ודיבור בעברית", ולכן כל הדאטה במאגר מותר לשימוש באימון מודלים של בינה מלאכותית לסוגיהם (למעט יישומי דיפ-פייק).לדברי מרמור, המאגר כולל כ-5,000 דוברים, מתוכם 1,500 דוברות, ומורכב מתכנים כמו פודקאסטים באיכות גבוהה, ראיונות, שיחות והרצאות באיכות גבוהה אבל גם הרצאות באיכויות ותנאי הקלטה שונים, כדי לגוון את המאגר ככל הניתן. לאחר מכן, כל התכנים במאגר פורקו למקטעים של עד חצי דקה, ואלו נשלחו ל-Whisper, מודל התמלול המצוין של OpenAI. אבל כל מי שהשתמש בוויספר כבר יודע שהוא לא מושלם בעברית, והצוות נעזר ביותר מ-600 מתנדבים ומתנדבות, שעברו על התמלולים ותיקנו יותר מ-100 שעות תוכן.
לאחר מכן, מודל STT אומן על 60 שעות של המאגר המטויב, ולטענת חברי הפרויקט, המודל הראשון הציג תוצאות טובות אף יותר מאלו של Whisper המקורי, כך שלכאורה, מדובר במודל התמלול העברי הטוב ביותר שקיים (עד כה, כמובן). בפרויקט טוענים כי מודלים נוספים, וטובים אף יותר ישוחררו בהמשך
אם אתם רוצים להתחיל להשתמש במודל החדש, הוא זמין לכם דרך Hugging Face, ונראה שזהו רק עניין של זמן עד אשר נראה גם כלים שיאפשרו לכל אחד ואחת ליהנות מפירותיו בקלות. בינתיים, יוצרי הפרויקט ממשיכים לגייס מתנדבים ומתנדבות שיטייבו את המאגר,
מקור גייקיטים
-
@מויטיו כתב בשיתוף | יותר טוב מהמודל של OpenAI: שוחרר מודל תמלול AI ראשון בעברית שנוצר על ידי הקהילה:
אפשר לבחור בדף שלהם האם לתמלל הקלטה או קובץ מהמכשיר והמודל מתמלל את זה בצורה יפה מאוד
אני יכול להעלות הקלטה שלי והוא מתמלל לי את זה או שאני צריך לתמלל בשבילם הקלטות?
כי כרגע מה שאני רואה שם זה רק קטעי שמע שאני צריך לתמלל -
@pythoni כתב בשיתוף | יותר טוב מהמודל של OpenAI: שוחרר מודל תמלול AI ראשון בעברית שנוצר על ידי הקהילה:
אם אתם רוצים להתחיל להשתמש במודל החדש, הוא זמין לכם דרך Hugging Face, ונראה שזהו רק עניין של זמן עד אשר נראה גם כלים שיאפשרו לכל אחד ואחת ליהנות מפירותיו בקלות. בינתיים, יוצרי הפרויקט ממשיכים לגייס מתנדבים ומתנדבות שיטייבו את המאגר,
במקור יש קישור
בהצלחה -
@ישראל-142 כתב בשיתוף | יותר טוב מהמודל של OpenAI: שוחרר מודל תמלול AI ראשון בעברית שנוצר על ידי הקהילה:
או להיכנס לכתובת הזאת https://serve.ivrit.ai/ אבל לא הבנתי איך מעלים לשם קבצים
זה לא דרך קיימת.
-
@ישראל-142 כתב בשיתוף | יותר טוב מהמודל של OpenAI: שוחרר מודל תמלול AI ראשון בעברית שנוצר על ידי הקהילה:
או להוריד מכאן ולהשתמש באופליין, עם אחת התוכנות שדיברו עליהם בפורום
מישהוא יכול להעלות את זה?
[חסום בחלק מהחסימות...] -
@אלף-שין
אני לא מבין בקוד, כך שלא הבנתי כיצד ניתן להשתמש בזה.
וכאן המקום לבקש ממי שיודע האם ניתן להוריד ולהשתמש אופליין, כיצד עושים זאת לתועלת הכלל.
עד כמה שזכור לי @A0533057932 עזר לכולם להוריד את הדגם הראשון ש @כבוד-הרב הביא, כך שאולי הוא יוכל לעזור גם כאן.
בתודה מראש!!! -
@מויטיו כתב בשיתוף | יותר טוב מהמודל של OpenAI: שוחרר מודל תמלול AI ראשון בעברית שנוצר על ידי הקהילה:
@שמואל-ש מה לא מובן?
אפשר לבחור בדף שלהם האם לתמלל הקלטה או קובץ מהמכשיר והמודל מתמלל את זה בצורה יפה מאוד
כדאי לנסות...זה מוגבל לזמן? כי ניסיתי להעלות קובץ ולא קיבלתי תמלול
-
יש פה הדרכה פשוטה לשימוש
https://mitmachim.top/post/768635 -
@ישראל-142 כתב בשיתוף | יותר טוב מהמודל של OpenAI: שוחרר מודל תמלול AI ראשון בעברית שנוצר על ידי הקהילה:
@שמואל-ש
אפשר כבר להשתמש ובשני דרכים- או להוריד מכאן ולהשתמש באופליין, עם אחת התוכנות שדיברו עליהם בפורום
- או להיכנס לכתובת הזאת https://serve.ivrit.ai/ אבל לא הבנתי איך מעלים לשם קבצים
ואפשר גם דרך כאן
הלינק https://serve.ivrit.ai/ שהבאת נועד למי שרוצה לשפר את המודל על ידי טיוב תמלול קיים מהמאגר שלהם.
אין אפשרות להעלות קבצים משלך על מנת לתמלל!והאמת שחבל, כי הייתי שמח להעלות כמה שיעורים ולתמלל אותם וככה הייתי מרוויח כמה לעזור לפרויקט וגם שיעור תורה וגם טיוב המנוע להגיה הישיבתית עם המונחים המיוחדים שלה
-
@jack תפנה אליהם:
yair@lifshitz.io -
@צדיק-וטוב-לו-0 פניתי במייל לפני כשבוע אבל עד עכשיו לא קיבלתי תשובה.
יכול להיות שזה מפני שכמו שכבר ציין @מישהו12 ש@MusiCode כבר יצר איתם קשר