פרויקט Ivrit.AI רוצה ליצור מאגר מידע בעברית, שישמש לאימון של מודלי AI מתקדמים. עכשיו הוא משחרר את המודל הראשון שאומן על חלק מהמאגר, והתוצאות כבר מרשימות
פיתוחי AI שונים צצים כמו פטריות אחרי הגשם, אבל רובם מבוססים על אנגלית, ולא בכדי. יש לא מעט מידע פתוח וזמין באנגלית לכל דורש, ויש כמובן שוק הרבה יותר גדול של דוברי ודוברות אנגלית. בעברית הכל קצת יותר קשה ופחות שכיח, אבל מיזם ישראלי הגיע השבוע להישג מרשים מאוד, כשהוא משחרר את מודל התמלול הראשון בעברית, והוא אפילו טוען שהוא יותר טוב בתמלול בעברית מ-Whisper, המודל עליו נתמכים כמעט כל הכלים שתומכים בעברית.
מאות מתנדבים, 13 אלף שעות תוכן ומודל אחד
פרויקט Ivrit.AI הוא מיזם ללא כוונת רווח שנוצר לפני כמעט שנה על ידי יניר מרמור, יאיר ליפשיץ וכנרת משגב, עם אתגר לא פשוט: ליצור תשתיות שיאפשרו תמיכה אמיתית ואיכותית בעברית בכלי AI שונים. כמו בכל פיתוח AI, הכל מתחיל בדאטהסט רחב ככל הניתן, שיאפשר את אימון המודלים השונים. מרמור מספר כי מאז שהקבוצה יצאה לדרך, הדאטהסט שלה התעצם והגיע ל-13 אלף שעות מוקלטות של תוכן אודיו בעברית, עם רישיון שימוש ייעודי, שמאפשר אימון תוך שמירה על זכויות היוצרים. על פי היוצרים, הרציונל שהנחה אותם בפרויקט הוא "להנגיש הרבה דאטה ברישיון שיאפשר שימוש מסחרי ומחקרי לשיפור מודלי שפה ודיבור בעברית", ולכן כל הדאטה במאגר מותר לשימוש באימון מודלים של בינה מלאכותית לסוגיהם (למעט יישומי דיפ-פייק).
לדברי מרמור, המאגר כולל כ-5,000 דוברים, מתוכם 1,500 דוברות, ומורכב מתכנים כמו פודקאסטים באיכות גבוהה, ראיונות, שיחות והרצאות באיכות גבוהה אבל גם הרצאות באיכויות ותנאי הקלטה שונים, כדי לגוון את המאגר ככל הניתן. לאחר מכן, כל התכנים במאגר פורקו למקטעים של עד חצי דקה, ואלו נשלחו ל-Whisper, מודל התמלול המצוין של OpenAI. אבל כל מי שהשתמש בוויספר כבר יודע שהוא לא מושלם בעברית, והצוות נעזר ביותר מ-600 מתנדבים ומתנדבות, שעברו על התמלולים ותיקנו יותר מ-100 שעות תוכן.
לאחר מכן, מודל STT אומן על 60 שעות של המאגר המטויב, ולטענת חברי הפרויקט, המודל הראשון הציג תוצאות טובות אף יותר מאלו של Whisper המקורי, כך שלכאורה, מדובר במודל התמלול העברי הטוב ביותר שקיים (עד כה, כמובן). בפרויקט טוענים כי מודלים נוספים, וטובים אף יותר ישוחררו בהמשך
אם אתם רוצים להתחיל להשתמש במודל החדש, הוא זמין לכם דרך Hugging Face, ונראה שזהו רק עניין של זמן עד אשר נראה גם כלים שיאפשרו לכל אחד ואחת ליהנות מפירותיו בקלות. בינתיים, יוצרי הפרויקט ממשיכים לגייס מתנדבים ומתנדבות שיטייבו את המאגר,
מקור גייקיטים