שיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא
-
@sivan22 כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
יש למערכות האלו אלגוריתים? איך הם מחליטים כמה משקל לכל תיבה?
למידת מכונה, כמו כל רשת נוירונים. הוא לומד מהטעויות שלו, ומתקן את המשקלים לפי התוצאות המבוקשות.
תודה רבה!
אז אם הבנתי נכון בML אין אלגוריתים אלא המערכת יוצרת לעצמה הבנה על פי האימון ושם זה מסתיים.
האם אפשר לראות מה המערכת למדה? איפה המודל שומר את המידע שרכש?
אני מתאר לעצמי שזה לא על רגל אחת אבל תודה בכל אופן. -
@מישהו12 כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@sivan22 כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
זה שונה מהותית.
אז איך קוראים לטכנולוגיה הזו?
זהו מודל של למידת מכונה, אבל מדור קודם ללא attention.
המודל הזה ספציפית הוא זה: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html -
@Whenever כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
האם אפשר לראות מה המערכת למדה? איפה המודל שומר את המידע שרכש?
אפשר לראות, ובמקרה הנוכחי זה נשמר בתוך שתי קבצים בעלי סיומת pkl. בפועל, בן אדם לא יכול להבין את המודל, מכיוון שמדובר ברצף של תווים חסרי משמעות , כמו קוד בינארי של תוכנה.
@sivan22 כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
חשוב לי להדגיש שלא מדובר במודל שפה גדול (מה שמכונה LLM) אלא במודל יותר פשוט מזה. לשם השוואה המודל הזה שוקל בסביבות 180KB לעומת מודל השפה BEREL-2.0 ששוקל כ700 מ"ב.
גם BEREL לא נחשב מודל שפה גדול, אלא מודל שפה קטן (SLM), מודלים גדולים מכילים עשרות-מאות מליארדי פרמטרים. שמתבטאים במשקל של מאות ג'יגה.
למעשה, המודל הנוכחי הוא בכלל לא מודל שפה במובן המוכר, מאחר שהוא לא יכול ליצור טקסט אלא בסך הכל לסווג טקסט לקבוצות שונות באמצעות עיבוד שפה טבעית (המכונה NLP)
ככלל, המושג "בינה מלאכותית" ו"למידת מכונה", הוא מושג רחב מאוד שקיים כבר עשרות שנים. הרבה לפני שמודלי השפה הגדולים, יוצרי התמונות והבינה המלאכותית הכללית פרצו לחיינו.
- החיפוש של גוגל משתמש באלגוריתמים של בינה מלאכותית להתאמת התוצאות המתאימות ביותר.
- סינון הספאם במייל מתבסס על מודל סיווג טקסטים
- גוגל טרנסלייט ודומיו מתבסס על בינה מלאכותית של עיבוד שפה טבעית
- זיהוי קולי, כנ"ל
ועוד..
-
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
האם אפשר לראות מה המערכת למדה? איפה המודל שומר את המידע שרכש?
אפשר לראות, ובמקרה הנוכחי זה נשמר בתוך שתי קבצים בעלי סיומת pkl. בפועל, בן אדם לא יכול להבין את המודל, מכיוון שמדובר ברצף של תווים חסרי משמעות , כמו קוד בינארי של תוכנה.
@sivan22 כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
חשוב לי להדגיש שלא מדובר במודל שפה גדול (מה שמכונה LLM) אלא במודל יותר פשוט מזה. לשם השוואה המודל הזה שוקל בסביבות 180KB לעומת מודל השפה BEREL-2.0 ששוקל כ700 מ"ב.
גם BEREL לא נחשב מודל שפה גדול, אלא מודל שפה קטן (SLM), מודלים גדולים מכילים עשרות-מאות מליארדי פרמטרים. שמתבטאים במשקל של מאות ג'יגה.
למעשה, המודל הנוכחי הוא בכלל לא מודל שפה במובן המוכר, מאחר שהוא לא יכול ליצור טקסט אלא בסך הכל לסווג טקסט לקבוצות שונות באמצעות עיבוד שפה טבעית (המכונה NLP)
תודה רבה!
ניסיתי באמת להוריד את הקובץ אבל הוא נפתח כתווים מוזרים.שוב תודה על ההסבר, יש לי הרבה מה ללמוד:)
https://en.wikipedia.org/wiki/Neural_network_(machine_learning)
https://www.freecodecamp.org/news/deep-learning-neural-networks-explained-in-plain-english/רציתי לתת לך עוד מוניטין אבל כבר הבאתי לך שש היום וזה מוגבל
-
@Whenever כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
שוב תודה על ההסבר, יש לי הרבה מה ללמוד:)
https://mitmachim.top/topic/61970/מדריך-מדעי-הנתונים-ולמידת-מכונה-מקורות-למתעניינים