שיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא
-
עדכון: ניתן להתנסות במודל באופן מיידי באתר הבא:
https://huggingface.co/spaces/NHLOCAL/is-this-bible
לאחרונה עשיתי צעדים ראשונים בעולם ה-machine learning. במהלך הנסיונות יצרתי כמה מודלים לכמה מטרות, בין השאר - מודל שמזהה האם משפט מסויים הוא מהתנ"ך או מכל מקום אחר.
לצורך כך השתמשתי ברשימה של כ-500 פסוקים ממקומות שונים בתנ"ך ושל כ-500 משפטים בסגונונת שונים, כמו חדשות, בדיחות, סיפורים, מונולוגים, ועוד.
טוב, זה לא הדבר הכי שימושי בעולם, זה בא בעיקר בשביל להדגים את היכולות של למידת מכונה.
האמת היא, שכמעט לא עשיתי שום דבר בעצמי. בניית הקוד הבסיסי, ואפילו מערך הנתונים, נוצר בעזרתו האדיבה של צ'אט GPT.המודל מצליח לזהות משפטים ברמה טובה למדי, וניתן לנסות אותו בקלות על ידי הורדת קובץ השחרור מהמאגר בגיטהאב.
תוכלו להריץ את הקובץ try_model כדי לראות רשימת משפטים לדוגמה עם הזיהוי "bible" או "other", כולל רמת הוודאות של הזיהוי. בנוסף, תוכלו להכניס משפט כלשהו כפרמטר משורת הפקודה עם מרכאות בתחילת וסוף המשפט.
ניתן לחפש את המשפט הספציפי בתוך הקובץ bible_data.csv שמכיל את מערך הנתונים, כדי לוודא שהמשפט לא הוזן למודל מראש.
כדי להריץ את המודל בפועל יש להוריד עם pip את המודלים joblib ו- nltk.
דוגמה:
קלט שלילי:
try_model.py "האתר מתמחים מכיל שאלות בנושאי תכנות ונושאים אחרים"
פלט:
Text: האתר מתמחים מכיל שאלות בנושאי תכנות ונושאים אחרים | Prediction: Other | Confidence Score: 0.3112
קלט חיובי:
try_model.py "עניה סערה לא נחמה הנה אנכי מרביץ בפוך אבניך"
פלט:
Text: עניה סערה לא נחמה הנה אנכי מרביץ בפוך אבניך ויסדתיך בספירים | Prediction: Bible | Confidence Score: 1.0000
קישור למאגר עצמו - https://github.com/NHLOCAL/is-this-bible
-
@EMG כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@NH-LOCAL אתה יכול להסביר איך עשית את זה ? (או שזה חסוי...)
גם אני מצטרף לשאלה ומוסיף איפה יש חומר למידה על זה ברשת?
ואפילושהדרך הטובה ביותר ללמוד משהו בתכנות, זה ליצור אתו משהו.
צריך לדעת את החומר
-
@EMG כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@NH-LOCAL אתה יכול להסביר איך עשית את זה ? (או שזה חסוי...)
חסוי מאוד... וברצינות: הקוד המלא מופיע בגיטהאב, כולל המערך נתונים (כלומר רשימה של משפטים סתם ופסוקים מהתנ"ך), איך זה יכול להיות חסוי?
@פייתוניסט כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
צריך לדעת את החומר
בעידן ה-AI, זה כבר ממש לא מדויק. למעשה, מלבד למידה קלה על הנושא, שלא באמת שימשה אותי ב-W3SCHOOLS (אגב, ממליץ בחום - ההסבר פשוט מאוד ומסביר גם מונחים מתמטיים מסובכים בשפה פשוטה), הקוד כמעט במלואו נכתב יד ביד עם GPT
למעשה, זו לא חוכמה גדולה, אפשר ליצור דברים כאלו מאוד בקלות בפייתון. אני אישית נעזרתי בצ'אט GPT לאורך כל הדרך, בהמשך אצרף קישורים לשרשורים עם הצ'אט.
כעקרון יש לומר, שכדי לאמן מודל בסגנון הזה, כל מה שצריך זה להכניס רשימה של משפטים נכונים ולא נכונים. הנכונים מסומנים ב-1, והשליליים ב-0.
במקרה שלנו, פסוקים מהתנ"ך סומנו ב-1, ומשפטים סתמיים ב-0.לדוגמה:
איש אחד הלך ברחוב,0 ויאמר ה' אל משה לאמור,1
באופן כללי היו שתי שלבים שונים. שלב אחד של יצירת קוד יצירת המודל, ושלב נוסף של יצירת מערך הנתונים. למעשה, נעזרתי בצ'אט GPT לצורך יצירת עשרות מאות משפטים שונים ומשונים לאימון המודל. אציין שהקישורים המובאים כאן לא מלאים, מכיון שכל שרשור מלא בפיצולים וניסיונות חוזרים שלא מוצגים בשיתוף.
יצירת קוד פייתון עבור בניית מודל:
https://chat.openai.com/share/546f20ad-a034-4cd9-8047-b7a6bfb56733יצירת טקסטים שונים ומשונים ועזרה בשינוי פורמט לטקסטים מהתנ"ך:
https://chat.openai.com/share/493e56c7-cf54-4781-b7d8-9c9a66413a82
ושלב אחרון - הוספת ציון של רמת הוודאות של התוצאה:
https://chat.openai.com/share/396ff5e0-a2de-491b-94a1-a22bd1563825
-
@NH-LOCAL אתה גמור??? איפה אתה חי??? היום המודלי שפה הם עובדים 100% בעברית, לא פחות מאנגלית, אני קובע מתכתב איתם בעברית
https://chat.openai.com/
https://bard.google.com/
https://claude.ai/chat (לאחרונה @זונדל הראה לי אותו, ונראה לי שהוא הכי טוב!!)
https://beta.character.a -
@mefateach לגבי קלאוד AI, כנראה שאתה צודק. לא יצא לי להשתמש בו בעצמי.
לגבי כל השאר - צ'אט GPT גרוע ממש בעברית (אא"כ מדובר על GPT4)
בארד - ברמה סבירה ומטה
לגבי character - בפעם האחרונה שנגעתי בו לא הייתה בו עברית בכלל, אם זה השתנה - תעדכןבקיצור - בהחלט טעיתי במידת מה, אבל גם אתה לא הכי מדייק
-
@mefateach כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
https://claude.ai/chat (לאחרונה @זונדל הראה לי אותו, ונראה לי שהוא הכי טוב!!)
נטפרי מחפשים פתרונות סינון
חסום בנטפרי
-
סתם ,בשביל הסקרנות- האם אוצר החכמה עובדים על AI כלשהו כדי לשפר את תוצאות החיפוש?
[אני מאמין שזה לא יוכל לרוץ על המחשב, אבל אולי באוצר החכמה אונליין?, או שזה כן אפשרי להריץ משהו כזה על המחשב?] -
@האדם-החושב אתה מתכוון על מערכת עתידית כזו, או על משהו שקיים עכשיו?
כרגע אין יותר מאשר מערכת של רגקס (שגם היא דבר מתקדם כשלעצמו).
רגקס = שיפור חיפוש על ידי הגדרת מילים חילופיות (אדם במקום איש), וכן חיפוש ספציפי בצורה מדוייקת (למשל - האות ח' בתחילת מילה) ועודאפשר בהחלט להריץ מודל AI על מחשב, השאלה רק כמה כבד הוא יהיה
-
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
מערכת עתידית
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
כרגע אין יותר מאשר מערכת של רגקס (שגם היא דבר מתקדם כשלעצמו).
נכון ,אבל לדעתי AI יהיה מוצלח הרבה יותר
אולי צריך לפנות אליהםואולי גם לעשות משהו בסגנון שאתה יצרת כדי לזהות סגנון ספר וכך לייעל את זמן החיפוש
[אני יודע שניתן לבחור מאגרים לחיפוש, אבל לדעתי זה יפשט יותר את התהליך] -
@האדם-החושב כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
ואולי גם לעשות משהו בסגנון שאתה יצרת כדי לזהות סגנון ספר וכך לייעל את זמן החיפוש
רעיון מעניין...
העניין הוא שכל פרט כזה דורש אימון אינסופי. מה שכן, ניתן לבצע חיפוש מתקדם בעזרת מודלי שפה קייימים שיוכלו לקשר בין המילים שחיפשת לתוכן כלשהו לפי הקשר באופן מתקדם
-
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
לגבי כל השאר - צ'אט GPT גרוע ממש בעברית (אא"כ מדובר על GPT4)
לא יודע על מה אתה מדבר אני ממש מסתדר איתו בעברית מצויין
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
בארד - ברמה סבירה ומטה
כנ״ל עובד לי מעולה
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
לגבי character - בפעם האחרונה שנגעתי בו לא הייתה בו עברית בכלל, אם זה השתנה - תעדכן
תלוי איזה דמויות, יש דמיות שיודעות עברית ויש שלא.
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
בקיצור - בהחלט טעיתי במידת מה, אבל גם אתה לא הכי מדייק
זה לא מה שחשוב... מה שחשוב זה שגם בעברית ברמה נמוכה זה שווה אם הוא ידע ״ללמוד טוב״
@אהרן כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
נטפרי מחפשים פתרונות סינון
חסום בנטפרי
מה אתה רוצה ממני??
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
רגקס = שיפור חיפוש על ידי הגדרת מילים חילופיות
רגקס עד כמה שידוע לי זה חיפוש מדויק לא
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
אפשר בהחלט להריץ מודל AI על מחשב, השאלה רק כמה כבד הוא יהיה
רק אם הוא בקוד פתוח...
-
@mefateach כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
רגקס עד כמה שידוע לי זה חיפוש מדויק לא
צודק. לגבי כל השאר - פחות מסכים...
ומה באה לומר ההדגמה של שור-בור וכו'?