שיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא
-
עדכון: ניתן להתנסות במודל באופן מיידי באתר הבא:
https://huggingface.co/spaces/NHLOCAL/is-this-bible
לאחרונה עשיתי צעדים ראשונים בעולם ה-machine learning. במהלך הנסיונות יצרתי כמה מודלים לכמה מטרות, בין השאר - מודל שמזהה האם משפט מסויים הוא מהתנ"ך או מכל מקום אחר.
לצורך כך השתמשתי ברשימה של כ-500 פסוקים ממקומות שונים בתנ"ך ושל כ-500 משפטים בסגונונת שונים, כמו חדשות, בדיחות, סיפורים, מונולוגים, ועוד.
טוב, זה לא הדבר הכי שימושי בעולם, זה בא בעיקר בשביל להדגים את היכולות של למידת מכונה.
האמת היא, שכמעט לא עשיתי שום דבר בעצמי. בניית הקוד הבסיסי, ואפילו מערך הנתונים, נוצר בעזרתו האדיבה של צ'אט GPT.המודל מצליח לזהות משפטים ברמה טובה למדי, וניתן לנסות אותו בקלות על ידי הורדת קובץ השחרור מהמאגר בגיטהאב.
תוכלו להריץ את הקובץ try_model כדי לראות רשימת משפטים לדוגמה עם הזיהוי "bible" או "other", כולל רמת הוודאות של הזיהוי. בנוסף, תוכלו להכניס משפט כלשהו כפרמטר משורת הפקודה עם מרכאות בתחילת וסוף המשפט.
ניתן לחפש את המשפט הספציפי בתוך הקובץ bible_data.csv שמכיל את מערך הנתונים, כדי לוודא שהמשפט לא הוזן למודל מראש.
כדי להריץ את המודל בפועל יש להוריד עם pip את המודלים joblib ו- nltk.
דוגמה:
קלט שלילי:
try_model.py "האתר מתמחים מכיל שאלות בנושאי תכנות ונושאים אחרים"
פלט:
Text: האתר מתמחים מכיל שאלות בנושאי תכנות ונושאים אחרים | Prediction: Other | Confidence Score: 0.3112
קלט חיובי:
try_model.py "עניה סערה לא נחמה הנה אנכי מרביץ בפוך אבניך"
פלט:
Text: עניה סערה לא נחמה הנה אנכי מרביץ בפוך אבניך ויסדתיך בספירים | Prediction: Bible | Confidence Score: 1.0000
קישור למאגר עצמו - https://github.com/NHLOCAL/is-this-bible
עדכון: כדי לאפשר לכולם להתנסות במודל, (וגם סתם כך לכיף, כי זה ממש קל...) בניתי אפליקצייה על גבי אתר "hugging face" שמריצה את המודל אונליין. כל אחד יכול להתנסות בה.
כרגע העיצוב די מינימלי, ואפילו לא בהמשך. אני מקווה לשפר את זה קצת בהמשך בעז"ה
ניתן להכנס לאפליקצייה כאן:
-
@NH-LOCAL מאוד יפה!
ניסיתי עכשיו "ויבוא אברהם" והוא אומר לא תנך
ניסיתי "ויבא אברהם" ואז הוא מאשר.האם המודל חייב בדיוק את האיות הנכון?
-
@Whenever המודל לא חייב כלום. אף אחד לא יכול להסביר איך הוא בדיוק עובד.
בכל מקרה, צריך להכניס לו טקסט קצת יותר ארוך. הוא לא מתאים למילה וחצי אלא למשפט שלם.@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever המודל לא חייב כלום. אף אחד לא יכול להסביר איך הוא בדיוק עובד.
בכל מקרה, צריך להכניס לו טקסט קצת יותר ארוך. הוא לא מתאים למילה וחצי אלא למשפט שלם."חור כרפס ותכלת אחוז" (מגילת אסתר)
הוא לא מוצא את זה, זה עובד גם על כתובים? -
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever המודל לא חייב כלום. אף אחד לא יכול להסביר איך הוא בדיוק עובד.
בכל מקרה, צריך להכניס לו טקסט קצת יותר ארוך. הוא לא מתאים למילה וחצי אלא למשפט שלם."חור כרפס ותכלת אחוז" (מגילת אסתר)
הוא לא מוצא את זה, זה עובד גם על כתובים? -
@Whenever אימנתי אותו על כל התנ"ך. הנקודה היא שאין לו את כל התנ"ך בראש, והוא גם לא מבצע חיפוש בתנ"ך. הכנסתי לו כמה מאות פסוקים מכל רחבי התנ"ך, וכעת הוא אמור לזהות לפי הסגנון האם הפסוק מהתנ"ך או לא
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever אימנתי אותו על כל התנ"ך. הנקודה היא שאין לו את כל התנ"ך בראש, והוא גם לא מבצע חיפוש בתנ"ך. הכנסתי לו כמה מאות פסוקים מכל רחבי התנ"ך, וכעת הוא אמור לזהות לפי הסגנון האם הפסוק מהתנ"ך או לא
מאוד מעניין!
שמעתי פעם שחוקרים ניסו לבדוק אם יש לתנ"ך סגנון ומצאו שאין! כלומר לא ניתן להשוות בין פרשת בראשית ופרשת האזינו ולקבל סגנון כל שהוא. אם זה נכון, זה יקשה מאוד על כזה מודל...
מעניין גם מה המודל עושה עם שם ה'. האם הוא מזהה "ה'" כשם מלא?בכל אופן אני מבין שתנ"ך לא היתה המטרה פה.
תודה על הטעימה!
-
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever אימנתי אותו על כל התנ"ך. הנקודה היא שאין לו את כל התנ"ך בראש, והוא גם לא מבצע חיפוש בתנ"ך. הכנסתי לו כמה מאות פסוקים מכל רחבי התנ"ך, וכעת הוא אמור לזהות לפי הסגנון האם הפסוק מהתנ"ך או לא
מאוד מעניין!
שמעתי פעם שחוקרים ניסו לבדוק אם יש לתנ"ך סגנון ומצאו שאין! כלומר לא ניתן להשוות בין פרשת בראשית ופרשת האזינו ולקבל סגנון כל שהוא. אם זה נכון, זה יקשה מאוד על כזה מודל...
מעניין גם מה המודל עושה עם שם ה'. האם הוא מזהה "ה'" כשם מלא?בכל אופן אני מבין שתנ"ך לא היתה המטרה פה.
תודה על הטעימה!
@Whenever כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever אימנתי אותו על כל התנ"ך. הנקודה היא שאין לו את כל התנ"ך בראש, והוא גם לא מבצע חיפוש בתנ"ך. הכנסתי לו כמה מאות פסוקים מכל רחבי התנ"ך, וכעת הוא אמור לזהות לפי הסגנון האם הפסוק מהתנ"ך או לא
מאוד מעניין!
שמעתי פעם שחוקרים ניסו לבדוק אם יש לתנ"ך סגנון ומצאו שאין! כלומר לא ניתן להשוות בין פרשת בראשית ופרשת האזינו ולקבל סגנון כל שהוא. אם זה נכון, זה יקשה מאוד על כזה מודל...
מעניין גם מה המודל עושה עם שם ה'. האם הוא מזהה "ה'" כשם מלא?נשמע מוזר. בכל מקרה, מכיוון שהמודל רק מזהה בין תנ"ך ללא-תנ"ך ולא בין חלקים שונים בתנ"ך, המחקר הזה לא רלוונטי.
בכל אופן אני מבין שתנ"ך לא היתה המטרה פה.
נכון. זה סתם מודל שנתן לי וגם יכול לתת לאחרים דוגמה לדרכי האימון של בינה מלאכותית. יש לציין שזה היה ממש קל, ובאותה תבנית אפשר לאמן מודלים לכל דבר שהוא. (לדוגמה: זיהוי הספאם של ג'ימייל משתמש בשיטה דומה, משתמשים בזה גם לזהות רגשות במשפטים. למשל, האם משפט מסויים הוא מצחיק או עצוב, וכן הלאה והלאה)
-
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever המודל לא חייב כלום. אף אחד לא יכול להסביר איך הוא בדיוק עובד.
בכל מקרה, צריך להכניס לו טקסט קצת יותר ארוך. הוא לא מתאים למילה וחצי אלא למשפט שלם."חור כרפס ותכלת אחוז" (מגילת אסתר)
הוא לא מוצא את זה, זה עובד גם על כתובים?@Whenever כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever המודל לא חייב כלום. אף אחד לא יכול להסביר איך הוא בדיוק עובד.
בכל מקרה, צריך להכניס לו טקסט קצת יותר ארוך. הוא לא מתאים למילה וחצי אלא למשפט שלם."חור כרפס ותכלת אחוז" (מגילת אסתר)
הוא לא מוצא את זה, זה עובד גם על כתובים?אם אתה מחפש חיפוש חכם בתנ"ך יש לדיקטה שירות כזה
https://search.dicta.org.il -
לי זה לא תמיד עובד
הוא לא מוצא
ועשו לי מקדש ושכנתי בתוכםאורה ושמחה וששון ויקר
איך נשיר את שיר ה על אדמת נכר
שמעה בקולי תהיינה אזניך קשובות
המודל חושב שזה תנך
כל כתבי חפץ חיים השלם
בימי מתתיהו בן יוחנן
ממשה למשה לא קם כמשה
מי שבירך אבותינו אברהם יצחק ויעקב
אין לנו על מי להישען אלא
ימים מקדם תשמע ותשיש היום תשמע שמחהעריכה, יש הרבה שהוא צודק אבל יש...
-
לי זה לא תמיד עובד
הוא לא מוצא
ועשו לי מקדש ושכנתי בתוכםאורה ושמחה וששון ויקר
איך נשיר את שיר ה על אדמת נכר
שמעה בקולי תהיינה אזניך קשובות
המודל חושב שזה תנך
כל כתבי חפץ חיים השלם
בימי מתתיהו בן יוחנן
ממשה למשה לא קם כמשה
מי שבירך אבותינו אברהם יצחק ויעקב
אין לנו על מי להישען אלא
ימים מקדם תשמע ותשיש היום תשמע שמחהעריכה, יש הרבה שהוא צודק אבל יש...
-
@Whenever המודל אומן על שם ה' המלא ולא על האות ה', כך שדוגמה מספר 4 יכולה להטעות אותו.
אבל אין מה לומר, אתה אלוף בלהטעות אותו. איכשהו, בכל הדוגמאות שניסיתי זה תמיד עבד...
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever המודל אומן על שם ה' המלא ולא על האות ה', כך שדוגמה מספר 4 יכולה להטעות אותו.
אבל אין מה לומר, אתה אלוף בלהטעות אותו. איכשהו, בכל הדוגמאות שניסיתי זה תמיד עבד...
אני עוד מנסה להטעות אותו:)
תנסה משפטים של "אדום עולם" הוא מזהה אותם לתנ"ך
אני מנסה פיוטים ישנים וסתם דברים ספרותיים.
עוד לא מצאתי קו מנחה, שאמצא אוכל להוות מודל בעצמי:) -
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever המודל אומן על שם ה' המלא ולא על האות ה', כך שדוגמה מספר 4 יכולה להטעות אותו.
אבל אין מה לומר, אתה אלוף בלהטעות אותו. איכשהו, בכל הדוגמאות שניסיתי זה תמיד עבד...
אני עוד מנסה להטעות אותו:)
תנסה משפטים של "אדום עולם" הוא מזהה אותם לתנ"ך
אני מנסה פיוטים ישנים וסתם דברים ספרותיים.
עוד לא מצאתי קו מנחה, שאמצא אוכל להוות מודל בעצמי:)@Whenever כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
עוד לא מצאתי קו מנחה, שאמצא אוכל להוות מודל בעצמי:)
אם אתה רוצה לדעת את הקו המנחה, תוכל למצוא אותו כאן... מדובר על קובץ csv המכיל 500 משפטים מהתנ"ך (לשם השוואה - התנ"ך מכיל כ-22,000 פסוקים שרובם ארוכים יותר מהמשפטים שהכנסתי), 500 משפטים מהתלמוד ו-500 משפטים סתמיים.
https://huggingface.co/spaces/NHLOCAL/is-this-bible/blob/main/data_creation/bible_talmud_data.csv
-
אני חושב שאני מתמכר לזה
הנה משפטים שהוא קורא כתנ"ך (כולם המצאות שלי):
אלך בחוצות נאהב על עמי כי אני עמדי
כן אודה ביום הארוך כי זה עמלי
מה אעשה ולאן אפנה נצעד בדרך לשום תהום
אגדלך ביום בדרך הרים על עמוד איתן יציבו מתמחים
כי אל מתמחים אגש ושם אכתוב לעם השוכן בקרבת מקום
מתמחים הריעו כי גדולים עמכם
דרך מתמחים צעד ישראל אל ראש נחל גבול -
-
@NH-LOCAL אני מרגיש שפיצחתי את הסגנון התנכי של המודל
תנסו את זה:
למרות המצאותי וקש ראשי אבקש שהצחוק ימשיך להתגלגל כי כן דרכי וגם דרכך נשמח ונודה יחדותאמר ראשי לישון נשכבתי פן מחר אבכה ובעייפות נהלכתי
המשך אדר שמח!