שיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא
-
עדכון (כ"ז אב) - יצרתי גרסה מוכנה בקובץ EXE ללא צורך בהורדת פייתון וספריות קוד.
הורידו בקישור הישיר הזה:
https://github.com/NHLOCAL/is-this-bible/releases/download/v2.0/is-this-bible.zipהוראות שימוש:
- חלצו את תוכן קובץ הזיפ לתיקיה.
- פתחו שורת הפקודה מתוך התיקיה - אפשר להקליד "CMD" בשורת הכותרת או לפתוח את התפריט בלחיצה על מקש ימני ובחירה ב"פתח במסוף" (עבור ווינדוס 11)
- הריצו את התוכנה + משפט לדוגמה שתרצו לנסות:
is-this-bible.exe "איש אחד הלך ברחוב"
-
-
עדכון: כדי לאפשר לכולם להתנסות במודל, (וגם סתם כך לכיף, כי זה ממש קל...) בניתי אפליקצייה על גבי אתר "hugging face" שמריצה את המודל אונליין. כל אחד יכול להתנסות בה.
כרגע העיצוב די מינימלי, ואפילו לא בהמשך. אני מקווה לשפר את זה קצת בהמשך בעז"ה
ניתן להכנס לאפליקצייה כאן:
-
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever המודל לא חייב כלום. אף אחד לא יכול להסביר איך הוא בדיוק עובד.
בכל מקרה, צריך להכניס לו טקסט קצת יותר ארוך. הוא לא מתאים למילה וחצי אלא למשפט שלם."חור כרפס ותכלת אחוז" (מגילת אסתר)
הוא לא מוצא את זה, זה עובד גם על כתובים? -
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever אימנתי אותו על כל התנ"ך. הנקודה היא שאין לו את כל התנ"ך בראש, והוא גם לא מבצע חיפוש בתנ"ך. הכנסתי לו כמה מאות פסוקים מכל רחבי התנ"ך, וכעת הוא אמור לזהות לפי הסגנון האם הפסוק מהתנ"ך או לא
מאוד מעניין!
שמעתי פעם שחוקרים ניסו לבדוק אם יש לתנ"ך סגנון ומצאו שאין! כלומר לא ניתן להשוות בין פרשת בראשית ופרשת האזינו ולקבל סגנון כל שהוא. אם זה נכון, זה יקשה מאוד על כזה מודל...
מעניין גם מה המודל עושה עם שם ה'. האם הוא מזהה "ה'" כשם מלא?בכל אופן אני מבין שתנ"ך לא היתה המטרה פה.
תודה על הטעימה!
-
@Whenever כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever אימנתי אותו על כל התנ"ך. הנקודה היא שאין לו את כל התנ"ך בראש, והוא גם לא מבצע חיפוש בתנ"ך. הכנסתי לו כמה מאות פסוקים מכל רחבי התנ"ך, וכעת הוא אמור לזהות לפי הסגנון האם הפסוק מהתנ"ך או לא
מאוד מעניין!
שמעתי פעם שחוקרים ניסו לבדוק אם יש לתנ"ך סגנון ומצאו שאין! כלומר לא ניתן להשוות בין פרשת בראשית ופרשת האזינו ולקבל סגנון כל שהוא. אם זה נכון, זה יקשה מאוד על כזה מודל...
מעניין גם מה המודל עושה עם שם ה'. האם הוא מזהה "ה'" כשם מלא?נשמע מוזר. בכל מקרה, מכיוון שהמודל רק מזהה בין תנ"ך ללא-תנ"ך ולא בין חלקים שונים בתנ"ך, המחקר הזה לא רלוונטי.
בכל אופן אני מבין שתנ"ך לא היתה המטרה פה.
נכון. זה סתם מודל שנתן לי וגם יכול לתת לאחרים דוגמה לדרכי האימון של בינה מלאכותית. יש לציין שזה היה ממש קל, ובאותה תבנית אפשר לאמן מודלים לכל דבר שהוא. (לדוגמה: זיהוי הספאם של ג'ימייל משתמש בשיטה דומה, משתמשים בזה גם לזהות רגשות במשפטים. למשל, האם משפט מסויים הוא מצחיק או עצוב, וכן הלאה והלאה)
-
@Whenever כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever המודל לא חייב כלום. אף אחד לא יכול להסביר איך הוא בדיוק עובד.
בכל מקרה, צריך להכניס לו טקסט קצת יותר ארוך. הוא לא מתאים למילה וחצי אלא למשפט שלם."חור כרפס ותכלת אחוז" (מגילת אסתר)
הוא לא מוצא את זה, זה עובד גם על כתובים?אם אתה מחפש חיפוש חכם בתנ"ך יש לדיקטה שירות כזה
https://search.dicta.org.il -
לי זה לא תמיד עובד
הוא לא מוצא
ועשו לי מקדש ושכנתי בתוכםאורה ושמחה וששון ויקר
איך נשיר את שיר ה על אדמת נכר
שמעה בקולי תהיינה אזניך קשובות
המודל חושב שזה תנך
כל כתבי חפץ חיים השלם
בימי מתתיהו בן יוחנן
ממשה למשה לא קם כמשה
מי שבירך אבותינו אברהם יצחק ויעקב
אין לנו על מי להישען אלא
ימים מקדם תשמע ותשיש היום תשמע שמחהעריכה, יש הרבה שהוא צודק אבל יש...
-
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever המודל אומן על שם ה' המלא ולא על האות ה', כך שדוגמה מספר 4 יכולה להטעות אותו.
אבל אין מה לומר, אתה אלוף בלהטעות אותו. איכשהו, בכל הדוגמאות שניסיתי זה תמיד עבד...אני עוד מנסה להטעות אותו:)
תנסה משפטים של "אדום עולם" הוא מזהה אותם לתנ"ך
אני מנסה פיוטים ישנים וסתם דברים ספרותיים.
עוד לא מצאתי קו מנחה, שאמצא אוכל להוות מודל בעצמי:) -
@Whenever כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
עוד לא מצאתי קו מנחה, שאמצא אוכל להוות מודל בעצמי:)
אם אתה רוצה לדעת את הקו המנחה, תוכל למצוא אותו כאן... מדובר על קובץ csv המכיל 500 משפטים מהתנ"ך (לשם השוואה - התנ"ך מכיל כ-22,000 פסוקים שרובם ארוכים יותר מהמשפטים שהכנסתי), 500 משפטים מהתלמוד ו-500 משפטים סתמיים.
https://huggingface.co/spaces/NHLOCAL/is-this-bible/blob/main/data_creation/bible_talmud_data.csv