שיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא
-
@Whenever כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever אימנתי אותו על כל התנ"ך. הנקודה היא שאין לו את כל התנ"ך בראש, והוא גם לא מבצע חיפוש בתנ"ך. הכנסתי לו כמה מאות פסוקים מכל רחבי התנ"ך, וכעת הוא אמור לזהות לפי הסגנון האם הפסוק מהתנ"ך או לא
מאוד מעניין!
שמעתי פעם שחוקרים ניסו לבדוק אם יש לתנ"ך סגנון ומצאו שאין! כלומר לא ניתן להשוות בין פרשת בראשית ופרשת האזינו ולקבל סגנון כל שהוא. אם זה נכון, זה יקשה מאוד על כזה מודל...
מעניין גם מה המודל עושה עם שם ה'. האם הוא מזהה "ה'" כשם מלא?נשמע מוזר. בכל מקרה, מכיוון שהמודל רק מזהה בין תנ"ך ללא-תנ"ך ולא בין חלקים שונים בתנ"ך, המחקר הזה לא רלוונטי.
בכל אופן אני מבין שתנ"ך לא היתה המטרה פה.
נכון. זה סתם מודל שנתן לי וגם יכול לתת לאחרים דוגמה לדרכי האימון של בינה מלאכותית. יש לציין שזה היה ממש קל, ובאותה תבנית אפשר לאמן מודלים לכל דבר שהוא. (לדוגמה: זיהוי הספאם של ג'ימייל משתמש בשיטה דומה, משתמשים בזה גם לזהות רגשות במשפטים. למשל, האם משפט מסויים הוא מצחיק או עצוב, וכן הלאה והלאה)
-
@Whenever כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever המודל לא חייב כלום. אף אחד לא יכול להסביר איך הוא בדיוק עובד.
בכל מקרה, צריך להכניס לו טקסט קצת יותר ארוך. הוא לא מתאים למילה וחצי אלא למשפט שלם."חור כרפס ותכלת אחוז" (מגילת אסתר)
הוא לא מוצא את זה, זה עובד גם על כתובים?אם אתה מחפש חיפוש חכם בתנ"ך יש לדיקטה שירות כזה
https://search.dicta.org.il -
לי זה לא תמיד עובד
הוא לא מוצא
ועשו לי מקדש ושכנתי בתוכםאורה ושמחה וששון ויקר
איך נשיר את שיר ה על אדמת נכר
שמעה בקולי תהיינה אזניך קשובות
המודל חושב שזה תנך
כל כתבי חפץ חיים השלם
בימי מתתיהו בן יוחנן
ממשה למשה לא קם כמשה
מי שבירך אבותינו אברהם יצחק ויעקב
אין לנו על מי להישען אלא
ימים מקדם תשמע ותשיש היום תשמע שמחהעריכה, יש הרבה שהוא צודק אבל יש...
-
@NH-LOCAL כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever המודל אומן על שם ה' המלא ולא על האות ה', כך שדוגמה מספר 4 יכולה להטעות אותו.
אבל אין מה לומר, אתה אלוף בלהטעות אותו. איכשהו, בכל הדוגמאות שניסיתי זה תמיד עבד...אני עוד מנסה להטעות אותו:)
תנסה משפטים של "אדום עולם" הוא מזהה אותם לתנ"ך
אני מנסה פיוטים ישנים וסתם דברים ספרותיים.
עוד לא מצאתי קו מנחה, שאמצא אוכל להוות מודל בעצמי:) -
@Whenever כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
עוד לא מצאתי קו מנחה, שאמצא אוכל להוות מודל בעצמי:)
אם אתה רוצה לדעת את הקו המנחה, תוכל למצוא אותו כאן... מדובר על קובץ csv המכיל 500 משפטים מהתנ"ך (לשם השוואה - התנ"ך מכיל כ-22,000 פסוקים שרובם ארוכים יותר מהמשפטים שהכנסתי), 500 משפטים מהתלמוד ו-500 משפטים סתמיים.
https://huggingface.co/spaces/NHLOCAL/is-this-bible/blob/main/data_creation/bible_talmud_data.csv
-
אני חושב שאני מתמכר לזה
הנה משפטים שהוא קורא כתנ"ך (כולם המצאות שלי):
אלך בחוצות נאהב על עמי כי אני עמדי
כן אודה ביום הארוך כי זה עמלי
מה אעשה ולאן אפנה נצעד בדרך לשום תהום
אגדלך ביום בדרך הרים על עמוד איתן יציבו מתמחים
כי אל מתמחים אגש ושם אכתוב לעם השוכן בקרבת מקום
מתמחים הריעו כי גדולים עמכם
דרך מתמחים צעד ישראל אל ראש נחל גבול -
@מישהו12 כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
המודל מזהה את המילה "ועד" כתלמוד.
אבל את הפסוק המקורי הוא כן מזהה כתנך
למרות המילה ועד
צריך עיון רב
ככל הנראה יש מילים עם משקל הנוטים יותר לשימוש בתנך ויש עם יותר משקל בתלמוד בבלי.
כנראה המודל מחשב לפי כל המילים ומשקלם לאן ראוי לשייך את המשפט.
אפשר לבדוק כל משפט עם מפרקים אותו לגורמים לראות איך התהליך קורה. -
@Whenever כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@מישהו12 כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
@Whenever כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
המודל מזהה את המילה "ועד" כתלמוד.
אבל את הפסוק המקורי הוא כן מזהה כתנך
למרות המילה ועד
צריך עיון רב
ככל הנראה יש מילים עם משקל הנוטים יותר לשימוש בתנך ויש עם יותר משקל בתלמוד בבלי.
כנראה המודל מחשב לפי כל המילים ומשקלם לאן ראוי לשייך את המשפט.
אפשר לבדוק כל משפט עם מפרקים אותו לגורמים לראות איך התהליך קורה.הנה דוגמא:
תחפשו: שלום לרחוק ולקרוב
המודל מזהה כאחר. למרות שכתוב בתנ"ך אבל אלו מילים שנשמעים כמו השיחה שלנו כיום.תחפשו: שלום לרחוק ולקרוב אמר ורפאתיו
המודל מזהה כתלמוד בבליתחפשו: שלום לרחוק ולקרוב אמר ורפאתיו לאמר
המודל מזהה כתנך. המילה "לאמר" מאוד תנכית ולכן זה קובע את המשקל של שאר המשפט. -
חשוב לי להדגיש שלא מדובר במודל שפה גדול (מה שמכונה LLM) אלא במודל יותר פשוט מזה. לשם השוואה המודל הזה שוקל בסביבות 180KB לעומת מודל השפה BEREL-2.0 ששוקל כ700 מ"ב.
גם כמות הנתונים קטנה מאד באופן יחסי.
לאור זאת, התוצאות די מרשימות.אם באמת יש צורך בכזה מודל, אפשר לאמן את BEREL על מסד הנתונים של ספריא, ואז יתקבלו תוצאות טובות יותר.
-
@sivan22 כתב בשיתוף | מודל AI קטן שיצרתי - זיהוי האם מחרוזת היא מהתנ"ך או לא:
חשוב לי להדגיש שלא מדובר במודל שפה גדול (מה שמכונה LLM) אלא במודל יותר פשוט מזה. לשם השוואה המודל הזה שוקל בסביבות 180KB לעומת מודל השפה BEREL-2.0 ששוקל כ700 מ"ב.
גם כמות הנתונים קטנה מאד באופן יחסי.
לאור זאת, התוצאות די מרשימות.אם באמת יש צורך בכזה מודל, אפשר לאמן את BEREL על מסד הנתונים של ספריא, ואז יתקבלו תוצאות טובות יותר.
האם זה טכנולוגיה שונה מLLM או שזה לא LLM כי זה לא Large?