להורדה | כך תריצו מודל שפה חזק על המחשב הביתי שלכם
-
@NH-LOCAL כתב בהמלצה | כך תריצו מודל שפה חזק על המחשב הביתי שלכם:
בטח שאני לא מתיימר להביא כזה דבר במודל שרץ על מחשב I3. להיפך, המיוחד במודל הזה זה שהוא מינימליסטי ולא צורך משאבים כמעט
המודל של LANS יכול להמשיך לרוץ באינטרנט. רק שהמודל של הצ'אט יוכל להתחבר אליו ולקבל ממנו מידע
-
@הדובדבן-שבקצפת כתב בהמלצה | כך תריצו מודל שפה חזק על המחשב הביתי שלכם:
יש לי אתר שמוכר מוצרים מסוימים ברצוני לשלב בו בוט AI שידע לענות על שאלות לקוחות ולא יפזול לנושאים אחרים
מה הדרך לעשות זאתראיתי סרטון יוטיוב של ערוץ "בלוג האקינק בעברית" (משהו כזה) של בחור בשם יובל אבידני. שמסביר איך לעשות את זה בצורה מאד מאד פשוטה. אבל אני לא יודע כמה זה יעבוד טוב בעברית. תחפש בערוץ שלו.
-
חשבתי אולי לעשות סקריפט פייתון שישתמש בספריית תרגום אופליין [argostranslate למשל] כדי לתקשר עם המודל שפה הזה בעברית, השאלה היא אם יש למודל שפה הזה ספרייה בפייתון או משהו בסגנון
[כמובן שאחרי זה יהיה ניתן לקמפל את הסקריפט לקובץ EXE] -
@האדם-החושב נראה שספציפית המודל הזה הותאם עם C++ כדי להתאים למחשבים חלשים. לא פייתון
-
@NH-LOCAL הפעלתי את הקובץ BAT וזה כותב לי
C:\WINDOWS\system32>title llama.cppC:\WINDOWS\system32>main -i -ins -t 2 -ngl 120 -r "### Human:" --temp 0 -c 2048 -n -1 --ignore-eos --repeat_penalty 1.2 --instruct -m llama-2-7b-chat.ggmlv3.q4_0.bin
'main' is not recognized as an internal or external command,
operable program or batch file.C:\WINDOWS\system32>pause
Press any key to continue . . .C:\WINDOWS\system32>goto start
C:\WINDOWS\system32>main -i -ins -t 2 -ngl 120 -r "### Human:" --temp 0 -c 2048 -n -1 --ignore-eos --repeat_penalty 1.2 --instruct -m llama-2-7b-chat.ggmlv3.q4_0.bin
'main' is not recognized as an internal or external command,
operable program or batch file.C:\WINDOWS\system32>pause
Press any key to continue . . .אולי יש אפשרות להפעיל את זה בלי הקובץ BAT
-
@האדם-החושב מה הורדת? (אני הורדתי את השני, cudart-llama-bin-win-cu12.1.0-x64.zip, ששוקל 372 MB)
-
@טכנופוב כתב בהמלצה | כך תריצו מודל שפה חזק על המחשב הביתי שלכם:
@האדם-החושב מה הורדת? (אני הורדתי את השני, cudart-llama-bin-win-cu12.1.0-x64.zip, ששוקל 372 MB)
לא טוב. דוקא הקובץ הקטן בהרבה, טוב יותר. אני ממליץ על זה (כנזכר למעלה):
lama-master-ee1b497-bin-win-avx@טכנופוב זה אומר שהוא לא מוצא קובץ בשם "main" חילצת את כל הקבצים הנצרכים לאותה תיקיה? אם כן - עיין בתשובתי מקודם
-
@aiib טוב, מכיוון שזה רץ כבר רבע שעה על המחשב שלי ועדיין לא סיים, וזה גם זולל משאבי מערכת בכמויות, אני לא מעלה את זה כרגע בצורה מסודרת.
אם אתה רוצה להשתמש בזה בקלות, תוכל פשוט להוריד את הקובץ הבא, לחלץ אותו לכונן C ולהפעיל את קובץ הבאט שבפנים.
ניתן לצפות בקצב ההתקדמות בשורת הפקודה הפתוחה. כמו כן יש לשים לב שבפעם הראשונה המערכת מורידה מודלים שעשויים לשקול חצי גי'גה - ג'יגה. (לכל מודל יש קובץ נפרד שאמור לרדת)עריכה: הנה כמה דוגמאות, טיפשיות למדי (אפשר יותר טוב וארוך, אבל זה לוקח הרבה יותר זמן):
20230806_231922-2724654405.wav
20230806_232820-1717616947.wav -
ראיתי שהביאו בפרוג מודול AI של דיקטה לטקסטים תורניים, מעניין אם ניתן להריץ את זה על המחשב כמו מה ש @NH-LOCAL הביא ומה היכולות שלו
https://berel.dicta.org.il/ [לא עובד אצלי] -
@האדם-החושב זה לא נראה מודל שפה ג'נרטבי (כלומר מודל שמייצר טקסט), בסך הכל מודל שמבצע הגהה ופיסוק לטקסט תורני, משהו כזה
ככלל, זה המאגר של דיקטה בגיטהאב, אבל אני לא רואה שם משהו ספציפי של המודל הנ"ל
-
@NH-LOCAL כתב בהמלצה | כך תריצו מודל שפה חזק על המחשב הביתי שלכם:
ככלל, זה המאגר של דיקטה בגיטהאב, אבל אני לא רואה שם משהו ספציפי של המודל הנ"ל
זה לא זה?
https://github.com/Dicta-Israel-Center-for-Text-Analysis/alephbertgimmel
אגב הביאו שם קישור לדרופבוקס להוריד את המודול, ומלבד קבצי טקסט וקובץ פייתון אני לא רואה שם כלום, איך אמורים להריץ את זה?[לא הורדתי את זה עדיין למחשב שלי כי זה שוקל 4+ ג'יגה, ואני רוצה לדעת שזה שימושי לפני שאני מוריד, סליחה אם אני משגע אותך, אבל ראיתי שאתה מבין ב AI] -
@האדם-החושב אני ינסה. אבל איפה הקישור להורדת המודול?
-
@NH-LOCAL
https://bit.ly/3vzlvgG
[הובא בהמשך השרשור שם בפרוג] -
@האדם-החושב עובד יפה. זה התוצאה:
המודל הספציפי שבהדגמה שלהם, מבצע השלמה של מילה מתוך משפט.
המשפט בדוגמה היה:
דני הלך לבית [MASK] היום.המודל אמור להשלים את מה שבמילה "[MASK]". והוא נתן כמה אפשרויות כמופיע בתמונה. מה שבעצם נותן את התוצאה:
דני הלך לבית הכנסת היום
דני הלך לבית האסורים היוםוכן הלאה...
בקיצור: לא ממש יוצר טקסט ב-AI, אלא משלים טקסט ב-AI. זה טוב בעיקר להשלמה של מילים במקרה של סריקה פגומה של ספרים ישנים וכן הלאה. כמו שמפורט גם בפרוג - עיין בספוילר.
והנה כמה היבטים בתחום התורני שהמודל עשוי לסייע בהם:תחום זיהוי תמונה והפיכתה לטקסט (ocr) עשוי להסתייע רבות במודל שכזה, שכן מתחילת ימי הדפוס הוא אומץ בחום רב על ידי עם הספר, והודפסו עשרות אלפי כותרים של ספרי קודש בעברית, רבים מאד מהם בפונט שמכונה "כתב רש"י" שהוא בעצם פונט של עברית שמבוסס על צורת כתיבה שהיתה מקובלת בספרד של ימי הביניים (הסיבה לכינוי זה הוא משום שהספר הראשון שהודפס בפונט זה היה פירוש רש"י לתורה. רש"י עצמו מעולם לא השתמש בכתב זה.)
מלבד הבעיה שדפוסים רבים לא היו חדים והאותיות היו מטושטות או שבורות, עברית היא שפה קשה לזיהוי מחמת אותיות רבות שדומות זו לזו (ב-כ-נ, ח-ת-ה, ו-ז-ן, ס-ם), בעיה שאף מתעצמת עם השימוש בכתב רש"י (א-ש, ט-ע-מ, ס-ם, ק-ה).
נקודה נוספת היא שספרים רבים משלבים פונט עברי רגיל מרובע יחד עם כתב רש"י. מתכונת מקובלת היא שהמילה הראשונה בקטע היא בכתב מרובע והשאר בכתב רש"י. או שהטקסט המרכזי בספר הוא בכתב מרובע, והחיבורים סביב הם בכתב רש"י [הש"ס כדוגמה קלאסית, מקראות גדולות, שולחן ערוך ועוד.]מכל הסיבות הללו, זיהוי טקסט של ספרי קודש ברמת דיוק גבוהה הינו אתגר משמעותי.
אחד הפתרונות לבעיה זו היא שילובו של מודל שפה שבהבנה נכונה של ההקשר יוכל לתקן אוטומטית שגיאות ולשפר מאד את איכות הזיהוי. בתחום זה ראוי לציון מאמר חשוב מאת חוקרים באוניברסיטת בר אילן שהגיעו לאחוז דיוק של 99.85 באמצעות מודל עיבוד שפה ושיפורים נוספים.