בקשת מידע | סיוט להשתמש בAI סטודיו....
-
@איש-אמת כתב בבקשת מידע | סיוט להשתמש בAI סטודיו....:
אך צורכים יותר טוקנים מאשר באנגלית
מנלן?
ומה הסיבה? -
@ע-ה-דכו-ע התכוונתי לתוספים האלו שאמרו כאן כמו kiro, םג הם מבינים עברית?
-
@ע-ה-דכו-ע התכוונתי לתוספים האלו שאמרו כאן כמו kiro, םג הם מבינים עברית?
-
א איש אמת התייחס לנושא זה
-
@איש-אמת כתב בבקשת מידע | סיוט להשתמש בAI סטודיו....:
אך צורכים יותר טוקנים מאשר באנגלית
מנלן?
ומה הסיבה?@ע-ה-דכו-ע כתב בבקשת מידע | סיוט להשתמש בAI סטודיו....:
מנלן?
ומה הסיבה?אני חושב שקשור לזה שהאותיות בעברית הם יותר ביטים @משחזר-מידע
-
@ע-ה-דכו-ע כתב בבקשת מידע | סיוט להשתמש בAI סטודיו....:
מנלן?
ומה הסיבה?אני חושב שקשור לזה שהאותיות בעברית הם יותר ביטים @משחזר-מידע
@דוד-משה-1 כתב בבקשת מידע | סיוט להשתמש בAI סטודיו....:
הם יותר ביטים
דבר ראשון הAI לא רואה ביטים, הוא קורא טוקנים, וזה לא אמור להיות יותר.
דבר שני אותיות בעברית לא חייבים להיות ביותר ביטים, רק בדרך כלל כדי להציג אותם משתמשים בקידוד של יוניקוד שהוא יותר ביטים, וקרוב לודאי שהמודלים משתמשים לכל השפות ביוניקוד.
מה שאולי יכול להיות שבמצב חשיבה לדוגמה ייתכן שהAI כיון שהוא חושב באנגלית ואח"כ הוא חושב איך לכתוב את זה בעברית, זה מוסיף לטוקנים של החשיבה.
-
@דוד-משה-1 כתב בבקשת מידע | סיוט להשתמש בAI סטודיו....:
הם יותר ביטים
דבר ראשון הAI לא רואה ביטים, הוא קורא טוקנים, וזה לא אמור להיות יותר.
דבר שני אותיות בעברית לא חייבים להיות ביותר ביטים, רק בדרך כלל כדי להציג אותם משתמשים בקידוד של יוניקוד שהוא יותר ביטים, וקרוב לודאי שהמודלים משתמשים לכל השפות ביוניקוד.
מה שאולי יכול להיות שבמצב חשיבה לדוגמה ייתכן שהAI כיון שהוא חושב באנגלית ואח"כ הוא חושב איך לכתוב את זה בעברית, זה מוסיף לטוקנים של החשיבה.
-
@ע-ה-דכו-ע כאן מופיע שעברית צורכת יותר טוקנים.
@החכם-התם כתב בבקשת מידע | סיוט להשתמש בAI סטודיו....:
@ע-ה-דכו-ע כאן מופיע שעברית צורכת יותר טוקנים.
זה לא צורך יותר טוקנים, אלא מכיל על פי רוב יותר טוקנים במילה.
נכון שבסופו של דבר ייתכן שמי שישתמש בעברית במקום באנגלית ייצא לו יותר טוקנים, אבל זה לא נכון כל כך לומר שזה צורך יותר בגלל זה, זה כמו אילו המילים בעברית היו יותר ארוכות.
-
@החכם-התם כתב בבקשת מידע | סיוט להשתמש בAI סטודיו....:
@ע-ה-דכו-ע כאן מופיע שעברית צורכת יותר טוקנים.
זה לא צורך יותר טוקנים, אלא מכיל על פי רוב יותר טוקנים במילה.
נכון שבסופו של דבר ייתכן שמי שישתמש בעברית במקום באנגלית ייצא לו יותר טוקנים, אבל זה לא נכון כל כך לומר שזה צורך יותר בגלל זה, זה כמו אילו המילים בעברית היו יותר ארוכות.
@ע-ה-דכו-ע צודק . אבל למעשה אילו היית כותב באנגלית היה יוצא לך יותר זול. לא משנה למה.
-
@ע-ה-דכו-ע צודק . אבל למעשה אילו היית כותב באנגלית היה יוצא לך יותר זול. לא משנה למה.
@החכם-התם כתב בבקשת מידע | סיוט להשתמש בAI סטודיו....:
@ע-ה-דכו-ע צודק . אבל למעשה אילו היית כותב באנגלית היה יוצא לך יותר זול. לא משנה למה.
לא בטוח שזה כזה משמעותי, כי הרבה מהרעיון הוא שמילה בעברית כוללת כמה מילים באנגלית, לכן היא יותר טוקנים, לדוגמה במקום המילה the באנגלית, בעברית מסתפקים בה' הידיעה ולפעמים אפילו רק בניקוד של הל' וכן הלאה בכל ההטיות ואותיות שימוש שבאנגלית מצריכים מילים נוספות.
בקיצור עברית יותר שוקלת כי היא מכילה יותר בפחות אותיות.
-
@החכם-התם כתב בבקשת מידע | סיוט להשתמש בAI סטודיו....:
@ע-ה-דכו-ע צודק . אבל למעשה אילו היית כותב באנגלית היה יוצא לך יותר זול. לא משנה למה.
לא בטוח שזה כזה משמעותי, כי הרבה מהרעיון הוא שמילה בעברית כוללת כמה מילים באנגלית, לכן היא יותר טוקנים, לדוגמה במקום המילה the באנגלית, בעברית מסתפקים בה' הידיעה ולפעמים אפילו רק בניקוד של הל' וכן הלאה בכל ההטיות ואותיות שימוש שבאנגלית מצריכים מילים נוספות.
בקיצור עברית יותר שוקלת כי היא מכילה יותר בפחות אותיות.
@ע-ה-דכו-ע הסיבה היא שהטוקנייזר (שמתרגם את הטקסט לטוקנים) מכיר את רוב המילים השלמות באנגלית, כך שמילה דורשת על פי רוב טוקן אחד, מה שאין כן בעברית שלרוב המילים נצרך 2-3 או יותר טוקנים. משמעות המילים וזה שמילה עברית מכילה יותר תוכן פחות קשור פה, כי הטוקנייזר לא מבין משמעות (זה לא המודל עצמו שמבין מרחב סמנטי) אלא הוא מילון סטטי של תווים ומילים. הטוקנייזר אומן בעיקר על אנגלית ולכן המודל מכיר את המילים באנגלית בשלמותן, לעומת עברית שהמילון שלו דל יותר ולכן נאלץ לפרק כל מילה להברות ואפילו לאותיות.
הסיבה שכתוב בקישור שהביא @החכם-התם לא נכונה, מכיוון שהטוקנייזר פשוט מפרק את המילים לטוקנים בלי קשר למשמעות שלהן, כך שגם המילה "מחשבים" ברבים יכולה להיות טוקן אחד אם הטוקנייזר היה מאומן על עברית באותה רמה של אנגלית. הטוקנייזר לא מבין משמעות של יחיד ורבים.
כמובן שזה הולך ומשתפר ממודל למודל, וכיום אני מאמין שזה כבר לא פער משמעותי, לפחות ב-Gemini שאומן על כמות הטקסטים הגדולה ביותר בעברית.