@ע-ה-דכו-ע הסיבה היא שהטוקנייזר (שמתרגם את הטקסט לטוקנים) מכיר את רוב המילים השלמות באנגלית, כך שמילה דורשת על פי רוב טוקן אחד, מה שאין כן בעברית שלרוב המילים נצרך 2-3 או יותר טוקנים. משמעות המילים וזה שמילה עברית מכילה יותר תוכן פחות קשור פה, כי הטוקנייזר לא מבין משמעות (זה לא המודל עצמו שמבין מרחב סמנטי) אלא הוא מילון סטטי של תווים ומילים. הטוקנייזר אומן בעיקר על אנגלית ולכן המודל מכיר את המילים באנגלית בשלמותן, לעומת עברית שהמילון שלו דל יותר ולכן נאלץ לפרק כל מילה להברות ואפילו לאותיות.
הסיבה שכתוב בקישור שהביא @החכם-התם לא נכונה, מכיוון שהטוקנייזר פשוט מפרק את המילים לטוקנים בלי קשר למשמעות שלהן, כך שגם המילה "מחשבים" ברבים יכולה להיות טוקן אחד אם הטוקנייזר היה מאומן על עברית באותה רמה של אנגלית. הטוקנייזר לא מבין משמעות של יחיד ורבים.
כמובן שזה הולך ומשתפר ממודל למודל, וכיום אני מאמין שזה כבר לא פער משמעותי, לפחות ב-Gemini שאומן על כמות הטקסטים הגדולה ביותר בעברית.