הצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד

מענדיל טרייסטער

@The_Yonatan
תודה!
כתבתי לו שם, בא נראה אם הוא או אי מי אחר יפתיע

מענדיל טרייסטער

@The_Yonatan כתב בהצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד:

אפשרי, אבל לוקח זמן

ג'ימיני לא כ"כ מסכים איתך:
"הבקשה שלך נוגעת לאחד האתגרים המעניינים בתחום עיבוד השמע המודרני. הפרדת קולות (Vocal Isolation) בזמן אמת בתוך הדפדפן היא משימה טכנולוגית מורכבת, והנה המצב הנוכחי של הכלים בתחום:

האתגר הטכנולוגי
רוב הכלים האיכותיים באמת להפרדת קולות משתמשים בבינה מלאכותית (AI) כדי לנתח את גלי הקול ולהפריד ביניהם. פעולה זו דורשת כוח עיבוד משמעותי. תוספים שמנסים לעשות זאת "בלייב" על כל אתר (כמו יוטיוב או אתרי סטרימינג אחרים) נתקלים לרוב בשתי בעיות:

השהיה (Latency): העיבוד לוקח זמן, מה שעלול ליצור פער בין הווידאו לשמע.
איכות: שיטות פשוטות יותר (כמו ביטול פאזה) נוטות להשאיר "שאריות" של מוזיקה או לעוות את הקול."

גיפיטי דווקא מסכים איתו:

The_Yonatan

@מענדיל-טרייסטער אפשר ליצור תוסף שמוריד את השמע, לא בזמן אמת

mps

@מענדיל-טרייסטער ממש להפריד את המוזיקה, אי אפשר בזמן אמת, כי זה לוקח זמן. אבל מה שכן אפשר, זה "לחתוך" את התדרים שהם לא תדרי שירה, זה אפשרי וגם קיים, רק שזה לא יישמע כל כך טוב.

המלאך

@מענדיל-טרייסטער שם זה לא אפשרי.
זה משתמש במודלים אופליין.
במה האתר משתמש והאם יש לו API?

הישבשר המלומד

@המלאך זה כן אפשרי ללא API ללא AI וכו' כמו אוקלוזר רק שמכנים את זה שישמע יותר את הקול של הזמר ופחות את הרעש זה לא מקצועי בעליל אבל אפשרי

מענדיל טרייסטער

@המלאך
אני מדבר על משהו שיהיה זמין בעת גלישה בכל האתרים
ולא התכוונתי לאתר ספציפי

המלאך

@הישבשר-המלומד לא הבנת את כונתי,
לאתר ההוא יש API? אלא אם אתה מתכוון לליצור מאפס, זה קצת מסובך.
לכן שאלתי, במה זה משתמש (האתר)?

@מענדיל-טרייסטער כתב בהצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד:

אני מדבר על משהו שיהיה זמין בעת גלישה בכל האתרים
ולא התכוונתי לאתר ספציפי

כמובן, התוסף ייטען מהאתר.

המלאך

אוקי.
אז האתר משתמש בבינה מלאכותית, מה שאומר שיש שני אופציות.
או שמישהו ישכור שרת (קשה לי להאמין שחינמי יספיק לזה), ושם יריץ מודל וינתב לשם.
או כמו התוכנה של @css-0 אבל עם שימוש של ONNX,
אם יבוצע המודל אופליין, אז יש כמה דרכים לייעל את התוסף/תוכנה מאוד.

מענדיל טרייסטער

@המלאך כתב בהצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד:

אז האתר משתמש בבינה מלאכותית

לא הבנתי,
איזה אתר?

המלאך

@מענדיל-טרייסטער זה:
https://vocalremover.org/

הישבשר המלומד

@המלאך אין לו API וגם הוא ממש לאט

מענדיל טרייסטער

@הישבשר-המלומד
יכול להיות
אבל לא מצאתי תוצאה יותר טובה בשום פלטפורמה אחרת

סליחה שהתערבתי...

הישבשר המלומד

@מענדיל-טרייסטער סבבה אבל אני עכשיו צופה ביוטיוב בקקליפ הוא יצטרך קודם להמיר את זה לMP3 ואז לשלוח את זה לשם ואז זה אמור לחזור גם אם נתעלם מהנושא של הזמן שזה לפחות 5 דקות מינימום וזה לא ראלי וזה בלי קשדר שזה נותן חינם רק פעם 1 ביום

mps

@הישבשר-המלומד לכן האפשרות היחידה זה מה שהצעתי למעלה.
https://mitmachim.top/post/1141651

הישבשר המלומד

@mps צודק. ניסתי לבנותא איזה תוסף אבל זה לא הלך טוב

מענדיל טרייסטער

@הישבשר-המלומד
אם זה מה ש @המלאך התכוון חושבני שזה באמת לא כ"כ מעשי, וכדבריך.
והלוואי שזה כן יהיה מעשי...
באמת תמהני שלמרות שעידן הAI נמצא בשיאו, לא ניתן לעשות שזה יפעיל את הקול בלבד בשעת מעשה

mps

ביקשתי מAI שייתן לי את התדרים שאפשר לחתוך בחי. בספולר.

חשוב להבין שחיתוך תדרים בלבד (ללא AI או ביטול פאזות) לא יבודד את השירה לחלוטין (תמיד יישארו כלי נגינה שמנגנים באותם תדרים), אבל הוא בהחלט יתמקד ב"לב" של הקול האנושי.
כדי להשיג את התוצאה הטובה ביותר בזמן אמת, אתה צריך להשתמש ב-Band-pass Filter (מסנן מעביר פס). אלו התדרים המרכזיים:

טווח התדרים הכללי של הקול האנושי
גבול תחתון (Low Cut / High Pass): בדרך כלל באזור ה-150Hz עד 200Hz.
מתחת לזה נמצאים הבאסים והתופים (Kick). חיתוך כאן ינקה את ה"בוץ" וישאיר את גוף הקול.
גבול עליון (High Cut / Low Pass): בדרך כלל באזור ה-4,000Hz (4kHz) עד 5,000Hz (5kHz).
מעל זה נמצאים מצילתיים (Hi-hats) וצלילים גבוהים מאוד של סינתיסייזרים. רוב המידע שמאפשר לנו להבין מילים נמצא מתחת ל-4kHz.
ה"סוויט ספוט" (Sweet Spot) לפי אזורים:
אם אתה בונה איקוולייזר (EQ) או פילטר, אלו האזורים שתרצה להדגיש:
300Hz - 1,000Hz: כאן נמצא ה"גוף" והחמימות של הקול.
1kHz - 3kHz: זהו הטווח הקריטי ביותר למובנות הדיבור (Intelligibility). האוזן האנושית הכי רגישה לתדרים האלה. זה מה שגורם לקול להישמע "קרוב".
3kHz - 5kHz: כאן נמצאת ה"נוכחות" (Presence) והבהירות של העיצורים (כמו ס', פ', ת').
הגדרות מומלצות לתוסף (Preset):
אם אתה רוצה ליצור אפקט של "רק שירה" (סטייל אפקט טלפון אבל איכותי יותר):
High Pass Filter: בתדר 200Hz עם שיפוע (Slope) של 12dB או 24dB לאוקטבה.
Low Pass Filter: בתדר 3,500Hz (3.5kHz).
Boost קטן: חיזוק של 2-3 דציבלים באזור ה-2kHz כדי להבליט את השירה מעל המוזיקה.
טיפ למקצוענים (Mid-Side Processing):
ברוב השירים המודרניים, השירה נמצאת במרכז (Mono) בעוד שחלק מהכלים נמצאים בצדדים (Stereo).
אם התוסף שלך יכול לעבד רק את ערוץ ה-Mid (המרכז) ולחתוך את ערוצי ה-Side, תוכל לבודד את השירה בצורה הרבה יותר אפקטיבית מאשר סתם חיתוך תדרים רגיל.
לסיכום:
הטווח הממוצע והיעיל ביותר הוא 200Hz עד 4,000Hz.
הערה: מכיוון שאתה לא משתמש ב-AI, קח בחשבון שגיטרות, פסנתר וסנר (Snare) ימשיכו להישמע בתוך הטווח הזה, כי הם חולקים את אותם התדרים עם הקול האנושי.

המלאך

@הישבשר-המלומד מי האתר?
הוא משתמש במודלים שיושבים על השרתים שלהם, הוא לא ייתן לנו להשתמש בהם ג"כ,
אנחנו נאלץ להשתמש במודלי בעצמינו.
להוריד ONNX כדוגמת זה: https://huggingface.co/chinedudave06/demucs-onnx או כל אחד אחר בסגנון.
ואז להבנה בזה: https://huggingface.co/matbee/sam-audio-small-onnx , או כל אחד אחר דומה לו.
ואחרון להשתמש בOmnizart דרך גוגל קלואב.
לדעתי אפשר את כולם דרך API, להאגינג פייס, אם כי אני לא יודע מהי המגבלה.

מענדיל טרייסטער

@mps אני חושב שגם באתר https://vocalremover.org/ הנחשב לאיכותי ביותר, ניתן לשמוע בעת השירה עצמה [כלומר כשהזמר שר ולא כשהוא נושם בין המילים] איזשהו שאריות של מוזיקה, לחדי שמיעה ממש, וזה משהו שאי אפשר להסיר כי זה סוג של חלק מהשירה שבלתי ניתן להפרדה.
ואם זה הרמה שלכך הוא התכוון - הרי שאנחנו נמצאים במקום מצויין.