הצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד
-
@מענדיל-טרייסטער כאן https://mitmachim.top/topic/95446/שיתוף-תוכנת-ממיר-שמע-לפלייבק-או-לווקאלי-עם-הרבה-אפשרויות-לא-כ-exe/7
הוא בנה תוכנה שעושה את זה. אם יש למישהוא כח אז שיכין תוסף שעובד עם זה@The_Yonatan
תודה!
כתבתי לו שם, בא נראה אם הוא או אי מי אחר יפתיע -
@מענדיל-טרייסטער אפשרי, אבל לוקח זמן
@The_Yonatan כתב בהצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד:
אפשרי, אבל לוקח זמן
ג'ימיני לא כ"כ מסכים איתך:
"הבקשה שלך נוגעת לאחד האתגרים המעניינים בתחום עיבוד השמע המודרני. הפרדת קולות (Vocal Isolation) בזמן אמת בתוך הדפדפן היא משימה טכנולוגית מורכבת, והנה המצב הנוכחי של הכלים בתחום:האתגר הטכנולוגי
רוב הכלים האיכותיים באמת להפרדת קולות משתמשים בבינה מלאכותית (AI) כדי לנתח את גלי הקול ולהפריד ביניהם. פעולה זו דורשת כוח עיבוד משמעותי. תוספים שמנסים לעשות זאת "בלייב" על כל אתר (כמו יוטיוב או אתרי סטרימינג אחרים) נתקלים לרוב בשתי בעיות:-
השהיה (Latency): העיבוד לוקח זמן, מה שעלול ליצור פער בין הווידאו לשמע.
-
איכות: שיטות פשוטות יותר (כמו ביטול פאזה) נוטות להשאיר "שאריות" של מוזיקה או לעוות את הקול."
גיפיטי דווקא מסכים איתו:

-
-
@The_Yonatan כתב בהצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד:
אפשרי, אבל לוקח זמן
ג'ימיני לא כ"כ מסכים איתך:
"הבקשה שלך נוגעת לאחד האתגרים המעניינים בתחום עיבוד השמע המודרני. הפרדת קולות (Vocal Isolation) בזמן אמת בתוך הדפדפן היא משימה טכנולוגית מורכבת, והנה המצב הנוכחי של הכלים בתחום:האתגר הטכנולוגי
רוב הכלים האיכותיים באמת להפרדת קולות משתמשים בבינה מלאכותית (AI) כדי לנתח את גלי הקול ולהפריד ביניהם. פעולה זו דורשת כוח עיבוד משמעותי. תוספים שמנסים לעשות זאת "בלייב" על כל אתר (כמו יוטיוב או אתרי סטרימינג אחרים) נתקלים לרוב בשתי בעיות:-
השהיה (Latency): העיבוד לוקח זמן, מה שעלול ליצור פער בין הווידאו לשמע.
-
איכות: שיטות פשוטות יותר (כמו ביטול פאזה) נוטות להשאיר "שאריות" של מוזיקה או לעוות את הקול."
גיפיטי דווקא מסכים איתו:

@מענדיל-טרייסטער אפשר ליצור תוסף שמוריד את השמע, לא בזמן אמת
-
-
תגובה: אתר שהופך כל שיר לוואקלי.
אני לא מבין בתיכנות וכדו'.
אבל אשמח מאד אם מישהו יבנה תוסף לכרום, באמצעותו יוכלו להפעיל כל שיר באינטרנט עם המוזיקה הכי רועשת, והתוסף במצב פעיל - יהפוך אותו לשמיעה במצב ווקאלי (כלומר 'יהרוג' רק את החלק המוזיקה, וישאיר את השרים בפה וכל דבר אחר)אפשרי בכלל?
@מענדיל-טרייסטער ממש להפריד את המוזיקה, אי אפשר בזמן אמת, כי זה לוקח זמן. אבל מה שכן אפשר, זה "לחתוך" את התדרים שהם לא תדרי שירה, זה אפשרי וגם קיים, רק שזה לא יישמע כל כך טוב.
-
@The_Yonatan
תודה!
כתבתי לו שם, בא נראה אם הוא או אי מי אחר יפתיע@מענדיל-טרייסטער שם זה לא אפשרי.
זה משתמש במודלים אופליין.
במה האתר משתמש והאם יש לו API? -
@מענדיל-טרייסטער שם זה לא אפשרי.
זה משתמש במודלים אופליין.
במה האתר משתמש והאם יש לו API?@המלאך זה כן אפשרי ללא API ללא AI וכו' כמו אוקלוזר רק שמכנים את זה שישמע יותר את הקול של הזמר ופחות את הרעש זה לא מקצועי בעליל אבל אפשרי
-
@מענדיל-טרייסטער שם זה לא אפשרי.
זה משתמש במודלים אופליין.
במה האתר משתמש והאם יש לו API?@המלאך
אני מדבר על משהו שיהיה זמין בעת גלישה בכל האתרים
ולא התכוונתי לאתר ספציפי -
@המלאך זה כן אפשרי ללא API ללא AI וכו' כמו אוקלוזר רק שמכנים את זה שישמע יותר את הקול של הזמר ופחות את הרעש זה לא מקצועי בעליל אבל אפשרי
@הישבשר-המלומד לא הבנת את כונתי,
לאתר ההוא יש API? אלא אם אתה מתכוון לליצור מאפס, זה קצת מסובך.
לכן שאלתי, במה זה משתמש (האתר)?@מענדיל-טרייסטער כתב בהצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד:
אני מדבר על משהו שיהיה זמין בעת גלישה בכל האתרים
ולא התכוונתי לאתר ספציפיכמובן, התוסף ייטען מהאתר.
-
@הישבשר-המלומד לא הבנת את כונתי,
לאתר ההוא יש API? אלא אם אתה מתכוון לליצור מאפס, זה קצת מסובך.
לכן שאלתי, במה זה משתמש (האתר)?@מענדיל-טרייסטער כתב בהצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד:
אני מדבר על משהו שיהיה זמין בעת גלישה בכל האתרים
ולא התכוונתי לאתר ספציפיכמובן, התוסף ייטען מהאתר.
אוקי.
אז האתר משתמש בבינה מלאכותית, מה שאומר שיש שני אופציות.
או שמישהו ישכור שרת (קשה לי להאמין שחינמי יספיק לזה), ושם יריץ מודל וינתב לשם.
או כמו התוכנה של @css-0 אבל עם שימוש של ONNX,
אם יבוצע המודל אופליין, אז יש כמה דרכים לייעל את התוסף/תוכנה מאוד. -
אוקי.
אז האתר משתמש בבינה מלאכותית, מה שאומר שיש שני אופציות.
או שמישהו ישכור שרת (קשה לי להאמין שחינמי יספיק לזה), ושם יריץ מודל וינתב לשם.
או כמו התוכנה של @css-0 אבל עם שימוש של ONNX,
אם יבוצע המודל אופליין, אז יש כמה דרכים לייעל את התוסף/תוכנה מאוד.@המלאך כתב בהצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד:
אז האתר משתמש בבינה מלאכותית
לא הבנתי,
איזה אתר? -
@המלאך כתב בהצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד:
אז האתר משתמש בבינה מלאכותית
לא הבנתי,
איזה אתר? -
@המלאך אין לו API וגם הוא ממש לאט
-
@המלאך אין לו API וגם הוא ממש לאט
-
@מענדיל-טרייסטער סבבה אבל אני עכשיו צופה ביוטיוב בקקליפ הוא יצטרך קודם להמיר את זה לMP3 ואז לשלוח את זה לשם ואז זה אמור לחזור גם אם נתעלם מהנושא של הזמן שזה לפחות 5 דקות מינימום וזה לא ראלי וזה בלי קשדר שזה נותן חינם רק פעם 1 ביום
-
@מענדיל-טרייסטער סבבה אבל אני עכשיו צופה ביוטיוב בקקליפ הוא יצטרך קודם להמיר את זה לMP3 ואז לשלוח את זה לשם ואז זה אמור לחזור גם אם נתעלם מהנושא של הזמן שזה לפחות 5 דקות מינימום וזה לא ראלי וזה בלי קשדר שזה נותן חינם רק פעם 1 ביום
@הישבשר-המלומד לכן האפשרות היחידה זה מה שהצעתי למעלה.
https://mitmachim.top/post/1141651 -
@הישבשר-המלומד לכן האפשרות היחידה זה מה שהצעתי למעלה.
https://mitmachim.top/post/1141651@mps צודק. ניסתי לבנותא איזה תוסף אבל זה לא הלך טוב
-
@מענדיל-טרייסטער סבבה אבל אני עכשיו צופה ביוטיוב בקקליפ הוא יצטרך קודם להמיר את זה לMP3 ואז לשלוח את זה לשם ואז זה אמור לחזור גם אם נתעלם מהנושא של הזמן שזה לפחות 5 דקות מינימום וזה לא ראלי וזה בלי קשדר שזה נותן חינם רק פעם 1 ביום
@הישבשר-המלומד
אם זה מה ש @המלאך התכוון חושבני שזה באמת לא כ"כ מעשי, וכדבריך.
והלוואי שזה כן יהיה מעשי...
באמת תמהני שלמרות שעידן הAI נמצא בשיאו, לא ניתן לעשות שזה יפעיל את הקול בלבד בשעת מעשה -
ביקשתי מAI שייתן לי את התדרים שאפשר לחתוך בחי. בספולר.
חשוב להבין שחיתוך תדרים בלבד (ללא AI או ביטול פאזות) לא יבודד את השירה לחלוטין (תמיד יישארו כלי נגינה שמנגנים באותם תדרים), אבל הוא בהחלט יתמקד ב"לב" של הקול האנושי.
כדי להשיג את התוצאה הטובה ביותר בזמן אמת, אתה צריך להשתמש ב-Band-pass Filter (מסנן מעביר פס). אלו התדרים המרכזיים:- טווח התדרים הכללי של הקול האנושי
גבול תחתון (Low Cut / High Pass): בדרך כלל באזור ה-150Hz עד 200Hz.
מתחת לזה נמצאים הבאסים והתופים (Kick). חיתוך כאן ינקה את ה"בוץ" וישאיר את גוף הקול.
גבול עליון (High Cut / Low Pass): בדרך כלל באזור ה-4,000Hz (4kHz) עד 5,000Hz (5kHz).
מעל זה נמצאים מצילתיים (Hi-hats) וצלילים גבוהים מאוד של סינתיסייזרים. רוב המידע שמאפשר לנו להבין מילים נמצא מתחת ל-4kHz. - ה"סוויט ספוט" (Sweet Spot) לפי אזורים:
אם אתה בונה איקוולייזר (EQ) או פילטר, אלו האזורים שתרצה להדגיש:
300Hz - 1,000Hz: כאן נמצא ה"גוף" והחמימות של הקול.
1kHz - 3kHz: זהו הטווח הקריטי ביותר למובנות הדיבור (Intelligibility). האוזן האנושית הכי רגישה לתדרים האלה. זה מה שגורם לקול להישמע "קרוב".
3kHz - 5kHz: כאן נמצאת ה"נוכחות" (Presence) והבהירות של העיצורים (כמו ס', פ', ת'). - הגדרות מומלצות לתוסף (Preset):
אם אתה רוצה ליצור אפקט של "רק שירה" (סטייל אפקט טלפון אבל איכותי יותר):
High Pass Filter: בתדר 200Hz עם שיפוע (Slope) של 12dB או 24dB לאוקטבה.
Low Pass Filter: בתדר 3,500Hz (3.5kHz).
Boost קטן: חיזוק של 2-3 דציבלים באזור ה-2kHz כדי להבליט את השירה מעל המוזיקה. - טיפ למקצוענים (Mid-Side Processing):
ברוב השירים המודרניים, השירה נמצאת במרכז (Mono) בעוד שחלק מהכלים נמצאים בצדדים (Stereo).
אם התוסף שלך יכול לעבד רק את ערוץ ה-Mid (המרכז) ולחתוך את ערוצי ה-Side, תוכל לבודד את השירה בצורה הרבה יותר אפקטיבית מאשר סתם חיתוך תדרים רגיל.
לסיכום:
הטווח הממוצע והיעיל ביותר הוא 200Hz עד 4,000Hz.
הערה: מכיוון שאתה לא משתמש ב-AI, קח בחשבון שגיטרות, פסנתר וסנר (Snare) ימשיכו להישמע בתוך הטווח הזה, כי הם חולקים את אותם התדרים עם הקול האנושי.
- טווח התדרים הכללי של הקול האנושי
-
@המלאך אין לו API וגם הוא ממש לאט
@הישבשר-המלומד מי האתר?
הוא משתמש במודלים שיושבים על השרתים שלהם, הוא לא ייתן לנו להשתמש בהם ג"כ,
אנחנו נאלץ להשתמש במודלי בעצמינו.
להוריד ONNX כדוגמת זה: https://huggingface.co/chinedudave06/demucs-onnx או כל אחד אחר בסגנון.
ואז להבנה בזה: https://huggingface.co/matbee/sam-audio-small-onnx , או כל אחד אחר דומה לו.
ואחרון להשתמש בOmnizart דרך גוגל קלואב.
לדעתי אפשר את כולם דרך API, להאגינג פייס, אם כי אני לא יודע מהי המגבלה. -
ביקשתי מAI שייתן לי את התדרים שאפשר לחתוך בחי. בספולר.
חשוב להבין שחיתוך תדרים בלבד (ללא AI או ביטול פאזות) לא יבודד את השירה לחלוטין (תמיד יישארו כלי נגינה שמנגנים באותם תדרים), אבל הוא בהחלט יתמקד ב"לב" של הקול האנושי.
כדי להשיג את התוצאה הטובה ביותר בזמן אמת, אתה צריך להשתמש ב-Band-pass Filter (מסנן מעביר פס). אלו התדרים המרכזיים:- טווח התדרים הכללי של הקול האנושי
גבול תחתון (Low Cut / High Pass): בדרך כלל באזור ה-150Hz עד 200Hz.
מתחת לזה נמצאים הבאסים והתופים (Kick). חיתוך כאן ינקה את ה"בוץ" וישאיר את גוף הקול.
גבול עליון (High Cut / Low Pass): בדרך כלל באזור ה-4,000Hz (4kHz) עד 5,000Hz (5kHz).
מעל זה נמצאים מצילתיים (Hi-hats) וצלילים גבוהים מאוד של סינתיסייזרים. רוב המידע שמאפשר לנו להבין מילים נמצא מתחת ל-4kHz. - ה"סוויט ספוט" (Sweet Spot) לפי אזורים:
אם אתה בונה איקוולייזר (EQ) או פילטר, אלו האזורים שתרצה להדגיש:
300Hz - 1,000Hz: כאן נמצא ה"גוף" והחמימות של הקול.
1kHz - 3kHz: זהו הטווח הקריטי ביותר למובנות הדיבור (Intelligibility). האוזן האנושית הכי רגישה לתדרים האלה. זה מה שגורם לקול להישמע "קרוב".
3kHz - 5kHz: כאן נמצאת ה"נוכחות" (Presence) והבהירות של העיצורים (כמו ס', פ', ת'). - הגדרות מומלצות לתוסף (Preset):
אם אתה רוצה ליצור אפקט של "רק שירה" (סטייל אפקט טלפון אבל איכותי יותר):
High Pass Filter: בתדר 200Hz עם שיפוע (Slope) של 12dB או 24dB לאוקטבה.
Low Pass Filter: בתדר 3,500Hz (3.5kHz).
Boost קטן: חיזוק של 2-3 דציבלים באזור ה-2kHz כדי להבליט את השירה מעל המוזיקה. - טיפ למקצוענים (Mid-Side Processing):
ברוב השירים המודרניים, השירה נמצאת במרכז (Mono) בעוד שחלק מהכלים נמצאים בצדדים (Stereo).
אם התוסף שלך יכול לעבד רק את ערוץ ה-Mid (המרכז) ולחתוך את ערוצי ה-Side, תוכל לבודד את השירה בצורה הרבה יותר אפקטיבית מאשר סתם חיתוך תדרים רגיל.
לסיכום:
הטווח הממוצע והיעיל ביותר הוא 200Hz עד 4,000Hz.
הערה: מכיוון שאתה לא משתמש ב-AI, קח בחשבון שגיטרות, פסנתר וסנר (Snare) ימשיכו להישמע בתוך הטווח הזה, כי הם חולקים את אותם התדרים עם הקול האנושי.
@mps אני חושב שגם באתר https://vocalremover.org/ הנחשב לאיכותי ביותר, ניתן לשמוע בעת השירה עצמה [כלומר כשהזמר שר ולא כשהוא נושם בין המילים] איזשהו שאריות של מוזיקה, לחדי שמיעה ממש, וזה משהו שאי אפשר להסיר כי זה סוג של חלק מהשירה שבלתי ניתן להפרדה.
ואם זה הרמה שלכך הוא התכוון - הרי שאנחנו נמצאים במקום מצויין. - טווח התדרים הכללי של הקול האנושי