הצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד
-
@המלאך זה כן אפשרי ללא API ללא AI וכו' כמו אוקלוזר רק שמכנים את זה שישמע יותר את הקול של הזמר ופחות את הרעש זה לא מקצועי בעליל אבל אפשרי
@הישבשר-המלומד לא הבנת את כונתי,
לאתר ההוא יש API? אלא אם אתה מתכוון לליצור מאפס, זה קצת מסובך.
לכן שאלתי, במה זה משתמש (האתר)?@מענדיל-טרייסטער כתב בהצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד:
אני מדבר על משהו שיהיה זמין בעת גלישה בכל האתרים
ולא התכוונתי לאתר ספציפיכמובן, התוסף ייטען מהאתר.
-
@הישבשר-המלומד לא הבנת את כונתי,
לאתר ההוא יש API? אלא אם אתה מתכוון לליצור מאפס, זה קצת מסובך.
לכן שאלתי, במה זה משתמש (האתר)?@מענדיל-טרייסטער כתב בהצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד:
אני מדבר על משהו שיהיה זמין בעת גלישה בכל האתרים
ולא התכוונתי לאתר ספציפיכמובן, התוסף ייטען מהאתר.
אוקי.
אז האתר משתמש בבינה מלאכותית, מה שאומר שיש שני אופציות.
או שמישהו ישכור שרת (קשה לי להאמין שחינמי יספיק לזה), ושם יריץ מודל וינתב לשם.
או כמו התוכנה של @css-0 אבל עם שימוש של ONNX,
אם יבוצע המודל אופליין, אז יש כמה דרכים לייעל את התוסף/תוכנה מאוד. -
אוקי.
אז האתר משתמש בבינה מלאכותית, מה שאומר שיש שני אופציות.
או שמישהו ישכור שרת (קשה לי להאמין שחינמי יספיק לזה), ושם יריץ מודל וינתב לשם.
או כמו התוכנה של @css-0 אבל עם שימוש של ONNX,
אם יבוצע המודל אופליין, אז יש כמה דרכים לייעל את התוסף/תוכנה מאוד.@המלאך כתב בהצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד:
אז האתר משתמש בבינה מלאכותית
לא הבנתי,
איזה אתר? -
@המלאך כתב בהצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד:
אז האתר משתמש בבינה מלאכותית
לא הבנתי,
איזה אתר? -
@המלאך אין לו API וגם הוא ממש לאט
-
@המלאך אין לו API וגם הוא ממש לאט
-
@מענדיל-טרייסטער סבבה אבל אני עכשיו צופה ביוטיוב בקקליפ הוא יצטרך קודם להמיר את זה לMP3 ואז לשלוח את זה לשם ואז זה אמור לחזור גם אם נתעלם מהנושא של הזמן שזה לפחות 5 דקות מינימום וזה לא ראלי וזה בלי קשדר שזה נותן חינם רק פעם 1 ביום
-
@מענדיל-טרייסטער סבבה אבל אני עכשיו צופה ביוטיוב בקקליפ הוא יצטרך קודם להמיר את זה לMP3 ואז לשלוח את זה לשם ואז זה אמור לחזור גם אם נתעלם מהנושא של הזמן שזה לפחות 5 דקות מינימום וזה לא ראלי וזה בלי קשדר שזה נותן חינם רק פעם 1 ביום
@הישבשר-המלומד לכן האפשרות היחידה זה מה שהצעתי למעלה.
https://mitmachim.top/post/1141651 -
@הישבשר-המלומד לכן האפשרות היחידה זה מה שהצעתי למעלה.
https://mitmachim.top/post/1141651@mps צודק. ניסתי לבנותא איזה תוסף אבל זה לא הלך טוב
-
@מענדיל-טרייסטער סבבה אבל אני עכשיו צופה ביוטיוב בקקליפ הוא יצטרך קודם להמיר את זה לMP3 ואז לשלוח את זה לשם ואז זה אמור לחזור גם אם נתעלם מהנושא של הזמן שזה לפחות 5 דקות מינימום וזה לא ראלי וזה בלי קשדר שזה נותן חינם רק פעם 1 ביום
@הישבשר-המלומד
אם זה מה ש @המלאך התכוון חושבני שזה באמת לא כ"כ מעשי, וכדבריך.
והלוואי שזה כן יהיה מעשי...
באמת תמהני שלמרות שעידן הAI נמצא בשיאו, לא ניתן לעשות שזה יפעיל את הקול בלבד בשעת מעשה -
ביקשתי מAI שייתן לי את התדרים שאפשר לחתוך בחי. בספולר.
חשוב להבין שחיתוך תדרים בלבד (ללא AI או ביטול פאזות) לא יבודד את השירה לחלוטין (תמיד יישארו כלי נגינה שמנגנים באותם תדרים), אבל הוא בהחלט יתמקד ב"לב" של הקול האנושי.
כדי להשיג את התוצאה הטובה ביותר בזמן אמת, אתה צריך להשתמש ב-Band-pass Filter (מסנן מעביר פס). אלו התדרים המרכזיים:- טווח התדרים הכללי של הקול האנושי
גבול תחתון (Low Cut / High Pass): בדרך כלל באזור ה-150Hz עד 200Hz.
מתחת לזה נמצאים הבאסים והתופים (Kick). חיתוך כאן ינקה את ה"בוץ" וישאיר את גוף הקול.
גבול עליון (High Cut / Low Pass): בדרך כלל באזור ה-4,000Hz (4kHz) עד 5,000Hz (5kHz).
מעל זה נמצאים מצילתיים (Hi-hats) וצלילים גבוהים מאוד של סינתיסייזרים. רוב המידע שמאפשר לנו להבין מילים נמצא מתחת ל-4kHz. - ה"סוויט ספוט" (Sweet Spot) לפי אזורים:
אם אתה בונה איקוולייזר (EQ) או פילטר, אלו האזורים שתרצה להדגיש:
300Hz - 1,000Hz: כאן נמצא ה"גוף" והחמימות של הקול.
1kHz - 3kHz: זהו הטווח הקריטי ביותר למובנות הדיבור (Intelligibility). האוזן האנושית הכי רגישה לתדרים האלה. זה מה שגורם לקול להישמע "קרוב".
3kHz - 5kHz: כאן נמצאת ה"נוכחות" (Presence) והבהירות של העיצורים (כמו ס', פ', ת'). - הגדרות מומלצות לתוסף (Preset):
אם אתה רוצה ליצור אפקט של "רק שירה" (סטייל אפקט טלפון אבל איכותי יותר):
High Pass Filter: בתדר 200Hz עם שיפוע (Slope) של 12dB או 24dB לאוקטבה.
Low Pass Filter: בתדר 3,500Hz (3.5kHz).
Boost קטן: חיזוק של 2-3 דציבלים באזור ה-2kHz כדי להבליט את השירה מעל המוזיקה. - טיפ למקצוענים (Mid-Side Processing):
ברוב השירים המודרניים, השירה נמצאת במרכז (Mono) בעוד שחלק מהכלים נמצאים בצדדים (Stereo).
אם התוסף שלך יכול לעבד רק את ערוץ ה-Mid (המרכז) ולחתוך את ערוצי ה-Side, תוכל לבודד את השירה בצורה הרבה יותר אפקטיבית מאשר סתם חיתוך תדרים רגיל.
לסיכום:
הטווח הממוצע והיעיל ביותר הוא 200Hz עד 4,000Hz.
הערה: מכיוון שאתה לא משתמש ב-AI, קח בחשבון שגיטרות, פסנתר וסנר (Snare) ימשיכו להישמע בתוך הטווח הזה, כי הם חולקים את אותם התדרים עם הקול האנושי.
- טווח התדרים הכללי של הקול האנושי
-
@המלאך אין לו API וגם הוא ממש לאט
@הישבשר-המלומד מי האתר?
הוא משתמש במודלים שיושבים על השרתים שלהם, הוא לא ייתן לנו להשתמש בהם ג"כ,
אנחנו נאלץ להשתמש במודלי בעצמינו.
להוריד ONNX כדוגמת זה: https://huggingface.co/chinedudave06/demucs-onnx או כל אחד אחר בסגנון.
ואז להבנה בזה: https://huggingface.co/matbee/sam-audio-small-onnx , או כל אחד אחר דומה לו.
ואחרון להשתמש בOmnizart דרך גוגל קלואב.
לדעתי אפשר את כולם דרך API, להאגינג פייס, אם כי אני לא יודע מהי המגבלה. -
ביקשתי מAI שייתן לי את התדרים שאפשר לחתוך בחי. בספולר.
חשוב להבין שחיתוך תדרים בלבד (ללא AI או ביטול פאזות) לא יבודד את השירה לחלוטין (תמיד יישארו כלי נגינה שמנגנים באותם תדרים), אבל הוא בהחלט יתמקד ב"לב" של הקול האנושי.
כדי להשיג את התוצאה הטובה ביותר בזמן אמת, אתה צריך להשתמש ב-Band-pass Filter (מסנן מעביר פס). אלו התדרים המרכזיים:- טווח התדרים הכללי של הקול האנושי
גבול תחתון (Low Cut / High Pass): בדרך כלל באזור ה-150Hz עד 200Hz.
מתחת לזה נמצאים הבאסים והתופים (Kick). חיתוך כאן ינקה את ה"בוץ" וישאיר את גוף הקול.
גבול עליון (High Cut / Low Pass): בדרך כלל באזור ה-4,000Hz (4kHz) עד 5,000Hz (5kHz).
מעל זה נמצאים מצילתיים (Hi-hats) וצלילים גבוהים מאוד של סינתיסייזרים. רוב המידע שמאפשר לנו להבין מילים נמצא מתחת ל-4kHz. - ה"סוויט ספוט" (Sweet Spot) לפי אזורים:
אם אתה בונה איקוולייזר (EQ) או פילטר, אלו האזורים שתרצה להדגיש:
300Hz - 1,000Hz: כאן נמצא ה"גוף" והחמימות של הקול.
1kHz - 3kHz: זהו הטווח הקריטי ביותר למובנות הדיבור (Intelligibility). האוזן האנושית הכי רגישה לתדרים האלה. זה מה שגורם לקול להישמע "קרוב".
3kHz - 5kHz: כאן נמצאת ה"נוכחות" (Presence) והבהירות של העיצורים (כמו ס', פ', ת'). - הגדרות מומלצות לתוסף (Preset):
אם אתה רוצה ליצור אפקט של "רק שירה" (סטייל אפקט טלפון אבל איכותי יותר):
High Pass Filter: בתדר 200Hz עם שיפוע (Slope) של 12dB או 24dB לאוקטבה.
Low Pass Filter: בתדר 3,500Hz (3.5kHz).
Boost קטן: חיזוק של 2-3 דציבלים באזור ה-2kHz כדי להבליט את השירה מעל המוזיקה. - טיפ למקצוענים (Mid-Side Processing):
ברוב השירים המודרניים, השירה נמצאת במרכז (Mono) בעוד שחלק מהכלים נמצאים בצדדים (Stereo).
אם התוסף שלך יכול לעבד רק את ערוץ ה-Mid (המרכז) ולחתוך את ערוצי ה-Side, תוכל לבודד את השירה בצורה הרבה יותר אפקטיבית מאשר סתם חיתוך תדרים רגיל.
לסיכום:
הטווח הממוצע והיעיל ביותר הוא 200Hz עד 4,000Hz.
הערה: מכיוון שאתה לא משתמש ב-AI, קח בחשבון שגיטרות, פסנתר וסנר (Snare) ימשיכו להישמע בתוך הטווח הזה, כי הם חולקים את אותם התדרים עם הקול האנושי.
@mps אני חושב שגם באתר https://vocalremover.org/ הנחשב לאיכותי ביותר, ניתן לשמוע בעת השירה עצמה [כלומר כשהזמר שר ולא כשהוא נושם בין המילים] איזשהו שאריות של מוזיקה, לחדי שמיעה ממש, וזה משהו שאי אפשר להסיר כי זה סוג של חלק מהשירה שבלתי ניתן להפרדה.
ואם זה הרמה שלכך הוא התכוון - הרי שאנחנו נמצאים במקום מצויין. - טווח התדרים הכללי של הקול האנושי
-
@הישבשר-המלומד מי האתר?
הוא משתמש במודלים שיושבים על השרתים שלהם, הוא לא ייתן לנו להשתמש בהם ג"כ,
אנחנו נאלץ להשתמש במודלי בעצמינו.
להוריד ONNX כדוגמת זה: https://huggingface.co/chinedudave06/demucs-onnx או כל אחד אחר בסגנון.
ואז להבנה בזה: https://huggingface.co/matbee/sam-audio-small-onnx , או כל אחד אחר דומה לו.
ואחרון להשתמש בOmnizart דרך גוגל קלואב.
לדעתי אפשר את כולם דרך API, להאגינג פייס, אם כי אני לא יודע מהי המגבלה. -
@המלאך שוב. זה לא יהיה תוך כדי שמיעה. כל סרטון שתרצה להפעיל "תשלח" לAI? ומה יקרה בינתיים? תשמע אותו רגיל? עד שתקבל תשובה כקובץ נפרד? איך הלוגיקה תעבוד?
ואם תקבל קובץ נפרד אז מה יש בתוסף? -
אולי אפשר לעשות שברגע שמגיע תשובה משם, האודיו המקורי שרציתי להפעיל יופעל בווקאלי במקום עם שירה
ונחסוך גם את ההורדה -
@mps אין כזה דבר שאותה שניה.
זה פשוט לא קיים.
ההבדל הוא שזה יהיה ככפתור על כל שיר, (כי זה תוסף) וזה יהיה מהר (כי זה ONNX) רק באמת נראה לי יש כלים פשוטים כמו מואייס AI. -
@המלאך כחיתוך תדרים כן. אתה פשוט לא שומע את התדרים שמכילים מוזיקה.
יש את הטכנולוגיה הזו בנגן השמע של אורגני ימאהה.
זה פשוט סוג של EQ, שחותך את התדרים בספציפיים. זה לא נשמע ממש טוב, אבל זה עובד. -
@mps אין כזה דבר שאותה שניה.
זה פשוט לא קיים.
ההבדל הוא שזה יהיה ככפתור על כל שיר, (כי זה תוסף) וזה יהיה מהר (כי זה ONNX) רק באמת נראה לי יש כלים פשוטים כמו מואייס AI.