Звук: анализ (index) | |
Человек воспринимает звук за счёт изменения давления воздуха под
действием звуковой волны. На этом же принципе работает подавляющее
большинство звуковоспринимающих устройств, например, можно посмотреть статью
про
микрофон на википедии.
Звуковой сигнал можно записать как график движения точки на мембране, или график изменения напряжения, допустим, на пьезодатчике. Такая форма представления сигнала называется осциллограммой. По оси ординат в этом случае представлена амплитуда (условно говоря, мощность, или, скажем, насколько волне удаётся отклонять мембрану) сигнала, а по оси абсцисс — время. Частота следования пиков графика и отражает частоту звуковой волны.
Однако несложно заметить, что при наличии более чем одного источника звука (или при наличии источника звуковых волн разной длины), значением ординаты в каждой конкретной точке графика будет сумма значений различных звуковых волн. Возможно и обратное преобразование, когда суммарный график раскладывается на графики составляющих его различных звуковых волн. Это преобразование называется преобразованием Фурье, и в программном анализе звука обычно выполняется по алгоритму быстрого преобразования Фурье. Или, в английской записи, fast Fourier transform (FFT).
Результатом FFT обычно является так называемый звуковой спектр, или график, где по одной из осей обозначена амплитуда, а по другой — частота. «Мгновенный» снимок спектра звука в какой-либо момент времени называется спектральным срезом, и, обычно, полезен только при чётком понимании привязки среза к временному отрезку. (В скобках замечу, что FFT требует для анализа не один момент, а некоторый отрезок записи, называемый окном, и отдельной темой является выбор длительности окна, а также механизм его формирования; спектральный срез — термин условный) Анализировать спектральные срезы достаточно сложно, и ещё сложнее это делать в режиме реального времени.
Поэтому чаще используется трёхмерный график, под названием динамическая спектрограмма. Она может быть реально трёхмерной, но чаще всего ось, по которой откладывают амплитуду, обозначают цветом. В этом случае, по одной оси мы получаем частоту, по другой — время, а цвет обозначает мощность звука в записи на данной частоте.
Процесс обучения каргыраа, самое начало. Хорошо видны участки работы ложных голосовых связок, частота видимых гармоник на графике удваивается. На слух эти моменты могут быть не столь хорошо заметны, особенно если голос от природы высокий.
В процессе обучения наиболее полезна последняя форма представления звука, или динамическая спектрограмма. Особенно, если она выполняется в режиме реального времени. На такой спектрограмме вы можете контролировать частоту основного тона и формант (да и хотя бы просто увидеть форманты, которые в норме человек даже не осознаёт), а также можете увидеть результат упражнений ещё до того, как услышите. Это достаточно важно. Из-за невозможности точно описать артикуляцию, при обучении приходится много времени уделять экспериментированию со своим голосом. Вовремя опознанный результат поможет сосредоточиться на нужном направлении экспериментов, сильно сокращая время на обучение.
page info: started by peet