Как мы слышим? Психоакустика.

Слуховая система человека – сложный и вместе с тем очень интересно устроенный механизм. Чтобы более ясно представить себе, что для нас есть звук, нужно разобраться с тем, что и как мы слышим.

В анатомии ухо человека принято делить на три составные части: наружное ухо, среднее ухо и внутреннее ухо. К наружному уху относится ушная раковина, помогающая сконцентрировать звуковые колебания, и наружный слуховой канал. Звуковая волна, попадая в ушную раковину, проходит дальше, по слуховому каналу (его длина составляет около 3 см, а диаметр - около 0.5) и попадает в среднее ухо, где ударяется о барабанную перепонку, представляющую собой тонкою полупрозрачную мембрану. Барабанная перепонка преобразует звуковую волну в вибрации (усиливая эффект от слабой звуковой волны и ослабляя от сильной). Эти вибрации передаются по присоединенным к барабанной перепонке косточкам - молоточку, наковальне и стремечку – во внутреннее ухо, представляющее собой завитую трубку с жидкостью диаметром около 0.2 мм и длинной около 4 см. Эта трубка называется улиткой. Внутри улитки находится еще одна мембрана, называемая базилярной, которая напоминает струну длиной 32 мм, вдоль которой располагаются чувствительные клетки (более 20 тысяч волокон). Толщина струны в начале улитки и у ее вершины различна. В результате такого строения мембрана резонирует разными своими частями в ответ на звуковые колебания разной высоты. Так, высокочастотный звук затрагивает нервные окончания, располагающиеся в начале улитки, а звуковые колебания низкой частоты – окончания в ее вершине. Механизм распознавания частоты звуковых колебаний достаточно сложен. В целом он заключается в анализе месторасположения затронутых колебаниями нервных окончаний, а также в анализе частоты импульсов, поступающих в мозг от нервных окончаний.

Существует целая наука, изучающая психологические и физиологические особенности восприятия звука человеком. Эта наука называется психоакустикой. В последние несколько десятков лет психоакустика стала одной из наиболее важных отраслей в области звуковых технологий, поскольку в основном именно благодаря знаниям в области психоакустики современные звуковые технологии получили свое развитие. Давайте рассмотрим самые основные факты, установленные психоакустикой.

Основную информацию о звуковых колебаниях мозг получает в области до 4 кГц. Этот факт оказывается вполне логичным, если учесть, что все основные жизненно необходимые человеку звуки находятся именно в этой спектральной полосе, до 4 кГц (голоса других людей и животных, шум воды, ветра и проч.). Частоты выше 4 кГц являются для человека лишь вспомогательными, что подтверждается многими опытами. В целом, принято считать, что низкие частоты «ответственны» за разборчивость, ясность аудио информации, а высокие частоты – за субъективное качество звука. Слуховой аппарат человека способен различать частотные составляющие звука в пределах от 20-30 Гц до приблизительно 20 КГц. Указанная верхняя граница может колебаться в зависимости от возраста слушателя и других факторов.

В спектре звука большинства музыкальных инструментов наблюдается наиболее выделяющаяся по амплитуде частотная составляющая. Ее называют основной частотой или основным тоном. Основная частота является очень важным параметром звучания, и вот почему. Для периодических сигналов, слуховая система человека способна различать высоту звука. В соответствии с определением международной организации стандартов, высота звука - это субъективная характеристика, распределяющая звуки по некоторой шкале от низких к высоким. На воспринимаемую высоту звука влияет, главным образом, частота основного тона (период колебаний), при этом общая форма звуковой волны и ее сложность (форма периода) также могут оказывать влияние на нее. Высота звука может определяться слуховой системой для сложных сигналов, но только в том случае, если основной тон сигнала является периодическим (например, в звуке хлопка или выстрела тон не является периодическим и по сему слух не способен оценить его высоту).

Вообще, в зависимости от амплитуд составляющих спектра, звук может приобретать различную окраску и восприниматься как тон или как шум. В случае если спектр дискретен (то есть, на графике спектра присутствуют явно выраженные пики), то звук воспринимается как тон, если имеет место один пик, или как созвучие, в случае присутствия нескольких явно выраженных пиков. Если же звук имеет сплошной спектр, то есть амплитуды частотных составляющих спектра примерно равны, то на слух такой звук воспринимается как шум. Для демонстрации наглядного примера можно попытаться экспериментально «изготовить» различные музыкальные тона и созвучия. Для этого необходимо к громкоговорителю через сумматор подключить несколько генераторов чистых тонов (осцилляторов). Причем, сделать это таким образом, чтобы была возможность регулировки амплитуды и частоты каждого генерируемого чистого тона. В результате проделанной работы будет получена возможность смешивать сигналы от всех осцилляторов в желаемой пропорции, и тем самым создавать совершенно различные звуки. Поученный прибор явит собой простейший синтезатор звука.

Очень важной характеристикой слуховой системы человека является способность различать два тона с разными частотами. Опытные проверки показали, что в полосе от 0 до 16 кГц человеческий слух способен различать до 620 градаций частот (в зависимости от интенсивности звука), при этом примерно 140 градаций находятся в промежутке от 0 до 500 Гц.

На восприятии высоты звука для чистых тонов сказываются также интенсивность и длительность звучания. В частности, низкий чистый тон покажется еще более низким, если увеличить интенсивность его звучания. Обратная ситуация наблюдается с высокочастотным чистым тоном – увеличение интенсивности звучания сделает субъективно воспринимаемую высоту тона еще более высокой.

Длительность звучания сказывается на воспринимаемой высоте тона критическим образом. Так, очень кратковременное звучание (менее 15 мс) любой частоты покажется на слух просто резким щелчком – слух будет неспособен различить высоту тона для такого сигнала. Высота тона начинает восприниматься лишь спустя 15 мс для частот в полосе 1000 – 2000 Гц и лишь спустя 60 мс – для частот ниже 500 Гц. Это явление называется инерционностью слуха. Инерционность слуха связана с устройством базилярной мембраны. Кратковременные звуковые всплески не способны заставить мембрану резонировать на нужной частоте, а значит мозг не получает информацию о высоте тона очень коротких звуков. Минимальное время, требуемое для распознавания высоты тона, зависит от частоты звукового сигнала, а, точнее, от длины волны. Чем выше частота звука, тем меньше длина звуковой волны, а значит тем быстрее «устанавливаются» колебания базилярной мембраны.

В природе мы почти не сталкиваемся с чистыми тонами. Звучание любого музыкального инструмента является сложным и состоит из множества частотных составляющих. Как мы сказали выше, даже для таких звуков слух способен установить высоту их звучания, в соответствии с частотой основного тона и/или его гармоник. Тем не менее, даже при одинаковой высоте звучания, звук, например, скрипки отличается на слух от звука рояля. Это связано с тем, что помимо высоты звучания слух способен оценить также общий характер, окрас звучания, его тембр. Тембром звука называется такое качество восприятия звука, которое, в не зависимости от частоты и амплитуды, позволяет отличить одно звучание от другого. Тембр звука зависит от общего спектрального состава звучания и интенсивности спектральных составляющих, то есть от общего вида звуковой волны, и фактически не зависит от высоты основного тона. Немалое влияние на тембр звучания оказывает явление инерционности слуховой системы. Это выражается, например, в том, что на распознавание тембра слуху требуется около 200 мс.

Громкость звука – это одно из тех понятий, которые мы употребляем ежедневно, не задумываясь при этом над тем, какой физический смысл оно несет. Громкость звука – это психологическая характеристика восприятия звука, определяющая ощущение силы звука. Громкость звука, хотя и жестко связана с интенсивностью, но нарастает непропорционально увеличению интенсивности звукового сигнала. На громкость влияет частота и длительность звукового сигнала. Чтобы правильно судить о связи ощущения звука (его громкости) с раздражением (уровнем силы звука), нужно учитывать, что изменение чувствительности слухового аппарата человека не точно подчиняется логарифмическому закону.

Существуют несколько единиц измерения громкости звука. Первая единица – «фон» (в англ. обозначении - « phon»). Говорят, «уровень громкости звука составляет n фон», если средний слушатель оценивает сигнал как равный по громкости тону с частотой 1000 Гц и уровнем давления в n дБ. Фон, как и децибел, по сути не является единицей измерения, а представляет собой относительную субъективную характеристику интенсивности звука. На рис. 5 представлен график с кривыми равных громкостей.

Звук: немного теории (Из теории звука)

Каждая кривая на графике показывает уровень равной громкости с начальной точкой отсчета на частоте 1000 Гц. Иначе говоря, каждая линия соответствует некоторому значению громкости, измеренной в фонах. Например, линия «10 фон» показывает уровни сигнала в дБ на разных частотах, воспринимаемых слушателем как равные по громкости сигналу с частотой 1000 Гц и уровнем 10 дБ. Важно заметить, что приведенные кривые не являются эталонными, а приведены в качестве примера. Современные исследования ясно свидетельствуют, что вид кривых в достаточной степени зависит от условий проведения измерений, акустических характеристик помещения, а также от типа источников звука (громкоговорители, наушники). Таким образом, эталонного графика кривых равных громкостей не существует.

Важной деталью восприятия звука слуховым аппаратом человека является так называемый порог слышимости - минимальная интенсивность звука, с которой начинается восприятие сигнала. Как мы видели, уровни равной громкости звука для человека не остаются постоянным с изменением частоты. Иными словами, чувствительность слуховой системы сильно зависит как от громкости звука, так и от его частоты. В частности, и порог слышимости также не одинаков на разных частотах. Например, порог слышимости сигнала на частоте около 3 кГц составляет чуть менее 0 дБ, а на частоте 200 Гц – около 15 дБ. Напротив, болевой порог слышимости мало зависит от частоты и колеблется в пределах 100 – 130 дБ. График порога слышимости представлен на рис. 6. Обратим внимание, что поскольку, острота слуха с возрастом меняется, график порога слышимости в верхней полосе частот различен для разных возрастов.

Звук: немного теории (Из теории звука)

Частотные составляющие с амплитудой ниже порога слышимости (то есть находящиеся под графиком порога слышимости) оказываются незаметными на слух.

Интересным и исключительно важным является тот факт, что порог слышимости слуховой системы, также как и кривые равных громкостей, является непостоянным в разных условиях. Представленные выше графики порога слышимости справедливы для тишины. В случае проведения опытов по измерению порога слышимости не в полной тишине, а, например, в зашумленной комнате или при наличии какого-то постоянного фонового звука, графики окажутся другими. Это, в общем, совсем не удивительно. Ведь идя по улице и разговаривая с собеседником, мы вынуждены прерывать свою беседу, когда мимо нас проезжает какой-нибудь грузовик, поскольку шум грузовика не дает нам слышать собеседника. Этот эффект называется частотной маскировкой. Причиной появления эффекта частотной маскировки является схема восприятия звука слуховой системой. Мощный по амплитуде сигнал некоторой частоты f m вызывает сильные возмущения базилярной мембраны на некотором ее отрезке. Близкий по частоте, но более слабый по амплитуде сигнал с частотой f уже не способен повлиять на колебания мембраны, и поэтому остается «незамеченным» нервными окончаниями и мозгом.

Эффект частотной маскировки справедлив для частотных составляющих, присутствующих в спектре сигнала в одно и то же время. Однако в виду инерционности слуха, эффект маскировки может распространяться и во времени. Так некоторая частотная составляющая может маскировать другую частотную составляющую даже тогда, когда они появляются в спектре не одновременно, а с некоторой задержкой во времени. Этот эффект называется временной маскировкой. В случае, когда маскирующий тон появляется по времени раньше маскируемого, эффект называют пост-маскировкой. В случае же, когда маскирующий тон появляется позже маскируемого (возможен и такой случай), эффект называет пре-маскировкой.

2.5. Пространственное звучание.

Человек слышит двумя ушами и за счет этого способен различать направление прихода звуковых сигналов. Эту способность слуховой системы человека называют бинауральным эффектом. Механизм распознавания направления прихода звуков сложен и, надо сказать, что в его изучении и способах применения еще не поставлена точка.

Уши человека расставлены на некотором расстоянии по ширине головы. Скорость распространения звуковой волны относительно невелика. Сигнал, приходящий от источника звука, находящегося напротив слушателя, приходит в оба уха одновременно, и мозг интерпретирует это как расположение источника сигнала либо позади, либо спереди, но не сбоку. Если же сигнал приходит от источника, смещенного относительно центра головы, то звук приходит в одно ухо быстрее, чем во второе, что позволяет мозгу соответствующим образом интерпретировать это как приход сигнала слева или справа и даже приблизительно определить угол прихода. Численно, разница во времени прихода сигнала в левое и правое ухо, составляющая от 0 до 1 мс, смещает мнимый источник звука в сторону того уха, которое воспринимает сигнал раньше. Такой способ определения направления прихода звука используется мозгом в полосе частот от 300 Гц до 1 кГц. Направление прихода звука для частот расположенных выше 1 кГц определяется мозгом человека путем анализа громкости звука. Дело в том, что звуковые волны с частотой выше 1 кГц быстро затухают в воздушном пространстве. Поэтому интенсивность звуковых волн, доходящих до левого и правого ушей слушателя, отличаются на столько, что позволяет мозгу определять направление прихода сигнала по разнице амплитуд. Если звук в одном ухе слышен лучше, чем в другом, следовательно источник звука находится со стороны того уха, в котором он слышен лучше. Немаловажным подспорьем в определении направления прихода звука является способность человека повернуть голову в сторону кажущегося источника звука, чтобы проверить верность определения. Способность мозга определять направление прихода звука по разнице во времени прихода сигнала в левое и правое ухо, а также путем анализа громкости сигнала используется в стереофонии.

Имея всего два источника звука можно создать у слушателя ощущение наличия мнимого источника звука между двумя физическими. Причем этот мнимый источник звука можно «расположить» в любой точке на линии, соединяющей два физических источника. Для этого нужно воспроизвести одну аудио запись (например, со звуком рояля) через оба физических источника, но сделать это с некоторой временной задержкой в одном из них и соответствующей разницей в громкости. Грамотно используя описанный эффект можно при помощи двухканальной аудио записи донести до слушателя почти такую картину звучания, какую он ощутил бы сам, если бы лично присутствовал, например, на каком-нибудь концерте. Такую двухканальную запись называют стереофонической. Одноканальная же запись называется монофонической.

На самом деле, для качественного донесения до слушателя реалистичного пространственного звучания обычной стереофонической записи оказывается не всегда достаточно. Основная причина этого кроется в том, что стерео сигнал, приходящий к слушателю от двух физических источников звука, определяет расположение мнимых источников лишь в той плоскости, в которой расположены реальные физические источники звука. Естественно, «окружить слушателя звуком» при этом не удается. По большому счету по той же причине заблуждением является и мысль о том, что объемное звучание обеспечивается квадрофонической (четырехканальной) системой (два источника перед слушателем и два позади него). В целом, путем выполнения многоканальной записи нам удается лишь донести до слушателя тот звук, каким он был «услышан» расставленной нами звукопринимающей аппаратурой (микрофонами), и не более того. Для воссоздания же более или менее реалистичного, действительно объемного звучания прибегают к применению принципиально других подходов, в основе которых лежат более сложные приемы, моделирующие особенности слуховой системы человека, а также физические особенности и эффекты передачи звуковых сигналов в пространстве.

Одним из таких инструментов является использование функций HRTF (Head Related Transfer Function). Посредством этого метода (по сути – библиотеки функций) звуковой сигнал можно преобразовать специальным образом и обеспечить достаточно реалистичное объемное звучание, рассчитанное на прослушивание даже в наушниках.

Суть HRTF – накопление библиотеки функций, описывающих психофизическую модель восприятия объемности звучания слуховой системой человека. Для создания библиотек HRTF используется искусственный манекен KEMAR (Knowles Electronics Manikin for Auditory Research) или специальное «цифровое ухо». В случае использования манекена суть проводимых измерений состоит в следующем. В уши манекена встраиваются микрофоны, с помощью которых осуществляется запись. Звук воспроизводится источниками, расположенными вокруг манекена. В результате, запись от каждого микрофона представляет собой звук, «прослушанный» соответствующим ухом манекена с учетом всех изменений, которые звук претерпел на пути к уху ( затухания и искажения как следствия огибания головы и отражения от разных ее частей). Расчет функций HRTF производится с учетом исходного звука и звука, «услышанного» манекеном. Собственно, сами опыты заключаются в воспроизведении разных тестовых и реальных звуковых сигналов, их записи с помощью манекена и дальнейшего анализа. Накопленная таким образом база функций позволяет затем обрабатывать любой звук так, что при его воспроизведении через наушники у слушателя создается впечатление, будто звук исходит не из наушников, а откуда-то из окружающего его пространства.

Таким образом, HRTF представляет собой набор трансформаций, которые претерпевает звуковой сигнал на пути от источника звука к слуховой системе человека. Рассчитанные однажды опытным путем, HRTF могут быть применены для обработки звуковых сигналов с целью имитации реальных изменений звука на его пути от источника к слушателю. Не смотря на удачность идеи, HRTF имеет, конечно, и свои отрицательные стороны, однако в целом идея использования HRTF является вполне удачной. Использование HRTF в том или ином виде лежит в основе множества современных технологий пространственного звучания, таких как технологии QSound 3 D ( Q3 D), EAX, Aureal3 D ( A3 D) и другие.