Основы психоакустики. Слух и речь.
Часть 2.
ИСТОЧНИК: журнал "Звукорежиссер" 1/2002 г.
Между двумя парами складок находятся небольшие полости (желудочки гортани), которые позволяют беспрепятственно голосовым складкам и играют роль акустических фильтров, уменьшая уровень высоких гармоник (скрипучесть голоса), они же играют роль резонаторов для тихих тонов и при пении в фальцете. При движении черпаловидных хрящей голосовые складки могут сдвигаться и раздвигаться, открывая проход воздуха. При поворотах щитовидного и перстневидного хрящей они могут растягиваться и сжиматься, при активации вокальных мышц они могут расслабляться и напрягаться. Процесс образования звуков речи определяется движением (колебаниями) связок, что приводит к модуляции потока воздуха выдыхаемого из легких. Такой процесс называется фонацией (существуют и другие механизмы звукообразования, они будут рассмотрены дальше).
Начнем с рассмотрения процесса фонации: перед началом речи голосовые складки должны быть сведены черпаловидными хрящами, что приводит к запиранию потока воздуха и возникновению избыточного подглоточного давления (происходит "предфонационная настройка"). Воздух, который выталкивается легкими из трахеи, накапливается в подскладочном пространстве, и начинает давить на них. Когда избыточное давление повышается до определенной величины, складки размыкаются и воздух устремляется в голосовую щель.
В момент максимального открытия щели скорость потока воздуха становится максимальной, давление внутри щели падает (по закону Бернулли), причем скорость протекания воздуха неодинакова - в самой узкой части голосовой щели она максимальна. Внутри голосовой щели образуется зона пониженного давления. Окружающее более высокое давление, а также собственная упругость связок заставляют складки сомкнуться. Этот процесс аналогичен возбуждению колебания тростей в деревянных духовых инструментах.
Таким образом, чередование избыточного давления в подскладочном пространстве и отрицательного давления из-за эффекта Бернулли заставляет складки смыкаться-размыкаться, т.е. обеспечивает нормальный режим их колебаний (рисунок 6). При этом происходит модуляция по тока воздуха, который порциями (как в духовых инструментах) вталкивается в резонансные полости. Последовательность воздушных толчков, возникающих в результате колебаний голосовых связок, называется глоттальной волной, обычно она представляется в виде зависимости объемной скорости воздуха от времени. Как видно из графиков, такой сигнал представляет собой последовательность импульсов, форма которых зависит от соотношения времени открытия складок (скорость потока постепенно нарастает) и времени их закрытия (скорость быстро уменьшается).
Период такой волны определяется длительностью общего цикла колебаний связок, т.е. основной частотой колебания. Амплитуда определяется максимальной скоростью потока воздуха, которая, в свою очередь, зависит от величины подскладочного избыточного давления.

Рис. 6 Процесс колебаний голосовых складок.
Частота колебаний складок определяет высоту голоса (у мужских голосов при речи она равна в среднем 110 Гц, у женских - 220 Гц), амплитуда определяет его громкость.
Если записать микрофоном такой звук у самых голосовых складок, то он напоминает гудение или жужжание. Это как бы исходный материал - чтобы получить из него звуки речи, его еще надо обработать в артикуляционном тракте. Поскольку колебания голосовых складок создают периодический сигнал (реальный сигнал не является строго периодическим), то спектр его при нормальной фонации является гармоническим с крутизной убывания 12 дБ/окт. Для увеличения громкости речи необходимо увеличить подскладочное давление (затратить больше энергии), при этом фронты голосовых импульсов становятся более крутыми (складки быстрее открываются). Время, когда щель закрыта, увеличивается от 40...50 градусов. При нормальной фонации, до 65...70 градусов - спектр соответственно изменяется, в нем появляется большие гармоники, что соответственно меняет тембр голоса (делает его ярче).
Способы смыкания складок при фонации могут быть разными. Например, если складки смыкаются не полностью, и между ними имеется щель, то форма импульсов становится почти симметричной, скорость не падает до нуля, в голосе слышен шум (придыхательный голос, шепот). Наоборот, если складки слишком сильно смыкаются (голос становиться зажатым), это также меняет форму импульсов и, соответственно, спектр, и тембр голоса.
Все перечисленные характеристики - основная частота колебаний голосовых связок, форма голосовых импульсов, их амплитуда, спектральный состав и форма огибающей спектра — играют существенную роль при слуховом восприятии речи. Особую роль играет частота основного тона: в речевом потоке она определяет высоту голоса, и ее изменение используется также для изменения интонации, логических ударений, а иногда и смысла слов (например, в тональных языках, таких, как китайский). В вокальной речи (пении) частота основного тона может изменяться в широких пределах, обычно одна-две октавы (хотя были уникальные певцы с возможностью изменения высоты основного тона до четырех октав - Има Сумак, Мадо Робен и др.).
Частота основного тона, т.е. число колебаний голосовых связок в секунду, зависит от их длины, массы и натяжения. Приближенно эту связь можно представить, как для струны (хотя они больше похожи на резиновые шнуры) в виде:
где Т - натяжение (упругость), L - длина, М - поверхностная масса. Таким образом, чем длиннее и тяже лее складки (эти свойства врожденные), тем более низкий тон имеет голос, чем короче и тоньше, - тем голос выше. Масса зависит от длины, толщины и плотности складок. В процессе речи и пения толщина и плотность складок может значительно меняться за счет натяжения.
Натяжение обеспечивает повышение высоты голоса, и может осуществляться за счет напряжения внутренних вокальных мускулов (в основном при речи) и поворота щитовидного и перстневидного хрящей относительно друг друга (в основном при пении). Поскольку при увеличении громкости голоса растет подскладочное давление, а оно также оказывает некоторое влияние на натяжение складок (мускулы рефлекторно напрягаются), то обычно, при повышении громкости речи растет и высота тона (например, при крике) Только специально обученные певцы могут удерживать высоту тона при увеличении громкости в определенных пределах.
Таким образом, при образовании звуков речи с помощью процесса фонации (т.е. колебания голосовых связок) формируется звуковой сигнал, который затем трансформируется в вокальном тракте, где он превращается из "сырого" материала в последовательность речевых акустических сигналов (другие способы создания источников звука будут рассмотрены позднее).
Таким образом, вокальный тракт выполняет функцию резонатора, т.е. усиливает и фильтрует входной сигнал (аналогично трубам духовых инструментов). Форма труб вокального тракта показана на рисунке 8. Как видно из рисунка, тракт состоит из трех основных резонансных полостей: глотка, ротовая полость, носовая полость. Схематически его вид показан на рисунке 8.
Рис. 8 Схематическая модель вокального тракта.
Отличия такой системы резонаторов от любых труб в музыкальных инструментах заключаются в следующем:
- сложная геометрическая форма: вокальный тракт можно рассматривать как трубу переменного сечения с подключением параллельной трубы (носовой полости, которая может подключаться при опускании заднего мягкого язычка);
- возможность быстрой перестройки формы труб, площади их поперечного сечения, плотности и жесткости стенок, за счет изменения положения языка, мягкого язычка, губ, зубов, расширения глотки, опускания гортани и др. Возможности перестройки параметров вокального тракта огромны, присущи только человеку, что и позволяет ему произносить все многообразие звуков речи.
Этот процесс перестройки называется артикуляцией. Каждому звуку речи соответствует либо определенное статическое положение, либо определенная динамика изменения положения языка, челюстей, губ, нёбной занавески, т.e. определенная артикуляция.
Общая длина речевого тракта у взрослого человека (от голосовых складок до губ) около 17 см, длина носовой полости (от нёбной занавески до ноздрей) 12,5 см, площадь переменного сечения тракта в среднем составляет примерно 5...6 см.
Простейшей моделью вокального тракта можно. Считать цилиндрическую трубу длиной 17 см, закрытую на одном конце (аналогично трубе кларнета). Собственные моды (формы) колебаний такой трубы показаны на рисунке 9, частоты определяются из соотношений: и т.д., таким образом, частоты равны fn = (2n-l)c/4L, где n-целое число; L-длина трубы; с-скорость звука.

Рис. 9 Формы колебаний для цилиндрической трубы и голосового тракта.
В спектре такой трубы присутствуют только нечетные гармоники 1:3:5... Для длины L= 17 см, собственные частоты оказываются равными 500, 1500. 2500 Гц. Если у трубы менять в разных точках площадь поперечного сечения, то положение ее собственных частот будет смещаться. Совершенно аналогичные процессы происходят в вокальном тракте: в нем также имеется свой набор собственных частот с соответствующими модами колебаний, т. е. определенным распределением узлов и пучностей вдоль его длины. Меняя площадь поперечного сечения в вокальном тракте, можно также все время менять положение собственных частот.
Если на вход такой трубы (системы труб) подать сигнал, сформированный при колебаниях голосовых связок, то на выходе можно записать сигнал, который будет иметь форму, показанную на рисунке 10, т.е. гармоники, совпадающие с собственными частотами тракта, будут усилены за счет резонансов.

Рис.10 Положение тракта для разных звуков речи и вид звукового сигнала с формантами.
Области спектральных максимумов, соответствующие резонансным частотам вокального трак та, называются формантами (иногда их просто называют резонансами вокального тракта). Каждому звуку речи (простейший звук речи называется фонемой) соответствует своя форма вокального тракта, которая варьируется за счет изменения положения языка, губ, зубов и т.д., и свое положение формант (F-картина). Примеры показаны на рисунке 10.
Существуют некоторые общие закономерности в управлении расположением собственных частот резонаторов: если поперечное сечение трубы уменьшается в области, где форма колебаний (мода), соответствующая данной резонансной часто те (форманте), имеет максимум давления, то частота увеличивается; если в точке, где минимум давления, то частота уменьшается. Изучение движения артикуляционных органов во время речи с помощью рентгенографических съемок показали, что аналогичные закономерности имеют место и в вокальном тракте: при подъеме языка вперед и вверх сужается передняя часть ротовой полости, при этом понижается первая форманта F1 и повышается вторая F2.
При сдвиге языка назад сужается поперечное сечение тракта в области глотки, при этом повышается F1, понижается F2 и т.д. При сдвиге формант по определенным закономерностям происходят изменения в соотношении их амплитуд, что приводит к изменению формы огибающей. Все эти признаки (расположение формант и соотношение их амплитуд) и являются отличительными акустическими признаками гласных звуков речи.
Правда, при беглой речи происходит настолько быстрая перестройка позиции артикуляционных органов (языка, губ и др.), что часто имеет место наложение позиции, соответствующей одному звуку, на позицию другого (обычно гласного на соседний согласный), такое явление называется коартикуляцией, и оно очень осложняет восприятие и распознавание речи.
Таким образом, вокальный тракт действует на звуковой сигнал источника как параметрический эквалайзер, при этом существенное значение имеют частоты резонансов, соотношения их амплитуд и ширина резонансных пиков (добротность). Примерные области расположения первых трех формант для гласных русского языка даны в таблице 1.
Таблица 1.
Частотный диапазон формант (Гц) |
Ширина формант (Гц) |
Тип голоса |
Мужской |
Женский |
F1 |
200-800 |
250-1000 |
40-70 |
F2 |
600-2800 |
700-3300 |
50-90 |
F3 |
1300-3400 |
1500-4000 |
60-80 |
Распознавание каждой фонемы происходит в основном по положению первых двух формант F1 и F2, более высокие форманты определяют тембральные различия (для пения чрезвычайно существенное значение имеет третья формантная область "певческая форманта"). Расположение формант для гласных английского языка показано на рисунке 11.
Если подходить к процессу образования звуков речи с помощью фонации в терминах передаточных функций, то этот процесс может быть описан следующим образом: , где - передаточная функция входного сигнала, - передаточная функция тракта, — активная составляющая сопротивления излучения, (рисунок 12). Именно эта последовательность операций и реализуется в различных синтезаторах звука. Под передаточной функцией тракта понимается отношение комплексных амплитуд объемной скорости на губах к объемной скорости у голосовой щели : . Для цилиндрической трубы с одним закрытым концом она вычисляется по формуле . На резонансных частотах, определяемых по формуле , знаменатель обращается в нуль, и функция имеет максимумы (из-за наличия затухания она имеет конечные значения).

Рис. 11 Форманты для гласных.
В реальном голосовом тракте передаточная функция имеет более сложный характер (она может быть вычислена и измерена современными цифровыми методами), но на резонансных частотах тракта, т.е. на формантах, она также имеет максимумы, которые называются полюсами. Таким образом, форманты еще можно определить как полюса переда точной функции.

Рис. 12 Передаточная функция голосового тракта.
|