/
Author: Фланаган Дж.Л.
Tags: физиологическая и медицинская акустика монография средства связи передача информации техника связи
Year: 1968
Text
Komniunikation und Kybernetik in Einzeldarstellungen Herausgegeben von H. Wolter und W. D. Keidel Band 3 SPEECH ANALYSIS SYNTHESIS AND PERCEPTION by James L. Flanagan Head, Speech and Auditory Research Department Bell Telephone Laboratories, Inc. Murray Hill, New Jersey SPRINGER-VERLAG-BERLIN-HEIDELBERG-NEW YORK 1965
ДЖЕЙМС Л. ФЛАНАГАН АНАЛИЗ, СИНТЕЗ И ВОСПРИЯТИЕ РЕЧИ Перевод с английского под редакцией А. А. ПИРОГОВА ИЗДАТЕЛЬСТВО «СВЯЗЬ» МОСКВА • 1968
УДК 534.781/79-20-82 УДК 534.781/79-20-82 В монографии Дж. Фланагана, известного американского ученого, подробно рассматриваются широкий круг вопросов, связанных со свойствами речи как переносчика информации, основные ее параметры, проблемы анализа, синтеза и авто- матического распознавания. Оцениваются характеристики ка- налов речевой связи. Большое внимание уделяется рассмотре- нию проблем синтетической телефонии; описываются различ- ные вокодеры, полувокодеры и другие способы и методы со- кращения полосы частот, занимаемой речью. Книга найдет многих читателей не только средн специа- листов в области техники связи, но также среди математи- ков-кибернетиков, физиологов, лингвистов, филологов, аку- стиков и других специалистов, имеющих дело с техникой пе- редачи, приема, хранения, исследования речевых сигналов и использования их для управления машинами. Табл. 15, илл. 200, библ. 360. 3-6-2 38—68
ПРЕДИСЛОВИЕ К РУССКОМУ ИЗДАНИЮ Всегда приятно убедиться, что твоя ра- бота вызывает интерес, но особенно прият- но, когда этот интерес проявляется со сто- роны передовых научных кадров. Поэтому я рад представившейся возможности при- ветствовать своих коллег в СССР. За последние годы исследования в об- ласти связи пользуются огромным внима- нием как в моей стране, так и в СССР. Ре- зультаты труда советских ученых и инже- неров вызывают живой международный интерес. Я надеюсь, что перевод моей книги будет способствовать проводящимся в СССР выдающимся фундаментальным ис- следованиям. Я надеюсь также, что перевод моей кни- ги поможет дальнейшему обмену основны- ми идеями между учеными с родственными научными интересами. Взаимное понима- ние — это окончательный смысл и назначе- ние связи. ДЖЕЙМС ФЛАНАГАН УОРРЕН ТАУНШИП, НЬЮ-ДЖЕРСИ, США 2 октября 1967 г.
ОТ АВТОРА Истории кииги началась с письма, которое в иоибре 1959 г. прислал по- койный проф. д-р Вериер Мейер-Эпплер. Он предлагал мне привить участие в написании планируемой им серии книг по свизи. Его книга «Основы и при- ложении теории информации» должна была стать первым томом этой серии. После долгих раздумий и согласилси взитьси за эту работу, ио при усло- вии, что ее удастси совместить с моими служебными обизаииостими в теле- фонных лабораториих Белла. Но вскоре из-за возложенных иа меии допол- нительных ответственных поручений по основной работе и почувствовал, что заииматьси подготовкой рукописи будет довольно трудно. Поэтому написа- ние ее пришлось отложить примерно иа полтора года; был подготовлен лишь подробный проспект. Тем временем проф. Мейер-Эпплер тижело заболел, и ответственность за издание этой серии взили иа себи проф. X. Волтер и В. Д. Кейдель. Осиовиаи часть публикуемого материала иаписаиа в 1962—1963 гг. В 1963 г. черновик трех частей законченной рукописи был размножен и распространен среди сотрудников. Были получены ценные критические за- мечании, сделаны исправлении, и в марте 1964 г. рукопись была передана издателю. Если читатель найдет в книге достоинства, то это лишь благодари людим, с которыми мне посчастливилось сотрудничать. Вначале, когда и работал в акустической лаборатории Массачузетского технологического института, большую роль сыграли деловые контакты с проф. К. Н. Стивенсом, док- торами А. С. Хаусом и Дж. М. Хейицом. В эти годы в лабораторию дли проведении научных работ дважды приезжал доктор Г. Фант. Позднее, ле- том, мне посчастливилось поработать и лаборатории доктора Фанта в Сток- гольме. Соображения и мнении, иысказаиные им, были весьма полезны дли меии. В последние годы постоииную поддержку оказывали мне коллеги по Бел- ловским лабораториям. Прежде всего, доктор Дж. Р. Пирс, под руководст- вом которого исследовании речи и слуха проводились с новой энергией, за- тем доктора Е. Е. Дэвид-младший, М. Р. Шредер, М. В. Мэтьюс, Дж. Л. Келли-младший, Н. Гуттмаи, П. Б. Диис, Г. Г. Харрис и многие, многие другие помогали мудрыми советами, ценным сотрудничеством, созда- вай стимулирующую атмосферу исследований. Нечасто встречаетси подобное сочетание талантливых специалистов.
7 Большое число ценных предложений дали проф. Г. Е. Петерсон, доктор Г. К. Дайн и рид его сотрудников из Мичиганского университета. Проф. Оса- му Фудзимура из Токийского университета электросиизи сделал много глу- боких замечаний, касающихси особенно акустики голосового тракта. Доктор В. А. ван Бергейк из Белловских лабораторий тщательно проверил IV гла- ву, а А. М. Нолл, Д. Л. Сулливаи и X. Р. Силбигер изучили всю рукопись и сделали рид полезных замечаний. Я очень сожалею, что эту работу приходитси заканчивать без обсужде- нии с проф. Мейер-Эпплером, и искрение надеюсь, что книга соответствует его первоначальному замыслу. Выражаю признательность проф. Уолтеру и проф. Кейделу за постоиниую поддержку при подготовке работы. Многие интересные подробности могли быть упущены без помощи доктора X. Мей- ер-Кауппа из издательства Шпрингер. Наконец, выражаю глубокую признательность моей жене и семье за их вклад в мой бюджет времени. Уоррен Тауншип, Нью-Джерси 29 июля 1964 г. ДЖЕЙМС ФЛАНАГАН
ОТ РЕДАКТОРА РУССКОГО ПЕРЕВОДА Основная цель издания монографии, предлагаемой вниманию читателя, состоит в том, чтобы изложить важнейшие свойства речи и слуха, имеющие отношение к высокоэффективным системам телефонной свизи, например, та- ким, как системы синтетической телефонии, и наметить пути использования этих свойств в практических системах передачи. Автор монографии — доктор Джеймс Л. Фланаган — известный ученый, руководитель исследовательского отдела по вопросам речи и телефонии ла- бораторий Белла (США). В книге систематически, во взаимной связи и с подчинением задачам последней главы, посвященной системам синтетической телефонии, рассматриваются свойства речевого тракта человека, акустиче- ские и электрические аналоги этого тракта;' описываются устройство уха и свойства слуха, имеющие специальное значение для систем синтетической те- лефонии (как-то: восприятие тональности речи, пороговая чувствительность и т. д.); рассматривается техника спектрального анализа речи, в связи с чем‘приводится интересные и полезные данные (например, о весовой функ- ции слухового спектрального анализатора); излагаются необходимые специ- альные вопросы синтеза четырехполюсников, моделирующих речевые трак- ты; приведены характеристики импульсов голосового возбуждения; даны сведения о способности слухового аппарата регистрировать изменения харак- теристик звуков и различать звуки по дифференциальным и абсолютным признакам; имеются здесь также некоторые интересные исторические сведе- ния и др. И хотя в отечественной литературе уже есть фундаментальная работа на данную тему1), труд доктора Фланагана окажется очень полезным многим специалистам, .в частности, инженерам связи, акустикам, лингвистам, физи- ологам, специалистам по кибернетике, по общей теории свизи. ’) Сапожков М. А. Речевой сигнал в кибернетике и связи. Связь- издат, 1963.
9 Книга иаписаиа хорошим языком, методически ясио и в то же время на очень высоком научном уровне. Однако она не лишена отдельных недо- статков, которые объясняются отчасти незавершенностью огромного комп- лекса исследований, направленных иа раскрытие загадки речевых сигналов, все еше ие поддающихся машинному распознаванию, отчасти исключитель- ной широтой темы. Некоторым важнейшим вопросам автор уделил очень ма- ло внимания (например, проблеме выделении основного тоиа речи — нет да- же указания иа корреляционные методы); вовсе опущен существенный во- прос о восприятии искажений фазовых спектров речевых сигналов; очень скромно представлены работы по автоматическому распознаванию звуков речи, имеющие прямое отношение к проблеме фонемного вокодера; оценка качества телефонных трактов определяется в основном субъективно-стати- стическими методами, хотя разработаны эффективные объективные методы (М. А. Сапожков, Т. Е. Зайцев, А. Д. Ткаченко и др.). Но, очевидно, отме- ченные недостатки — следствие ограниченного объема книги, но ие ее дефекты. Нельзя согласиться также с некоторыми методами классификации; так, например, корреляционный вокодер, использующий ортогональный гармони- ческий синтезатор, автор выделяет из класса ортогональных вокодеров в специальный класс корреляционных вокодеров, в то же время большой но- вый класс ортогональных вокодеров, хорошо представленных в этой моно- графии, относит к «другим методам» компрессии спектра. Но бесспорно и то, что развитие новой техники идет очень быстро и установление класси- фикации и терминологии — дело будущего. Отдельные случаи, где точке зрения автора противопоставлена иная, от- мечены в примечаниях редактора. Переводчики и редактор старались сохранить форму и стиль изложения материала, принятые автором и во многих случаях привлекательные; так, например, в тексте книги везде указываются фамилии авторов цитируемых работ, а ие порядковые номера списка литературы. Так как в наших изда- ниях фамилии авторов и названия трудов принято давать в подлинной иност- ранной транскрипции, то для облегчения пользования списком литературы фамилии авторов приводятся также и в оригинальной транскрипции (если они ие повторяются в одном параграфе). Перевод книги издаетси полностью, с несущественными сокращениями. Как обычно, при переводах книг по новой технике, возникали некоторые тер- минологические трудности. В одних случаях это связано с терминами, ие имеющими, по-видимому, четкого русского эквивалента (например, mo- des— моды в распределении резонансов акустической системы); в других случаях термины, хотя и ие общепринятые, ио казались редактору наиболее подходящими (например, Volum velocity, переводится иногда как «объ- емная скорость», в нашем переводе определяется термином «поток» — более коротким и лучше соответствующим размерности определяемой
10 величины, измеряемой в сма/сек). Возможные критические замечания читате- лей в отношении терминов, принятых в переводе, будут встречены с благо- дарностью. Перевод книги выполнили: Баронин С. П. — гл. IV и §§ 8.1 и 8.2; Гри- горьев В. И. — гл. II и III; Куля В. И. — гл. VII (кроме §§ 7.8.2 и 7.8.3) и §§ 8.6 и 8.7; Муравьев В. Е. — гл. VI, §§ 7.8.2, 7.8.3 и §§ 8.3—8.5; Пирогов А. А. — § 8.7; Трофимов Ю. К. — гл. I и V. Редактор перевода добавил небольшой список отечественных публикаций, относящихся в основиом к редакционным примечаниям; более обширная оте- чественная библиография по вопросам анализа, синтеза и восприятия речи имеется в монографии М. А. Сапожкова. Редактор признателен К. Ц. Мэджику за большую помощь в оформле- нии рукописи перевода. Замечания по книге просьба посылать в издательство «Связь» по адресу: Москва-центр, Чистопрудный бульвар, 2. Доктор технических наук профессор А. А. ПИРОГОВ
I. РЕЧЕВАЯ СВЯЗЬ «Вся деятельность природы, со- гласно нашему утверждению, не бес- плодна; между тем один только че- ловек из всех живых существ ода- рен речью. Голос, которым можно выразить печаль и радость, свойст- вен и остальным животным, потому что их природные свойства развиты все-таки до такой степени, чтобы ощущать друг друга. Но речь спо- собна выражать и то, что полезно и что вредно, равно как и то, что спра- ведливо и что несправедливо. Это свойство людей, отличающее их от остальных живых существ, ведет к тому, что только человек способен к чувственному восприятию таких понятий, как добро и зло, справед- ливость и несправедливость и тому подобное. А совокупность всего этого и создает основу семьи и государ- ства». АРИСТОТЕЛЬ, «ПОЛИТИКА» Речь представляет собой важнейшее средство связи между людьми. По своей способности передавать информацию голосом человек является единственным в своем роде. Среди бесчисленного множества живых существ, населяющих наш мир, только человек оказался способным развить существо- вавший в рудиментарном состоянии голосовой аппарат для кодирования и передачи информации. Заслуга человека становится тем значительнее, что он приспособил для этой цели органы, предназначенные выполнять другие, жиз- ненно более важные, функции. Приспособившись жить в атмосфере, человек вполне естественно должен был научиться передавать сообщения, вызывая взаимодействие молекул воз- духа. Атмосфера является средой, необходимой для существования продоль- ных колебаний. С точки зрения акустики речевые сигналы состоят из быст- рых и очень неустойчивых колебаний воздушного давления. Эти звуковые колебания возбуждаются и излучаются голосовым аппаратом. Та же самая речевая информация, ио закодированная в другой форме, содержится в сиг- налах нервной системы, которые управляют голосовым трактом, приводя в движение соответствующие мышцы. Звуки речи, излучаемые в воздушную среду, обнаруживаются ухом и затем осмысливаются в мозгу. Механические колебания среднего и внутреннего уха и электрические импульсы, проходящие по слуховому нерву, можно рассматривать как последующие этапы кодиро- вания речевой информации. Акустические передача и прием речи используются вполне успешно, ио лишь на весьма ограниченных расстояниях. Причины этого состоят в следую- щем. На частотах, используемых голосовым трактом и ухом, излученная акустическая энергия быстро рассеивается в пространстве и затухает. Даже если бы от источника можно было получить большую акустическую мощ-
12 РЕЧЕВАЯ СВЯЗЬ ность, в среде могли бы существовать без искажения изменения давления лишь в ограниченных пределах. С другой стороны, чувствительность прием- ника, т. е. уха, ограничена акустическими шумами окружающей среды и фи- зиологическими шумами в теле человека. Таким образом, акустические волны не могут служить хорошим средством передачи на дальнее расстояние. В течение многих веков люди стремились осуществить связь на большие расстояния. Да и в наше время не прекращаются поиски в этом направле- нии. Известно, что древние греки для передачи сообщений между городами .использовали сложные системы сигнальных огией, которые они размещали на возвышенностях. Предприимчивый грек Эниас Тацитус прославился тем, что существенно усовершенствовал систему связи по сравнению со способом пе- редачи сообщений посредством костров. Он поместил в сигнальных пунктах наполненные водой глиняные сосуды. Из каждого сосуда высовывался разме- ченный по всей длине стержень, который с помощью пробкового поплавка поддерживался на плаву. С появлением первого светового сигнала воду начинали выпускать из сосуда. Со вторым сигналом ее останавливали. Види- мая на этом уровне зарубка на стержне представляла собой некоторое зара- нее обусловленное сообщение. (Говоря языком современной теории инфор- мации, подобная система должна была иметь досадно низкую пропускную способность канала и раздражающе высокую спетень неопределенности и уязвимости в смысле помех.) Истории известны и другие попытки преодолеть недостатки акустиче- ской передачи. Предполагают, что в шестом веке до н. э. правитель Персии Кир Великий основал линии сигнальных вышек, расположенных на верши- нах высоких холмов и радиально расходящихся от его столицы во всех на- правлениях. На этих удобных позициях он помещал людей с сильным голо- сом, которые криком передавали друг другу сообщения вдоль линии. Счита- ется. что аналогичные «говорящие башни» были использованы Юлием Цеза- рем в Галлии. (Каждый, кому доводилось принимать участие в игре, заклю- чающейся в пересказывании какой-нибудь истории по кругу одним участни- ком другому, может представить себе, как сильно искажалось сообщение при подобном способе его передачи на многие мили.) Несмотря на желание людей создать дальнюю связь и наличие причин, побуждающих их к этому, она не была осуществлена до тех пор, пока чело- век не научился генерировать, модулировать и передавать электрические ко- лебания, послужившие реальной основой для возникновения телефонии. В ис- торических масштабах времени это произошло совсем недавно. Прошло менее ста лет с тех пор, как был введен в действие первый практически работаю- щий телефон. На сегодняшний день, по приблизительным подсчетам, исполь- зуется более 150 млн. телефонных аппаратов. 1.1. Возникновение телефонии Над разработкой электрического телефона и созданием ос- нов, которые способствовали развитию коммерческой телефонии, трудились многие изобретатели и ученые. Их биографии инте- ресны и поучительны для современных инженеров связи, ком- фортабельно устроившихся в своих хорошо оборудованных ла- бораториях. Среди этих людей, как многие полагают, именно Александр Грэхем Белл не только создал и продемонстрировал первый практически действующий телефон, но также впервые нашел
ВОЗНИКНОВЕНИЕ ТЕЛЕФОНИИ 13 ему коммерческое применение. Некоторые утверждают, что не позже Белла аналогичные результаты были получены Элишем Грэем. Другие закрепляют первенство за Филиппом Рейсом, ко- торый, по их мнению, на несколько лет опередил и Белла, и Грэя. В разных странах можно найти множество фактов и в поддержку приоритета других изобретателей. Однако незави- симо от того, когда и благодаря кому электрическая телефония перестала быть мечтой и стала реальностью, усилия всех этих первооткрывателей достойны признания и восхищения. Среди пионеров телефонии особенно выделялся Белл своими познаниями в физиологии и фонетике. Его понимание механиз- мов образования речи и ее восприятия несомненно играло важ- ную, если не решающую, роль в электрических экспериментах. Подобные знания в разной степени важны и для современных исследователей в области телефонии. Не исключено, что именно эти познания позволили Беллу — по заявлению его ассистента Уотсона — резюмировать проблему телефонии словами: «Если бы я смог заставить поток электричества изменяться по интен- сивности точно в соответствии с изменением плотности воздуха во время произношения звуков речи, я бы смог передать речь так же, как передают телеграфные сигналы». Это как раз то, что он намеревался сделать, и то, что он осуществил. Основная идея Белла, а именно сохранение, формы акустической волны, оказалась, как можно видеть, эффективным средством для пе- редачи речи. И по сей день большая часть телефонных систем работает на этом принципе. Хотя принцип сохранения формы волны чрезвычайно хорош и сохраняется вот уже почти столетие, все же, по-видимому, он не является основой для самого эффективного способа передачи речи. Много лет назад инженеры связи установили, что между способностью человека производить и воспринимать информа- цию и пропускной способностью обычного телефонного канала существует значительное расхождение. Именно, по телефонному каналу можно передавать информацию со скоростью, значитель- но превышающей ту, с которой может воспринимать информа- цию человек. Успехи, достигнутые современной теорией связи, позволили установить способы количественного определения содержащей- ся в сигнале информации и скорость, с которой информация мо- жет передаваться при использовании заданного комплекса тех- нических устройств. В разработанном для этих целей аналити- ческом аппарате подчеркивается целесообразность согласования канала передачи с источником информации. Обычная телефо- ния стала часто приводиться в качестве примера несопостави- мости производительности источника с пропускной способно-
14 РЕЧЕВАЯ СВЯЗЬ стью канала. Несопоставимость, выраженная в численном ви- де, явилась мощным стимулом для поиска более эффективных средств кодирования речи и сокращения полосы частот и про- пускной способности канала, используемого для передачи речи. 1.2. Эффективная передача речи Элементарные соотношения теории информации определяют информацию, связанную с операцией выбора дискретного сооб- щения из некоторого определенного ансамбля. Если элементы Xi определенной последовательности независимы и имеют веро- ятность появления P(Xi), то информация, связанная с выбором такого элемента, есть 1=—logzPfXi), дв. ед. Средняя информа- ция, связанная с выбором из этой последовательности, есть среднее по ансамблю Н(Х)=-^ P(Xi)log2P(Xi), дв. ед., или i энтропия источника. Рассмотрим, используя эти определения, фонемную транск- рипцию речи, т. е. письменный эквивалент различимых звуков речи, например для английского языка. В табл. 1.1 приведены 42 английские фонемы, включающие гласные, дифтонги и соглас- ные, и относительная частота, с которой они встречаются в про- зе (Дьюи — Dewey). Если фонемы были бы выбраны при усло- вии равной вероятности их произнесения [т. е. Pfxj) = 1/42], средняя информация на одну фонему примерно составила бы Я(Х)=5,4 дв. ед. При независимом выборе фонем, но с учетом вероятностей, равных приведенным в табл. 1.1 относительным частотам, величина Н(Х) упала бы до 4,9 дв. ед. Последователь- ные взаимосвязи, налагаемые на выбор звуков речи свойствами данного языка, снижают эту среднюю информацию еще боль- ше1). В разговорной речи за секунду произносится около 10 фо- ’) Соответствующие данные имеются для букв печатного английского текста. Здесь также можно видеть условные взаимосвязи, налагаемые свойст- вами языка. Если все 26 английских букв рассматривать как равновероятные, средняя информация на букву составит 4,7 дв. ед. Если в качестве оценок для Р(х{) использовать относительные частоты появления букв, информация на букву составит 4,1 дв. ед. Если учитывать частоты появления двухбуквенных сочетаний, то при известной предшествующей букве информация на букву составит 3,6 дв. ед. Принимая во внимание частоты появления трехбуквен- ных сочетаний, эту цифру можно снизить до 3,3 дв. ед. Накладывая и дальше различного рода ограничения, можно получить оценку для полного статисти- ческого эффекта. Установлено, что средняя информация на букву для после- довательности из 100. букв, выбранной из литературного английского текста, составляет величину порядка 1 дв. ед. Это означает, что избыточность здесь составляет примерно 75%. Если рассматривать статистические зависимости, распространяющиеся на более длительные единицы, такие, как параграфы или главы, то избыточность может оказаться еще большей (Шеннон — Shannon).
ЭФФЕКТИВНАЯ ПЕРЕДАЧИ РЕЧИ 15 Таблица 1.1 ОТНОСИТЕЛЬНАЯ ЧАСТОТА ЗВУКОВ АНГЛИЙСКОЙ РЕЧИ В ОБРАЗЦОВОЙ ПРОЗЕ ПО ДЬЮИ Гласные и дифтонги Согласные фонема относительная частота встречаемости % -Р(х;) log, Р фонема относительная частота встречаемости % —₽(X{.) log, P (xp I 8,53 0,3029 П 7,24 0,2742 а 4,63 0,2052 t 7,13 0,2716 ге 3,95 0,1841 г 6,88 0,2657 8 3,44 0,1672 S 4,55 0,2028 р 2,81 0,1448 d 4,31 0,1955 А 2,33 0,1264 1 3,74 0,1773 i 2,12 0,1179 S 3,43 0,1669 е, е! 1,84 0,1061 Z 2,97 0,1507 U 1,60 0,0955 m 2,78 0,1437 а! 1,59 0,0950 к 2,71 0,1411 oU 1,30 0,0815 V 2,28 0,1244 О 1,26 0,0795 W 2,08 0,1162 и 0,69 0,0495 р 2,04 0,1146 aU 0,59 0,0437 f 1,84 0,1061 а 0,49 0,0376 h 1,81 0,1048 о 0,33 0,0272 b 1,81 0,1048 Я 0,31 0,0258 И 0,96 0,0644 э! 0,09 0,0091 J 0,82 0,0568 g 0,74 0,0524 j 0,60 0,0443 tj 0,52 0,0395 d; 0,44 0,0344 fi 0,37 0,0299 5 0,05 0,0055 Итого 38% 62% Я (X) = — S Р kxj) log, Р (хр » 4,9 дв. ед' Если все фонемы считать равновероятными, i то Н(Х)= log,42=5,4 да. ед.
16 РЕЧЕВАЯ СВЯЗЬ нем. Поэтому письменный эквивалент производимой информа- ции составит величину, меньшую 50 дв. ед.{сек. Обычная телефонная линия представляет собой не дискрет- ный, а непрерывный канал. Можно показать, что для непрерыв- ного канала существует определенная максимальная скорость безошибочной передачи информации (Shannon and Weaver). Если BW есть полоса пропускаемых каналом частот в герцах, a S и /V — мощности сигнала и шума соответственно, то сущест- вует способ кодирования, при котором по каналу можно пере- дать информацию со скоростью G = BITlogztl + (S/N)] дв.ед./сек при сколь угодно малой величине ошибки. Стандартный теле- фонный канал обычно имеет ширину полосы частот не менее 3000 гц и отношение сигнал/шум около 30 дб. В соответствии с приведенной формулой такой канал обладает пропускной спо- собностью, позволяющей передавать информацию со скоростью 30000 дв. ед./сек. Подобные величины двоичных скоростей характерны для обычной цифровой передачи речевого сигнала, т. е. без дополни- тельного кодирования для сокращения емкости канала. Напри- мер, при передаче методом импульсно-кодовой модуляции (ИКМ) дискретные значения сигнала следуют с частотой Найквиста (2 BW) а квантование по амплитуде, исходя из допустимой величины искажений, обычно выполняется с точностью до 1— 2%. Таким образом, при 64 уровнях квантования (6 дв. ед.) типичная величина двоичной скорости составит 2 (3000) 1о£г64 = = 36 000 дв. ед.Iсек. Эта величина пропускной способности примерно в 600— 700 раз больше той, которая требуется для письменного эквива- лента речи. Последний, по-видимому, можно передать по кана- лу с шириной полосы частот всего лишь около 5 гц при отноше- нии сигнал/шум, равном 30 дб. Означает ли это, что в акустиче- ском речевом сигнале содержится в 600 раз больше информа- ции, чем в его дискретно записанном эквиваленте? Или это го- ворит о том, что изменяющаяся во времени форма акустической волны представляет собой недостаточно эффективный код для речевой информации? Означает ли это, что человек способен перерабатывать информацию со скоростью 30000 дв.ед.1сек? Или это свидетельствует о том, что приемник отбрасывает большую часть переданной информации? Интуиция нам подсказывает, что в акустическом сигнале со- держится больше информации, чем в письменном эквиваленте. Неясно, однако, во сколько раз. Неясно даже, как эту информа- ’) Советским специалистам это соотношение известно как теорема К о - тельиикова (прим. ред.).
ЧЕЛОВЕК — КАНАЛ ПЕРЕДАЧИ ИНФОРМАЦИИ 17 цию измерять. Для непрерывного источника скорость выработки информации можно определить только после того, как будет установлен критерий верности воспроизведения сигнала посред- ством некоторого специального кода. Этот критерий, определя- ющий энтропию источника, может носить либо субъективный, либо объективный характер. При телефонной связи необходимая точность определяется способностью приемника правильно вос- принимать сигнал, которую частично можно установить по ре- зультатам психоакустических измерений. Скорость выработки информации источником зависит от формы кодирования инфор- мации и используемого критерия ее восприятия. Если, например, в качестве критерия выбраны и разборчивость и качество речи, то следует ожидать, что скорость выработки источником инфор- мации и пропускная способность канала будут большими, чем в том случае, когда в качестве критерия выбирается одна разбор- чивость. Хотя и невозможно ответить на вопрос: «Сколько информа- ции содержится в речевом сигнале?», — тем не менее, опираясь на результаты экспериментов по синтезу, можно показать, что речь, достаточно близкая по восприятию к той, которая коди- руется с использованием принципа сохранения формы волны, может быть передана по каналу с пропускной способностью, значительно меньшей 30 000 дв. ед.I сек. В настоящее время уста- новлено, что пропускная способность может быть равна 1000 или 2000 дв. ед./сек. Подробнее об этом будет сказано ниже. 1.3. Пропускная способность человека как канала передачи информации Выше было отмечено, что существует критерий верности, по которому устанавливается скорость выработки информации ис- точником. Такой критерий определяется способностью приемни- ка реагировать на изменения в принимаемом сигнале. На осно- вании психоакустических экспериментов со слуховыми порога- ми часто находят верхнюю границу этой способности. Однако, по-видимому, более важной, но и более трудно поддающейся измерению и применению при разработках систем передачи ре- чи, является способность человека воспринимать и обрабатывать информацию. По оценке информационной емкости мозга человека было проведено большое число экспериментов, которые неизбежно сводились к решению специфических идеализированных задач восприятия. Поэтому в результате получали такую меру инфор- мации, которая могла быть достаточно строго интерпретирова- на только в рамках данного частного эксперимента. В больший-
18 РЕЧЕВАЯ СВЯЗЬ стве случаев трудно экстраполировать или обобщить результа- ты применительно к более сложным и практическим задачам связи. Тем не менее такие результаты служат количественной мерой, по которой можно оценивать величину коммуникативных способностей человека в целом. Например, при одном опыте, определяющем скорость реак- ции, от испытуемых требовалось как можно быстрее устно по- вторить визуально представляемые возбудители (Ликлайдер, Стивенс и Хейс —Licklider, Stevens and Hayes). Возбудители представлялись в виде случайных последовательностей двоичных единиц, десятичных единиц, букв и слов. Достигнутая в этом случае максимальная скорость обработки информации состави- ла величину порядка 30 дв. ед./сек. Когда способ реакции был изменен на иной, при котором предлагаемые цели нужно было указывать рукой, эта скорость упала примерно до 15 дв.ед.1сек. В том же опыте была рассмотрена возможность увеличения скорости путем одновременного использования нескольких ви- дов реакции, в частности рукой и голосом. Для такой двухка- нальной процедуры было найдено, что общая скорость прибли- зительно равна сумме скоростей, соответствующих отдельно взя- тым видам реакции, т. е. около 45 дв. ед./сек. По мнению авторов эта цифра представляет собой наибольшую скорость безошибоч- ной передачи информации через коммуникативный канал чело- века. При другом эксперименте испытуемым предлагали читать вслух список простых односложных слов (Пирс и Карлин — Pierce and Karlin). Наивысшая достигнутая при этом скорость составила от 42 до 43 дв. ед./сек. Было установлено, что прозу можно читать быстрее, чем набор случайных слов. Из этого факта сделано заключение, что скорость чтения ограничивается не мышечными, а умственными способностями. Когда задача была изменена таким образом, что одновременно нужно было отыскивать объекты и называть их, скорость обработки инфор- мации снизилась. Еще один эксперимент позволил измерить количество инфор- мации, которую могут усвоить испытуемые из воспринимаемых на слух тонов, закодированных различным образом для получе- ния «ескольких видов возбудителей (Поллак и Фикс — Pollack and Ficks). Были применены возбудители в виде частоты тона, громкости, скорости прерывания, направления источника в про- странстве, общей продолжительности звучания и отношения вре- мени звучания к паузе. В результате проведенных опытов най- дено, что испытуемые способны усваивать 5,3 дв. ед. на один возбудитель. Поскольку продолжительность каждого возбуди-
ЧЕЛОВЕК — КАНАЛ ПЕРЕДАЧИ ИНФОРМАЦИИ 19 теля во время опытов менялась, доходя иногда до 17 сек, уста- новить скорость передачи информации из этих данных не пред- ставляется возможным. Позднее был проведен эксперимент, в котором делалась попытка определить скорость бинаурального слухового восприя- тия информации (Вебстер — Webster J. С.). От слушателей тре- бовалось различать в двоичной форме следующее: гласный звук или нет; пол диктора; ухо, которое слышит, и повышение или понижение интонации. В этих опытах скорость правильного приема для лучшего испытуемого не превышала 6 дв. ед!сек. При групповых испытаниях показатели были еще ниже. Все измерения выполнялись в соответствии с некоторыми част- ными задачами и критериями оценки. Следовательно, они имели определенный смысл только в тех пределах, на которые распро- странялись условия данного эксперимента. Поэтому нельзя точно сказать, характеризуют ли указанные выше цифры те скорости, с которыми человек может различать и воспринимать речь, или нет. Возможно, характеризуют. Ни один эксперимент не показал, что человек способен обрабатывать информацию со скоростями, большими, чем примерно 50 дв. ед.)сек. Полагая, что эта цифра на самом деле представляет собой некоторую грубую оценку верхнего предела способности чело- века воспринимать информацию, человек может распорядиться этой своей способностью по-разному. Если, например, диктор достаточно быстро произносит случайный набор равновероят- ных фонем, слушающий может предъявить ко всему комплексу своих способностей требование правильно принимать письмен- ный эквивалент различных звуков речи. При этом небольшую часть пропускной способности можно оставить для восприятия других характеристик речи, таких, как ударение, интонация, на- зализация звука, ритм и прочие свойства голоса. С другой сто- роны, если речь представляет собой праздную беседу с широ- кими статистическими связями и высокой избыточностью, слу- шающий может значительно большую часть своей пропускной способности выделить для анализа индивидуальных характерис- тик и особенностей артикуляции. В длительной беседе закономерности языка и достаточно эффективная память человека обычно дают возможность слуша- ющему переключаться от расшифровки фонемного состава к наблюдению за индивидуальными характеристиками и наоборот. Просодическая информация может быть связана с фонемными особенностями, которые непосредственно представляют письмен- ные эквиваленты произносимой речевой информации. Фонемные особенности обычно отождествляются с разборчивостью речи, а просодическая информация до некоторой степени связана с ка-
20 РЕЧЕВАЯ СВЯЗЬ чеством речи. Разборчивость принято количественно определять посредством артикуляционной оценки и скорости приема инфор- мации, соответствующей письменному эквиваленту речи. Ка- чество речи до сих пор не имеет почти никаких оснований для количественной оценки. До тех пор пока не будут даны соответ- ствующие определения как для разборчивости, так и для ка- чества речи, критерий верности для оценки речевой информации не может быть твердо установлен. 1.4. Синтетическая телефония: подход к повышению эффективности Совершенно ясно, что между пропускной способностью обыч- ного телефонного канала и скоростью выработки информации питающим его источником существует значительное расхожде- ние, каковы бы ни были сомнения относительно оценки пропуск- ной способности человека как канала передачи информации. Один из способов согласования состоит в использовании для системы передачи возможно большего числа закономерностей, характеризующих образование и восприятие речи. Информация об этих закономерностях, будучи заложена в линию связи, пред- ставляет собой ту информацию, которую не нужно передавать. Указанный способ согласования можно объяснить и так: канал, наделенный подобными закономерностями, ограничивает воз- можный ансамбль сообщений только звуками речи. Никакие другие звуки не могут быть переданы с приемлемой достовер- ностью. В системе, которая использует ряд закономерностей, соот- ветствующих образованию и восприятию речи, связь осуществ- ляется передачей определенных параметров этих закономернос- тей. Следовательно, природа используемых закономерностей оказывает влияние на форму кодирования речевой информации. Предположим, что в системе передачи учитывались ограничения, накладываемые на механические движения голосового тракта. Для реализации таких ограничений приемное устройство может быть выполнено в виде механического или электрического ана- лога речеобразующего механизма. Тогда речевую информацию можно закодировать и передать в виде сигналов, характеризую- щих размеры и деформации голосового тракта и характер голо- сового возбуждения. Системы речевой связи, в которых сделана сознательная по- пытка увеличения эффективности путем установления специаль- ного оборудования для использования закономерностей, свой- ственных речи и слуху, относят обычно к системам синтетичес- кой телефонии. Это название часто употребляется как синоним
ФИЗИОЛОГИЯ ОРГАНОВ РЕЧИ 21 систем компрессии речи или сокращения полосы частот. Основ- ная цель настоящей монографии состоит в том, чтобы изложить важнейшие свойства речи и слуха, имеющие отношение к таким системам связи, и наметить пути использования этих свойств в практических системах передачи. Для достижения этой цели сначала рассматриваются физио- логические и акустические свойства голосового аппарата чело- века. Затем исследуются основные принципы механизма слухо- вого восприятия. За этими основополагающими разделами рас- сматриваются вопросы анализа, синтеза и восприятия речи. В последних разделах внимание сконцентрировано на применении полученных ранее результатов для реализации систем синтети- ческой телефонии. II. ПРОЦЕСС РЕЧЕОБРАЗОВАНИЯ 2.1. Физиология органов речи Речь является конечным акустическим продуктом произволь- ных формализованных движений дыхательных и жевательных органов. Она относится к моторным видам поведения, приобре- таемым индивидом в процессе обучения. Речь развивается, кор- ректируется и поддерживается под воздействием акустической обратной связи органов слуха и кинестетической обратной связи мускулатуры органов речи. Слуховая и кинестетическая информации систематизируются и координируются центральной нервной системой и используются для управления речевой дея- тельностью. Повреждение любого из этих управляющих меха- низмов обычно понижает эффективность работы голосового ап- парата !). Органы речи участвуют также в жизненно важных процес- сах дыхания и потребления пищи. Существует мнение, что речь возникла, когда первобытный человек обнаружил возможность дополнить сигнализацию с помощью рук сопутствующими «жес- тами» органов голосового тракта. Ричард Пэджет очень ясно формулирует это мнение: «К. изобретению речи, как я полагаю, человека толкала не столько потребность выражать свои мыс- ли (так как эта потребность вполне могла быть удовлетворена с ’) В большинстве своем люди легко сознают трудности, с которыми стал- киваются лица с частичной или полной потерей слуха при адекватном рече- образовании. Возможно даже более близкими нашему сознанию являются временные затруднения в артикуляции, испытываемые после того, как зубной врач обезболит большую часть ротовой полости с помощью укола анесте- зирующего средства.
22 ПРОЦЕСС РЕЧЕОБРАЗОВАНИЯ помощью телесных жестов), сколько затруднения «говорения с занятыми руками». Постоянное использование рук при труде, во время охоты и при начальных формах ремесла и земледелия — Рис. 2.1. Схематическое ивобра- жение речевого аппарата чело- века: 1 — носовая полость, 2 — твердое не- бо, 3—язык, 4—щитовидный хрящ, 5 — голосовые связки, 6 — трахея, 7 — легкое, 8 — груднна, 9 — пищевод, 10—кольцеобразный хрящ, 11— над- гортанье, 12 — подъязычная кость. 13 — мягкое небо (небная занавеска) вот что заставило человека найти другие способы выра- жения мыслей, а именно, по- средством специализирован- ной пантомимы языка и губ». Органы, участвующие в речеобразовании, схематиче- ски изображены на рис. 2.1, на котором дан средний про- фильный разрез голосового тракта взрослого человека. Первичная функция вдыхания осуществляется расширением грудной клетки, уменьшением давления в легких и втягива- нием воздуха через ноздри, носовую полость, носоглотку и трахею. В нормальных усло- виях воздух выдыхается по тому же пути. Во время еды в ротовой полости происходит пережевывание пищи. При глотании пищи тканевые об- разования при входе в тра- хею поднимаются к надгор- таннику. Последний закрыва- ет входное отверстие у голо- совых связок, чем предотвра- щает попадание пищи в тра- хею. В это же время откры- вается пищевод, который обыч- но расслаблен и упирается в заднюю стенку глотки, и пи- ща попадает в желудок. Собственно голосовой тракт представляет собой тру- бу с неодинаковой по про- дольной оси площадью попе- речного сечения. Он на одном конце заканчивается губами, а на другом конце — щелью у входа в трахею, образуемой голо- совыми связками. У взрослого мужчины длина голосового трак- та примерно равна 17 см. При движении артикуляторных ор-
ФИЗИОЛОГИЯ ОРГАНОВ РЕЧИ 25 ганов, а именно губ, челюсти, языка и небной занавески, попе- речное сечение голосового тракта изменяется. Например, в пе- редней части тракта оно может изменяться от нуля (т. е. пол- ного закрытия) до более чем 20 см2. Носовой тракт образует вспомогательный путь распростране- ния звуковых колебаний. Он начинается у небной занавески и заканчивается ноздрями. Носовая полость взрослого мужчины имеет длину до 12 см и объем до 60 см3. На некотором протя- жении она разделена носовой перегородкой на две полости. Ве- личина акустической связи между носовой и ротовой полостями определяется размерами прохода у небной занавески. На рис. 2.1 небная занавеска опущена. В зависимости от вели- чины этой связи звук может излучаться как через рот, так и через ноздри. Связь с носовой полостью существенным образом влияет на характер звука, излучаемого через рот. При образо- вании неносовых звуков небная занавеска поднята и плотно за- крывает вход в носовую полость. У взрослого мужчины попереч- ное сечение прохода у небной занавески может изменяться от нуля до примерно 5 см2. Источником энергии при речеобразовании служат мускулату- ра грудной клетки и брюшная мускулатура. Воздух втягивает- ся в легкие при расширении грудной клетки и опускании диаф- рагмы. Он выталкивается из легких при сжимании грудной клетки и увеличении легочного давления. Для образования глас- ных звуков речи с минимальным возможным уровнем требуется легочное давление порядка 4 см водяного столба. Для очень громких высокотональных звуков обычно развивается давление порядка 20 см вод. ст. В процессе разговора легочное давление поддерживается на требуемом уровне благодаря непрерывному и медленному сжиманию грудной клетки. Выталкиваемый из легких воздух проходит по трахее в по- лость глотки. Сверху трахея заканчивается образованием, изо- браженным на рис. 2.2 и называемым гортанью. На хрящевой основе гортани укреплены две пленки из связочной и мышечной ткани, называемые голосовыми связками и обозначаемые бук- вами ГС. Щелевой проход между связками называется голосо- вой щелью. Пальцеобразные отростки выше голосовых связок называются пальцеобразными хрящами и обозначаются ПХ. Эти хрящи поддерживают мышечные складки и облегчают ре- гулировку их натяжения. Основными внешними хрящами гор- танной «коробки» являются передний щитовидный (на рис. 2.2 обозначен буквами ЩХ) и задний кольцеобразный. Оба хряща видны на рис. 2.1. Вокализованные звуки речи образуются вследствие колеба- тельного движения голосовых связок. Качественная картина ра-
24 ПРОЦЕСС РЕЧЕОБРАЗОВАНИЯ боты голосовых связок такова: представим себе, что вначале массивные и натянутые голосовые связки сомкнуты. Подсвязоч- ное давление возрастает до величины, достаточной, чтобы раз- Рис. 2.2. Разрез гортани (Фарнс- ворт) : ГС — голосовые связки, ПХ — пальцеобразные хрящи, ЩХ — щитообразный хрящ двинуть связки с ускорением в поперечном направлении. По ме- ре нарастания воздушного пото- ка местное давление в проходе между связками падает в соот- ветствии с эффектом Бернулли и возникает усилие, которое возвращает связки в сомкнутое положение. При сближении свя- зок воздушный поток уменьша- ется, и местное давление урав- нивается с подсвязочным дав- лением. После этого цикл коле- баний повторяется1). Период ко- лебаний в основном определяет- ся массой и упругостью свя- зок и величиной подсвязочного давления. Этот период обычно короче собственного периода ко- лебаний связок, иначе говоря, колебания связок являются вы- нужденными. Через проход с переменной площадью поперечного сечения, образуемый колеблющимися связками, поступают квазипериоди- ческие толчки или импульсы воздуха, которые возбуждают аку- стическую систему над голосовыми связками. Принцип дейст- вия голосовых связок в некотором смысле аналогичен получе- нию тона на духовом инструменте, в котором вибрирующие язычки пропускают квазипериодические импульсы воздуха, воз- буждающие резонансы рупорной части. В настоящее время ра- бота голосовых связок изучена достаточно подробно. Прямые наблюдения за их работой можно осуществить, поместив зерка- ло с наклоном в 45° в задней части рта, вблизи носоглотки. При стробоскопическом освещении определенной частоты картина колебания связок замедляется или даже «застывает», что со- здает условия для детального исследования. Еще более показательной и информативной является методи- ка скоростной киносъемки, впервые примененная Фарнсвортом ') Цикл колебаний может начаться и с разомкнутыми связками. В этом случае давление Бернулли сначала приводит к смыканию связок. Так назы- ваемый «придыхательный приступ» производится именно таким образом.
ФИЗИОЛОГИЯ ОРГАНОВ РЕЧИ 25 (Farnsworth). Киносъемка в данном случае производится со ско- ростью 4000 кадров в секунду и выше. Этот метод иллюстри- руется на рис. 2.3. Связки освещаются мощным источником света через систему линз и зеркал, как показано на рисунке. Съемка произво- дится через отверстие в большом переднем зеркале, чтобы не создавались поме- хи освещению. Результаты съемки иллюстрируются на рис. 2.4, на котором приве- дено шесть кадров, снятых за один период колебания голосовых связок взросло- го мужчины. В иллюстри- руемом случае основная ча- стота колебаний или часто- Рис. 2.3. Метод скоростной кино- съемки голосовых связок (Фарнс- ворт) : / — накальная лампа 4000 вт, 2 — цилиндр с водой, 3—линза, 4 — кинокамера для скоростной съемки, 5—зеркало, 6 — го- лосовые связки, 7 — зеркало щелевого прохода. При средней та основного тона равна 125 гц. Сила воздушного пото- ка через голосовую щель как функция времени зави- сит (хотя и не строго про- порционально) от площади громкости и средней частоте основного тона импульсы, созда- ваемые голосовой щелью, в общем имеют треугольную форму, а отношение длительности импульса к общему периоду колеба- Рис. 2.4. Последовательные фазы одного периода коле- баний голосовых связок. Общее время между первым и последним снимками — примерно 8 мсек
26 ПРОЦЕСС РЕЧЕОБРАЗОВАНИЯ ний составляет величину порядка от 0,3 до 0,7. Поэтому ча- стотный спектр импульсов голосовых связок сравнительно бо- гат обертонами или гармониками. Благодаря примерно тре- угольной форме импульсов, верхние частотные составляющие уменьшаются по амплитуде со скоростью около 6 дб на октаву. Форма импульсов, образуемых голосовой щелью, в процессе разговоров сильно изменяется. В частности, она зависит от ос- новного тона и интенсивности звука. Звуки малой интенсивности и с низкой частотой основного тона имеют низкое подсвязочное давление, большую скважность и небольшую амплитуду им- пульсов. Звуки большой интенсивности и с высокой частотой основного тона характеризуются высоким подсвязочным давле- нием, небольшой скважностью импульсов и большой амплиту- дой. Амплитуда поперечного смещения голосовых связок и, сле- довательно, максимальная площадь голосовой щели удивитель- но мало связана с интенсивностью звука (Флетчер—Fletcher). Среднее пиковое значение площади голосовой щели взрослого мужчины составляет величину порядка 15 мм2. Ввиду относительно малого отверстия акустический импе- данс голосового источника в общем велик по сравнению с аку- стическим импедансом со стороны голосового тракта. Вследст- вие этого изменения в конфигурации тракта относительно мало влияют на силу воздушного потока через голосовую щель. Ис- пользуя электрические термины, можно сказать, что голосовая щель в определенной мере аналогична генератору тока, подклю- ченному к цепи, характеристики которой изменяются во вре- мени. Другим источником акустического возбуждения служит тур- булентный поток воздуха в какой-либо точке сужения, образуе- мого в голосовом тракте. При этом возникает акустический шум, вызывающий некогерентное возбуждение голосового трак- та. Такой источник участвует, например, в образовании шум- ных щелевых согласных. Косвенные измерения и положения теории дают основание полагать, что спектр шума в точке или в области его генерации относительно широк и равномерен. Для формирования спектра звука наибольшее значение имеют поло- сти, лежащие перед сужением. Третьим источником возбуждения может служить давление, создаваемое в области смычки. При внезапном раскрытии смычки речевой тракт возбуждается в результате возникающего в нем переходного процесса. ,В первом приближении непериоди- ческое возбуждение может быть представлено как скачок давления со спектром, спадающим обратно пропорционально частоте. Смычка может занимать различное положение в части
ЗВУКИ РЕЧИ 27 голосового тракта выше голосовых связок: например, губное, зубное или твердонебное. Возбуждение в результате переходного процесса может воз- никать как при наличии, так и при отсутствии колебаний голо- совых связок и соответственно производить звонкие (вокализо- ванные) и глухие (невокализованные) взрывные звуки речи. Ше- потная речь образуется при замене вибрирующих при обычной речи голосовых связок шумовым источником в виде турбулент- ности воздушного потока у частично сомкнутых голосовых свя- зок либо в другом месте сужения в пределах речевого тракта. 2.2. Звуки речи 2.2.1. Общие сведения Чтобы служить практическим средством передачи информа- ции, язык должен описываться с помощью конечного числа раз- личимых и исключающих друг друга звуков. Это означает, что язык должен описываться основными лингвистическими едини- цами, обладающими тем свойством, что если в фразе заменить одну единицу другой, значение фразы изменится. При акустиче- ской реализации основная единица может быть подвержена су- щественным видоизменениям. Подобные видоизменения при восприятии человеком, знающим язык, соотносятся в его созна- нии с одним и тем же лингвистическим элементом. Эти основные лингвистические элементы называются фонемами (Блох и Трагер — Bloch and Trager), а их часто разнообразные, раз- личимые варианты — аллофонами. Фонемы можно рассматривать как некоторый код, однознач- но связанный с артикуляторными движениями данного языка. Аллофоны же данной фонемы представляют собой как бы аку- стические степени свободы в реализации кодового символа. Сво- бода в реализации зависит не только от самой фонемы, но так- же от ее положения во фразе. Набор фонемных символов и их статистические характерис- тики определяются языком и диалектом, на котором ведется разговор. Первая задача лингвиста, приступающего к изуче- нию неизвестного языка, состоит в том, чтобы получить фоне- тическую транскрипцию, в которой каждому различающемуся в восприятии звуку приписывается отдельный символ. После это- го он пытается связать эту транскрипцию с поведением говоря- щего и определить, какие группы акустически различимых зву- ков относятся к одной и той же фонеме, т. е. неразличимы с точ- ки зрения значения. Аллофоны каждой такой группы различа- ются по произношению, однако эти различия несущественны для
28 ПРОЦЕСС РЕЧЕОБРАЗОВАНИЯ семантики языка и являются чисто условными вариантами уст- ной речи. Характеристики речи, используемые для фонемной класси- фикации звуков речи в одном языке, могут не иметь фонемного значения в другом языке. Например, в ряде китайских диалек- тов изменения основного тона существенны для определения на- бора фонем, тогда как в западных языках они, как правило, не имеют фонемного значения. Другим ярким примером является агглютинативный язык южно-африканских готентотов, в кото- ром фонемное значение имеют гортанные щелчки, совершенно чуждые западным языкам. Следствием вышесказанного является то, что речь в опреде- ленном смысле дискретна. Однако осциллографическая запись звуковых колебаний, создаваемых говорящим в потоке связной речи, содержит удивительно мало разрывов или паузных интер- валов. Связная речь характеризуется почти непрерывным дви- жением артикуляторных органов при переходе от звука к зву- ку. Это движение создает изменения в конфигурации речевого тракта и соответственно в его резонансных свойствах. В непре- рывном процессе артикуляции речевой тракт только лишь на мгновение остается в положении, соответствующем данной фо- неме '). Статистические ограничения, накладываемые на язык, в большой мере влияют на точность, с которой фонема должна быть произнесена. В некоторых случаях достаточно лишь сде- лать артикуляторное движение в направлении нужной конфи- гурации речевого тракта, чтобы сигнализировать фонему. Прав- да также, что отношения между звуками речи и артикуляторны- ми движениями далеко не однозначны, хотя люди без дефектов речи обнаруживают большое сходство в артикуляции звуков речи. Характерными примерами «многозначности» речеобразова- ния являются компенсационные формы артикуляции у чревове- щателей и подражательная речь попугаев и птиц Мина. Несмотря на большое разнообразие артикуляторных движе- ний в связной речи и непрерывный характер речевых сигналов, говорящие на данном языке способны субъективно расчленять речь на фонемы. Фонетисты дают транскрипцию связной речи, используя разработанные для этой цели фонетические алфавиты. Один из первых фонетических алфавитов появился в Индии ') Автор исходит из известной фонемной теории речеобразования. Воз- можно другое представление, согласно которому «фонетический» состав речи определяется типичными перестройками артикуляционного аппарата, характе- ризующими звукосочетания. При этом, естественно, не приходится говорить о том, что речевой тракт лишь на мгновение остается в положении, соответст- вующем данной фонеме (прим. ред.).
ЗВУКИ РЕЧИ 29 примерно в 300 г. до н. э. В настоящее время наиболее часто применяется алфавит Международной фонетической ассоциации (МФА), содержащий символы для обозначения звуков речи большинства основных языков мира. Фонетический символ, используемый в фонетической транс- крипции, обычно заключается в квадратные скобки [ ]. Если же символ обозначает фонему, то он заключается в косые скобки / / (Фэрбенкс — Fairbanks). В дальнейшем изложении часто уместным был бы первый способ обозначения, особенно при описании отдельных произнесений звуков речи. Однако более важное значение имеют основные фонетические характеристики звуков и фонемные группы, к которым они относятся. Поэтому все фонетические символы будут заключаться нами в косые скобки. Звуки речи обычно классифицируются по способу и месту их образования. Фонетисты считают такой подход удобным для описания основных характеристик звуков речи. Например, арти- куляция гласных звуков обычно описывается положением под- нятой части языка на продольной оси речевого тракта (которое часто, но не всегда совпадает с положением точки наибольшего сужения) и степенью сужения. При дальнейшем рассмотрении звуков речи мы также будем пользоваться этим методом клас- сификации. Для ограничения объема книги будут рассмотрены только звуки английского языка в его общеамериканском (ОА) произношении. 2.2.2. Гласные Гласные звуки английского языка в общеамериканском про- изношении образуются исключительно посредством возбуждения голосового тракта колебаниями голосовых связок, иначе говоря, посредством голосового источника возбуждения. При нормаль- ной артикуляции речевой тракт сохраняет относительно ста- бильную конфигурацию на большей части протяженности зву- ка. Кроме того, в образовании гласных очень незначительное участие принимает носовая полость, а излучение звука проис- ходит только через рот (если не считать излучения через стенки полости рта). Если при произношении гласной звук проходит через носо- вую полость, гласная становится назализованной. В случае при- менения классификации по признакам ряда и степени подъема языка, 12 гласных в ОА произношении можно свести в табл. 2.1, в которой каждая гласная сопровождается содержащим ее клю- чевым словом. Примерные артикуляционные конфигурации при произнесе- нии этих звуков (за исключением двух неударных гласных) в
30 ПРОЦЕСС РЕЧЕОБРАЗОВАНИЯ Таблица 2.1 ГЛАСНЫЕ Степень подъема языка Ряд передний | средний | задний Верхние /i/ eve /I/ it /5е/ bird /ас/ over( не ударное) /и/ boot /и/ foot Средние Ннжние /е/ hate1) /е/ met /ае/ at /А/пр /э/ ado (неударное) /о/ obey1) /э/ all /а/ father ) Эти два звука в ОА произношении обычно выступают в виде дифтонгов. Они включены в таблицу гласных, так как образуют ядро соответствующих дифтонгов. Подробнее см. в разделе 2.2.8 (см. также Peterson and Lehiste). качественном плане изображены в виде профилей речевого трак- та на рис. 2.5 (Поттар, Копп и Грин —Potter, Корр and Green). Физиологическая основа классификации по признакам ряда и степени подъема языка становится особенно наглядной при •сравнении профилей для гласных /i, зе, а, и/ ’). I(eve) Е(мет) эе(дт) a (father) О (obey) S(eiRD) Рис. 2.5. Схематические профили речевого тракта при произне- сении английских гласных (из книги Поттера, Коппа и Грина)
ЗВУКИ РЕЧИ 31 2.2.3. Согласные Согласные звуки образуются не только при возбуждении го- лосовых связок и не только излучаются через ротовое отверстие при относительно стабильной конфигурации голосового тракта. Они, как правило, характеризуются более узкой артикуляцион- ной щелью, чем гласные звуки речи. Согласные могут отличать- ся от гласных источником возбуждения или способом излучения или и тем и другим. Кратковременная динамика артикуляцион- ных движений имеет решающее значение для образования од- ной важной группы согласных. Другие согласные, для которых артикуляционные движения не обязательны, могут быть произ- несены изолированно (как и гласные) и поэтому называются протяженными согласными. Щелевые (фрикативные) согласные. Щелевые согласные об- разуются при некогерентном возбуждении речевого тракта шу- мовым источником. Шум генерируется турбулентным воздуш- ным потоком в месте сужения или щели. Артикуляционная щель может быть образована между языком и зубами (зубные согласные), между верхними зубами и нижней губой (губно-зуб- ные), между языком и бугорками верхних десен — альвеолами (альвеолярные), между языком и твердым или мягким небом (соответственно твердонебные или мягконебные), между сужен- ными и зафиксированными в этом положении голосовыми связ- ками (гортанные). Излучение звуковых колебаний при образо- вании щелевых согласных всегда происходит через ротовое от- верстие. Если звук образуется совместно шумовым и голосовым источниками, щелевая согласная будет звонкой (вокализован- ной), а если звук образуется только шумовым источником, ще- левая согласная будет глухой (невокализованной). Как звонкие, так и глухие щелевые согласные относятся к протяженным звукам речи. Поскольку голосовой тракт с одной и той же конфигурацией может возбуждаться как при участии, так и без участия голосового источника, звонкие и глухие ще- левые образуют пары родственных звуков речи, противопостав- ленных по этому признаку. Щелевые согласные ОА диалекта приведены в табл. 2.2, в которой указаны их типичные «места» артикуляции и приведены ключевые слова, уточняющие их про- изношение. ) Эти профили так же, как и другие, приведенные ниже в настоящей главе, иллюстрируют в основном ротовую полость. Имеющая большое зна- чение глоточная полость и нижележащая часть речевого тракта не показаны. Их форма может быть определена по рентгенограммам (см., например, рис. 5.29—5.31).
32 ПРОЦЕСС РЕЧЕОБРАЗОВАНИЯ Таблица 2.2 ЩЕЛЕВЫЕ СОГЛАСНЫЕ Место артикуляции Характер возбуждения звонкие глухне Губно-зубные /v/ vote Д/ for Зубные /б/ then /0/ thin Альвеолярные /Z/ zoo /з/ see Твердонебные Гортанные /у/ azure l\l she /h/ he Профили голосового тракта для этих звуков приведены на рис. 2.6. Положение голосовых связок при образовании звонких . щелевых на диаграммах показаны двумя черточками, при обра- зовании гортанного щелевого /Ь/ — пунктиром. /(SHE) V(VOTE) Рис. 2.6. Профили речевого тракта для фрикатив- ных согласных английского языка. Двумя черточками в области глотки обозначена работа голосовых свя- зок (из книги Поттера, Коппа и Грина)
ЗВУКИ РЕЧИ 33 Взрывные согласные. К согласным, образование которых обусловлено динамикой речевого тракта, относятся взрывные согласные. При их произношении речевой тракт в том или ином месте полностью закрывается (смыкается). За этой смычкой легкие сжимают воздух, который внезапно высвобождается в результате быстрого перемещения артикуляторных органов. Шум взрыва и придыхания помогают различать взрывные со- гласные. Смычка может быть губной, альвеолярной, твердонеб- ной или мягконебной. Взрывной согласный может быть произ- несен с участием или без участия голосового источника. Прак- тически при произнесении звонкого согласного возбуждение тракта голосовыми связками может использоваться для созда- ния нужного давления, и в этом случае озвончение (вокализа- ция) начинается до взрыва. Родственные пары взрывных со- гласных с их типичными местами артикуляции приведены в табл. 2.3. Т а б л и ц а '2.3 ВЗРЫВНЫЕ СОГЛАСНЫЕ Место артикуляции Характер возбуждения звонкие глухне Губные /Ь/ be /Р/ pay Альвеолярные /d/ day /V to . 7 ср до- нлн мягконебные /g/ go /к/ key Рис. 2.7. Артикуляционные профили для взрывных со- гласных английского .языка (из книги Поттера, Кон- на и Грина) 2—71
34 ПРОЦЕСС РЕЧЕОБРАЗОВАНИЯ Артикуляционные профили этих звуков изображены на I рис. 2.7. В каждом случае зафиксировано положение артику- I лярных органов непосредственно перед раскрытием смычки. Носовые согласные. Носовые согласные возбуждаются голо- I совым источником и, следовательно, являются вокализованны- I ми. При их произнесении образуется полная смычка в ротовой ] полости между губами, между ! языком и альвеолами, языком j и твердым или мягким небом. J Небная занавеска опущена и открывает проход в носовой 1 тракт, который является ос- 1 новным путем распростране- I ния звука. Большая часть 1 энергии звука излучается че- | рез ноздри. Закрытая ротовая I полость действует в качестве I резонирующего бокового ответ- I вления от основного тракта и I может серьезным образом I влиять на излучаемый звук. I могут длительно произноситься, I они относятся к протяжным звукам речи. Носовые согласные I в ОА произношении приведены в табл. 2.4, а их артикулятор- I ные профили — на рис. 2.8. 1 Таблица 2.4 НОСОВЫЕ СОГЛАСНЫЕ Место артикуляции Звуки Губные Альвеолярные Твердонебные /га/ гае /п/ по Д/ sing (в чальной позиции не встречается) на- Поскольку носовые согласные т(мЕ) Рис. 2.8. Профили речевого тракта для носовых согласных (из книги Поттера, Коппа и Грина) Полугласные и плавные. Звуки, сильно напоминающие глас- ные, образуют две небольшие группы согласных. К ним отно- 1 сятся полугласные /w, ]7 и плавные согласные /г, 1/ (Фер- | бенкс — Fairbanks). Обе группы характеризуются голосовым ис- I точником возбуждения, отсутствием эффективной связи с носо- I вой полостью и излучением через ротовое отверстие. Полуглас- I ные являются динамичными звуками, они во всех случаях пред- I шествуют гласным и характеризуются движением артикулятор- I ных органов в направлении к артикуляции последующего глас- I кого. Плавные являются протяженными звуками. При их про- I изнесении речевой тракт сужается больше, чем в случае произ- I
ЗВУКИ РЕЧИ 35 несения большинства гласных, а кончик языка не опускается книзу. Эти звуки в ОА произношении в соответствии с местом Таблица 2.5 ПОЛУГЛАСНЫЕ ПЛАВНЫЕ Место артнкуляцнн Звука Твердонебные Губные /]! you /w/ we (в конеч- ной позиции не встречается) Твердонебные Альвеолярные /r/read /1/ let их артикуляции перечислены в табл. 2.5, а их профили для ис- ходных артикуляций приведены на рис. 2.9. Рис. 2.9. Конфигурации речевого тракта для исходных позиций при произнесении плавных и полугласных (из книги Поттера, Коппа и Грина) r(REM) Комбинированные звуки: дифтонги и аффрикаты. При соче- тании некоторых гласных или согласных элементов образуется основная звуковая единица, фонетическое значение которой за- висит от характера движения артикуляторных органов. Две гласные в таком сочетании образуют дифтонг. Дифтонг по сво- ей природе подобен гласной, но характеризуется изменением ар- тикуляции от одной гласной к другой. Например, если голосо- вой тракт переходит от артикуляции /е/ к артикуляции /I/ об- разуется дифтонг /е1/, как в say. Другими дифтонгами в ОА диалекте являются /1и/, как в new, /э1/, как в boy, /all/, как в out, /а1/, как в 7 и /oU/, как в go. При сочетании взрывных и щелевых согласных в ОА диа- лекте образуются две аффрикаты, а именно /tj/, как в chew, и /d у/, как в jar. 2*
36 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО ТРАКТА 2.3. Количественное описание речи В предыдущих разделах было дано чисто качественное опи- сание речеобразовательного процесса. В общих чертах мы рас- смотрели устройство голосового аппарата, а также средства получения слышимого кода, который, в рамках данного языка, состоит из различимых звуков. Однако для использования в си- стемах передачи априорных сведений об источнике информации эти сведения должны быть представлены в ясной аналитиче- ской форме, пригодной для расчета процессов обработки сигна- лов. Для этой цели необходимо подробное исследование физиче- ских принципов, лежащих в основе процесса речеобразования. В следущей главе будут рассмотрены характеристики ре- чевого аппарата в их количественном аспекте. Более глубоко будут изложены физические основы функционирования ротово- го и носового трактов и освещены некоторые акустические свой- ства источников речевого возбуждения. Основная задача при этом, как уже говорилось выше, состоит в том, чтобы описать акустический речевой сигнал через физические параметры си- стемы, которая его производит. Подобные описания раскры- вают физиологические и лингвистические ограничения, имею- щиеся в речи, что позволяет сделать важные для синтетической телефонии выводы. III. АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА Сочетание обонятельных, дыхательных и пищеварительных органов, ис- пользуемых для реяи, образует относительно сложную звукопроизводящую систему. С качественной стороны работа этой системы была рассмотрена в предыдущей главе. В настоящей главе мы намерены более подробно рас- смотреть акустические основы речеобразования. При этом мы не будем стре- миться к исчерпывающему изложению, а скорее дадим общее описание проб- лем, связанных с анализом речевого тракта, и остановимся на некоторых основных соотношениях, существенных для процесса речеобразования. Кроме того, мы попытаемся изложить методы и способы акустического анализа речи и наметить возможности их практического применения. Более специаль- ное изложение ряда проблем можно найти в соответствующей литературе1). ’) В этой связи особенно можно рекомендовать книгу Г. Фанта (G. Fant) «Акустическая теория речеобразования», которая, кроме акустиче- ских основ анализа речи, содержит большой объем материала по конфигура-. циям речевого тракта и их вычисленным частотным характеристикам. Более ранней, но сохранившей значение до настоящего времени является работа Т. Чиба и М. Каджияма (Т. Chiba and М. Kajiyama) «Гласные; их природа и структура». Еще одним выдающимся трудом в области анализа артикуляции гласных является работа Г. Унгехойера (G. Ungeheuer) «Элементы акусти- ческой теории образования гласных».
РЕЧЕВОЙ ТРАКТ как АКУСТИЧЕСКАЯ система 37 3.1. Речевой тракт как акустическая система Операции, качественное описание которых было дано в пре- дыдущей главе, в общем виде могут быть представлены схе- мой на рис. 3.1. Легкие и функционально связанные с ними ды- хательные мускулы являются источником голосовой энергии. При образовании вокализованных звуков выталкиваемый воз- дух приводит в колебание голосовые связки, которые функционируют как релак- сационный генератор. При этом воздушный поток мо- дулируется и преобразуется в дискретные толчки или импульсы. Невокализован- ные звуки возбуждаются ли- бо при прохождении воз- душного потока через суже- ние в передней части трак- та, либо при образовании полной смычки, создании избыточного давления воз- духа за смычкой и резком его высвобождении. В пер- вом случае возникают вих- ревые потоки воздуха и не- когерентные звуки. Во вто- ром случае возбуждение тракта сопровождается быс- тротечным переходным про- цессом. Физическая конфи- гурация речевого тракта весьма изменчива и опреде- функциональных узлов речевого тракта: 1 — небная занавеска, 2 — носовая по- лость, 3 — излучения носового тракта, 4 — излучения рта, 5 — ротовая полость, б — поднятая часть языка, 7 — гортанная трубка, 8 — трахея и бронхи, 9 — мускуль- ная сила, 10—объем легких, И — голо- совые связки ляется положением артаку- ляторных органов, а именно языка, губ и небной занавески. По- ложением последней определяется величина связи с носовым трактом. В общем для процесса речеобразования преобладающее зна- чение имеет несколько основных участков тракта. К ним отно- сятся: а) относительно длинная полость, образуемая в задней нижней части горла в области глотки; б) узкий проход в обла- сти поднятой части языка; в) переменной величины проход, образуемый небной занавеской при входе в носовой тракт; г) от- носительно широкая передняя часть ротовой полости; д) из- лучающие отверстия, образуемые губами и зубами, а также ноздрями.
1 38 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА Вокализованные звуки всегда возбуждаются в одном и том же месте, а именно у голосовых связок. Звонкие звуки излу- чаются через рот или через нос или одновременно через рот и нос. Глухое (невокализованное) возбуждение прикладывается к акустической системе в точке, где возникает турбулентный поток воздуха либо высвобождается воздух с повышенным дав- лением. Положение этой точки изменяется в пределах от перед- него (например, губно-зубное положение источника возбужде- ния при образовании /f/) до заднего (твердонебное для /к/). Глухие звуки, как правило, излучаются через ротовое отвер- стие. Все звуки, генерируемые артикуляторным аппаратом, мо- гут быть описаны свойствами источника возбуждения и аку- стической системы передачи. Для анализа этих свойств уста- ; новим сначала элементарные соотношения для системы переда- , чи, затем рассмотрим источники возбуждения и, наконец, рас- смотрим их совместную работу в некоторых простых случаях. Длина голосового тракта (около 17 см у мужчин) вполне сравнима с длиной звуковой волны в воздушной среде на слы- шимых частотах. Поэтому представление основных акустических элементов тракта в виде систем с сосредоточенными парамет- рами для точного анализа непригодно. На частотах выше не- ; скольких сотен герц следует учитывать волновой характер дви- жений системы. Голосовой и носовой тракты образуют неодно- j родные по сечению трубы с потерями. Колебательные процессы в подобных трубах трудно поддаются описанию, даже для слу- чая, когда отсутствуют потери. Строгие решения волнового ура- внения получены только для двух законов изменения формы по- перечного сечения, соответствующих коническому и гипербо- лическому рупорам (Морз — Morse). И только для конической формы получается однопараметрическая волна. В силу того что наибольший поперечный размер тракта значительно меньше длины волны (это обычно имеет место на частотах ниже примерно 4000 гц),, а также поскольку попереч- ное сечение трубы не резко уменьшается (вызывая внутрен- ние отражения волн), акустическая система приближенно может быть описана одномерным волновым уравнением. В этом урав- нении, иногда называемом уравнением Вебстера (Webster), предполагается синфазное расположение фронтов волны по пло- щади поперечного сечения. Оно имеет вид 1[aWA1 = , (3 1) Л(х) дх L дх J с* дР ' v 7 где А(х') — площадь поперечного сечения, р — звуковое давле- ние (в функции t и х) и с — скорость распространения звука. В общем случае это уравнение может быть решено только чис-
ЭКВИВАЛЕНТНАЯ СХЕМА ТРУБЫ С ПОТЕРЯМИ 39 ленными методами и не учитывает потерь. Тем не менее, по крайней мере, в трех исследованиях это выражение использо- валось для анализа процесса образования гласных (Чиба и Каджияма; Унгехойер; Гейнц — Heinz, 1962, а, Ь). Более ясный подход к проблеме анализа (как в вычисли- тельном плане, так и в плане концепции) состоит в применении следующей степени приближения к неоднородной трубе. Труба может быть представлена в виде сочлененных прямых смежных секций круглой геометрии. Для такого приближения могут быть использованы, например, цилиндры, конусы, экспоненци- альные или гиперболические рупоры. Хотя при квантовании функции площади поперечного сечения вносятся ошибки, их влияние может быть сделано достаточно малым, если длины секций, которыми достигается приближенное представление тракта, будут малы по сравнению с длиной волны на макси- мальной частоте, которую необходимо учитывать при анализе. Однородная цилиндрическая секция особенно легко поддается анализу, и поэтому только она будет использоваться в даль- нейшем. 3.2. Эквивалентная схема для цилиндрической трубы с потерями 3.2.1. Общие соотношения Рассмотрим элемент длины ах цилиндрической трубы с по- терями, имеющей площадь поперечного сечения А (рис. 3.2а). Предположим случай распространения плоской волны, когда звуковое давление и объемная скорость являются функцией только одной пространственной координаты х. Так как воздух имеет определенную массу, в трубе развиваются силы инерции, направленные 'противопо- ложно ускорению. Кроме того, воздух обладает сжи- маемостью. Если допустить, что труба гладкая и имеет жесткие стенки, то потери энергии на стенках будут за счет вязкого трения и теп- лопроводности. Потери на вязкость пропорциональны квадрату скорости частиц, а потери за счет теплопровод- ности пропорциональны квадрату звукового давле- а? б) н.------ат- Рис. 3.2. Элементарная секция цилинд- рической трубы с потерями: а) акустическая модель; б) электриче- ский эквивалент для одномерной волны
40 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА ния. Характер распространения звука в подобной трубе легко описать на основе элементарной электрической теории и неко- торых общеизвестных результатов анализа распространения одномерных волн по длинной линии. Звуковое давление можно рассматривать как эквивалент напряжения, а скорость воздушного потока — как эквивалент тока в электрической линии. Элементарная секция длиной dx электрической линии с потерями показана на рис. 3.26. Чтобы продолжить аналогию, запишем выражения для электрической линии. Индуктивность на единицу длины, емкость, последова- тельное сопротивление и параллельную проводимость обозна- чим соответственно через L, С, Д и G. При синусоидальном за- коне изменений напряжения и тока во времени (ldwt и Ee'mt) дифференциалы тока утечки и падения напряжения для эле- мента длины dx линии равны: di = —Eydx и dE = —Izdx, (3.2) где у = (G + i ® С) и z = (/? -f- icoL). Поэтому напряжение и ток удовлетворяют уравнениям rf2/? г-, n d*I Т П /О zyE = 0 и zyl = 0, (3.3) dx*----------------------------------------dx*-v Л решениями которых являются ^Ае- + В1е--| / = Де^+В2е-Н где у= ]/zz/=a+ip — постоянная распространения, а А и В — постоянные интегрирования, определяемые граничными усло- виями. 1 [ Для отрезка линии длиной I при величине входного напря- жения Е\ и входного тока Ц выходные напряжения Е2 и ток 12 определяются выражениями: E2 = £1chy/ —ZiZoshy/ | „ Z2=Z1ch у I — EJ^shyl J где Zo = V~zj~y — характеристическое сопротивление, а Уо = = V yjz — характеристическая проводимость линии. Уравнение (3.5) можно преобразовать так, чтобы параметры импеданса эквивалентного четырехполюсника входили в них в явном виде: Ег = 20Л cth у I — Z0Z2 csch у I 1 £2 = Z0/1csch у/— Z0/2cthу/ J
ЭКВИВАЛЕНТНАЯ СХЕМА ТРУБЫ С ПОТЕРЯМИ 41 Отсюда выводится эквивалентная Т-образная схема отрезка ли- нии длиной I (рис. 3.3а). Аналогичным образом уравнение, за- писанное по-другому, подчеркивает параметры полной проводи- мости четырехполюсника /1 = Ко£1 cth у I — Y0E2 csch у I I2 = YJE-l csch у I — Y0E2 cth у I (3.7) Эквивалентная л-образная схема отрезка линии показана па рис. 3.36. Согласно теории цепей параметры линии без потерь опреде- ляются в виде y=Yzy=i^ = ia YLC и Zo= • Гипер- болические функции в этом случае сводятся к круговым. За- метим также, что для случая малых потерь (т. е. когда R <^a>L и G< аС) постоянная затухания и фазовая постоянная при- ближенно определяются выражениями: ~ , G 1/ L 2 V L 2 V С $^®Yec (3.8) Используя электроакустическую аналогию и приведенные выражения для однородной электрической линии с потерями, рассмотрим [распростране- ние 'плоской волны в одно- родной трубе при наличии потерь. Если считать, что звуковое давление р являет- ся аналогом напряжения, а скорость потока v — анало- гом тока, то распростране- ние одномерной звуковой волны гармонической фор- мы при наличии потерь опи- сывается тем же уравнени- ем (3.3). Постоянная рас- пространения является ком- zb=zocshyl yb=yocshfl Рис. 3.3. Эквивалентный четырехполюс- ник для однородной линии длиной /: а) Т-образное звено; б) П-образное звено плексной (т. е. скорость распространения имеет комплексный характер), и волна затухает по мере распространения. В глад- кой трубе с жесткими стенками потери на вязкость и потери на теплопроводность можно фактически представить как потери PR и E2G соответственно. Инертность воздушной массы анало- гична электрической индуктивности, а сжимаемость объема воз-
42 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА духа — электрической емкости. Эта аналогия может быть опи- сана количественно '). 3.2.2. Акустическое «А» Масса воздуха, содержащегося в отрезке трубы длиной dx (рис. 3.2а), равна pAdx, где р — плотность воздуха. Дифферен- циал перепада давления, сообщающего ускорение этой массе, согласно закону Ньютона равен dp=pdx ДлЯ U(x,f) = U(x) eia>i , . dx ,, dp - iap-^-U -^- = ia>LaU dx a где La= —-----акустическая инертность на единицу длины. 3.2.3. Акустическое «Д» Акустическое 7? представляет собой потери, пропорциональ- ные (У2, т. е. мощность, рассеиваемую при вязком трении о стен- О ку трубы (Ингард—Ingard). Это эквивалентное поверхност- Стй воздуха । } 3 ЛУ u=f(y) Плоская стенка и(1) ное сопротивление легче всего пояснить с помощью схемы рис. 3.4. Представим себе, что стенка ггрубы яв- ляется плоской поверхно- стью, которая перемещает- ся по оинусоидалыному за- Рис. 3.4. Схема, иллюстрирующая поте- кону В направлении х со рм на вязкость на стенке гладкой трубы скоростью u(t)—Umela>t , Вследствие вязкости среды ц частицы воздуха вблизи стенки испытывают воздействия. Энергия, расходуемая на единицу площади на то, чтобы смес- тить воздух плоскостью, составляет потери, которые необходи- мо определить. Рассмотрим слой воздуха толщиной dy на еди- *) Читатель, не заинтересованный в этих подробностях, может пропустить следующие четыре раздела и обратиться к результатам, суммированным в ур-нии (3.33) раздела 3.2.6.
ЭКВИВАЛЕНТНАЯ СХЕМА ТРУБЫ С ПОТЕРЯМИ 43 ничной площадке, нормальной к оси у. Общая сила, действую- щая на слой, равна где и — скорость частиц в направлении х. Уравнение диффузии, определяющее зависимость скорости частиц воздуха от рас- стояния до стенки, в этом случае имеет вид д2и р ди ду2 р. dt (3.10) При гармонической форме колебаний ур-ние (3.10) приво- дится к виду сРи _ dF “ где kv = (1 + ыр/2ц, и определяется выражением i — и = k2u, (3.11) р распределение скорости вдоль оси (3.13) Расстояние, на котором скорость частиц уменьшается до от е своего значения у подвижной стенки, часто называют толщи- ной граничного слоя; оно равно 6„ = ]/ 2ц/ыр. Например, в воздушной среде на частоте 100 гц 6,:~ 0,2 мм. Вязкое трение на единицу площади для плоской стенки равно „ I ди \ , Р = — Р — = Р «А \ ду / у=о Р = “m(l + i)/®PP/2 Заметим, что эта сила имеет действительную составляющую и положительную реактивную составляющую. Последняя дей- ствует в направлении увеличения кажущегося акустического L. Средняя мощность, рассеиваемая на единице площади поверх- ности с учетом трения, равна P=-L\F\um^=±u2mRs, (3.14) где /?.,= ]/ырц/2 — сопротивление поверхности на единицу площади, а 0 — фазовый угол между F и и, равный 45°. Пло- щадь внутренней поверхности отрезка акустической трубы дли-
44 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА ной I равна SI, где S — длина окружности. Поэтому средняя рас- сеиваемая энергия на единицу длины трубы равна PS = -~-Х Z X и2т SRs или, выраженная через акустическую объемную ско- рость, PS = ~^^mRa, (3.15) где R-a ~ и Л —площадь поперечного сечения трубы. Таким образом, для аналогии, иллюстрируемой рис. 3.2, 7?о есть акустическое сопротивление на единицу длины. Как упоминалось выше, реактивная составляющая вязкого трения определяет акустическую индуктивность на единицу дли- ны. Фактически для принятых выше площади и соотношений у поверхности полученная в предыдущем разделе акустическая индуктивность должна быть взята с коэффициентом ]/ р,р/2ш или L а = 4-6 + 4" 1АМ- (3-16) а А \ ‘ А г 2ра>/ ' ' Таким образом, вязкий граничный слой увеличивает экви- валентную акустическую индуктивность, уменьшая эффектив- ную площадь поперечного сечения. Однако в случае речевого тракта вязкий граничный слой обычно настолько тонок, что вторым членом выражения (3.16) можно пренебречь. Напри- мер, для круглого поперечного сечения площадью 9 см2 второй член на частоте 500 гц имеет величину порядка 0,006 — . 3.2.4. Акустическое «С» Эквивалентная акустическая емкость, или упругость, опре- деляется сжимаемостью объема воздуха, содержащегося в от- резке трубы длиной dx (рис. 3.2а). Большая часть элементар- ного объема воздуха Adx испытывает сжатия и разрежения, ко- торые подчиняются адиабатическому закону для газов PV^ = const,
ЭКВИВАЛЕНТНАЯ СХЕМА ТРУБЫ С ПОТЕРЯМИ 45 где Р и V — общие давление и объем газа, а г]— адиабатиче- ская постоянная1). После дифференцирования получаем dP dV Р ~ V ' Изменение объема при сжатии вследствие увеличения давления равно dV=—d(Adx) и dP Adx2 Р 1 V Эти изменения, отнесенные к приращению времени, определяют- ся выражением dP т] Adx dx dx r г — = -I--------- = ti — 4/. Pdt V dt Г При синусоидальной зависимости от времени Р = Р0+peio>t , где Ро—статическое давление. Отсюда сила потока, возникаю- щего за счет упругости объема Adx, примерно равна U — i и —-— р =i и —— р. (3.17) Р9 7] dx Рог На основании волновых соотношений можно показать, что РоЛ равно рс2. Скорость потока за счет упругости на единицу дли- ны может быть записана в виде U — ItoCaP, где — акустическая емкость на единицу длины. 3.2.5. Акустическое «6г» Эквивалентная параллельная проводимость вызывает поте- ри энергии, пропорциональные квадрату местного звукового дав- ления. Такие потери обусловливаются теплопроводностью у сте- нок трубы. Проводимость на единицу длины можно получить способом, подобным способу определения потерь на вязкость. Как и ранее, представляется целесообразным сначала рассмот- реть более простой случай, а затем распространить результаты на трубу речевого тракта. ’) т]—отношение удельной теплоты при постоянном давлении к этой же величине при постоянном объеме. Для воздуха в нормальных условиях q=cp/cs = l,4.
46 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА Рассмотрим плоскую стенку большого размера и с высокой проводимостью (рис. 3.5). Воздух, лежащий выше границы, на- ходится в основном под постоянным давлением и имеет коэффи- циент теплопроводности X и удельную теплоемкость ср. i V Плоская стенка 1 =са •'стенки Рнс. 3.5. Схема, иллюстрирующая потерн на теплопроводность на стенке трубы Допустим, что стенка испытывает колебания температуры Т |у=о = Trflelat • Вертикальное распределение температуры в воздухе описывается уравнением диффузии (Гилдебранд — Hilde- brand) &Т _ ср р дТ_ дуъ Г” dt ’ или — С^Р.Т. (3.19) ду* л V ’ Решение этого уравнения Т=Тте , где kh= (1+i) , (3.20) имеет такую же форму, как и в случае распределения скорости вследствие вязкости. Аналогичным образом глубина граничного слоя для температуры равна = и ЙА = (1 + i)/8ft. Теперь подойдем ближе к случаю звуковой волны. Пред- ставим себе волну акустического давления, распространяющую- ся параллельно теплопроводной стенке, т. е. в направлении х. Нам желательно получить распределение температуры над стен- кой, обусловленное звуковой волной. Полагаем, что теплопро- водящая стенка имеет некоторую постоянную температуру и не испытывает изменений, т. е. 2.стенки=оо- Если длина звуко- вой волны велика по сравнению с размерами стенки, гармони-
ЭКВИВАЛЕНТНАЯ СХЕМА ТРУБЫ С ПОТЕРЯМИ 47 ческие колебания давления над стенкой можно представить как f=P0 + p, где Ро — статическое атмосферное давление, а р = ==pme‘“f—переменная составляющая давления (т. е. изменения давления по оси х полагаются малыми). В соответствии с за- конами газовых состояний PV71 = const и PV=RT (для единич- ной массы). После дифференцирования получаем dV 1 dP dP . dV dT -- =-----и---------- --- . V T P PVT Объединив уравнения, имеем dP L__1_\ _ ОТ Р \ ц } Т ’ где dp = p=pme‘“? , dP = T = Tmew, так что из (3.22) следует (3.21) (3.22) (3.23) У стенки у = 0 и т(0)=0 (так как Хстенки = со). На большом удалении от стенки (т. е. при больших у) (т(у)1 = тт в соответ- ствии с (3.23). Используя (3.20), распределение температуры можно представить в виде т(г/, t)= [1-е~^]тте^ , или Цу, /) = ^-(^)[1-еА^]риеы. (3.24) О> \ I / Рассмотрим теперь рассеяние энергии на стенке для этого случая. Предположим, что длина волны звуковых колебаний достаточно велика, так что колебания акустического давления над границей описываются выражением p = pme'mt, т. е. про- странственной зависимостью давления можно пренебречь. Од- нако распределение температуры над границей неоднородно, вследствие чего скорость частиц не сохраняется постоянной и имеет составляющую в направлении у. Средняя потеря мощно- „ ' —t сти на единицу площади граничной поверхности равна риу„ , где и — составляющая скорости в направлении у на грани- це. Для анализа этой величины необходимо знать иу.
48 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА Необходимость сохранения массы в направлении у требует, । чтобы = —ЛЕ. (3.25) ду di v ’ Кроме того, при постоянной массе газа dp/p =—dV/V, откуда на основании второго выражения (3.21) следует ?Л__£р=^.. (3.26) Р р т Поэтому duy / 1 <Эт 1 др\ ~dy = \Т0 ~dt ~~ ~Р9 ~dt ) ’ и Г ди« , iconfri — 1/ . ооч иу = —2 dy, и = —И- -!-------[у 4- — ------ I — у . (3.28 у J ду у Pt> I \ ky / J Следовательно, (3.29) с р С 1 + 1 Поэтому эквивалентный поток энергии через стенку равен т Wh = ри*у. ~ 8ft —-Lr — Г ?2 cos f со t + — cos a tdt, h У° с pc h VT Т J m \ 1 4 ) О Wh = — — Т^-Чг /А = —6 jfi (3.30) й 4 с pc m 2 “ m где Ga —эквивалентная проводимость на единицу площади стенки, определяемая выражением G^-ъ—---------- V . (3.31) « 2 с р с т со Срр v ' Отсюда эквивалентная проводимость на единицу длины трубы, обусловливаемая теплопроводностью, равна <3-32> р С ' A,Lp р где S — окружность трубы. Подчеркнем, что потери за счет теплопроводности Ga, а так- же за счет вязкости 7?д были определены для гладкой трубы с жесткими стенками. Речевой тракт не обладает этими свойства- ми, поэтому можно ожидать, что фактические потери будут не-
ЭКВИВАЛЕНТНАЯ СХЕМА ТРУБЫ С ПОТЕРЯМИ 49 сколько больше. Кроме того, полное механическое сопротивле- ние стенок тракта включает в себя реактивное сопротивление массы и проводимость, которые влияют на величину шунтирую- щего элемента эквивалентной схемы. Влияние реактивного со- противления стенок на частоты акустических резонансов обыч- но мало. Более важное значение имеет влияние проводимости стенок на затухание тракта. Оба эти эффекта рассмотрены ниже. 3.2.6. Заключение по эквивалентным представлениям акустических величин В соответствии с изложенным выше эквивалентные постоян- ные на единицу длины однородной трубы определяются выра- жениями La - , Са = — “ Л а рс2 , (3.33) где А — площадь сечения трубы, S — ее окружность, р — плот- ность воздуха, с — скорость распространения звука, ц— коэф- фициент вязкости, X — коэффициент теплопроводности, т] — адиабатическая постоянная и ср — удельная теплоемкость воз- духа при постоянном давлении *). Установив эти величины, можно аппроксимировать неодно- родный голосовой тракт требуемым числом прямых цилиндри- ческих секций. Функция передачи может быть определена рас- четным путем по эквивалентным схемам типа, изображенного на рис. 3.3, либо электрическим моделированием элементов. Если для аппроксимации требуется более трех или четырех кон- туров, вычисления становятся слишком трудоемкими. В этих случаях с большим успехом можно использовать цифровые или аналоговые вычислительные машины. Более высокий уровень аппроксимации может быть достиг- нут при использовании эквивалентных схем рис. 3.3. Для трубы заданной длины гиперболические функции приближенно можно ) р=1,14 кг[м? (влажный воздух при температуре тела 37°С); с=3,5-102 м)сек (влажный воздух при температуре тела 37°.С); (1=1,86 • 10~7н • сек]м? (2Ю°С, 760 мм рт. ст.)', K=23fl3-Ю~3вт/м град (0°С); ср =<1005 дж/кг • град (0° С, 1 ат); ц= 1,4.
50 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА представить именно: первыми членами разложения в степенной ряд, а ,, х3 , 2х5 , thx = х 3 г 15 и уЗ у5 shx = x +— +— + . . ., 3! 51 так что — = 4-shyZ^(Ga + i(oCa)Z. (3.34) %Ь Zq Величина ошибки при такой аппроксимации зависит от дли- ны элемента I и частоты и равна (1-----) и 11— —| соот- ' thx / \ shz/ ветственно. При построении электрических моделей речевого тракта принято применять такое приближение, используя до- статочно малые значения I. Мы вернемся к этому вопросу в од- ном из следующих разделов главы. Воспользуемся результатами этого раздела для проведения упрощенного анализа речевого тракта. Однако вначале целе- сообразно установить несколько фундаментальных соотношений, относящихся к описанию процессов излучения звуков изо рта, а также к некоторым характеристикам источников голосового возбуждения. 3.3. Нагрузочное сопротивление излучения через рот и ноздри При частотах, для которых поперечные размеры тракта малы по сравнению с длиной волны, можно считать, что распределе- ние скоростей частиц на поверхности излучения рта или носа является однородным и синфазным. Поэтому можно считать, что все элементы излучающей поверхности колеблются синфазно. Излучающий элемент находится в отражательной поверхности головы. В первом приближении отражательная поверхность яв- ляется сферой с радиусом порядка 9 см (для мужчин). Морз вывел выражения для сопротивления излучения вибрирующего поршня, помещенного в сферическом отражателе, и показал, что оно зависит от частоты и относительных размеров поршня и сферы. Аналитическое выражение для нагрузки отличается громоздкостью и не может быть представлено в замкнутой фор- ме. Предельным является случай, когда радиус поршня ста-
СОПРОТИВЛЕНИЕ ИЗЛУЧЕНИЯ ЧЕРЕЗ РОТ И НОЗДРИ 51 новится малым по сравнению с радиусом сферы. Нагрузка из- лучения в этом случае стремится к сопротивлению излучения поршня, помещенного в плоском отражателе бесконечной про- тяженности. Последняя величина известна и может быть выра- жена в замкнутой форме. Пользуясь выражениями для норми- v Л Р А . рованного акустического импеданса z = ZA —=---------(т. е. им- рс U рс педанса на единицу объема в свободном пространстве), нахо- дим импеданс нагрузки излучения: Jt (2ka) 1 j Г Ki (2Ла) ' ka 2(ka)i 2 (3.35) где к = ы!с, a—радиус поршня, A — площадь поршня, Jt(x) — бесселева функция первого рода, первого порядка и Ki(x)— бесселева функция второго рода, определяемая рядом jz / \ 2 х3 * #1(х) = — — Jt <3 X5 * . X7 32-5 ' 32-52-7 При малых значениях ka можно ограничиться первыми члена- ми рядов для бесселевых функций, и нормированный импеданс излучения приближенно равен z ~ + i ; to « 1. (3.36) р 2 Зл Импеданс состоит из активного сопротивления, пропорциональ- ного ы2 и последовательно включенной индуктивности с норми- рованным значением 8а/3лс. Эквивалентная параллельная схе- ма состоит из активного сопротивления 128/9л2 и индуктивно- сти 8 а/Зпс. Для сравнения следует сказать, что нормированная акусти- ческая нагрузка вибрирующей сферы также хорошо известна и равна z i ka 1 i ka (3.37) где а — радиус сферы. Заметим, что это выражение соответст- вует параллельному включению единичного активного сопро- тивления и индуктивности а/с. И в этом случае для малых ka zs яг (ka)2 + i (ka); to < 1. (3.38) На основе данных А1орза для сферического отражателя на рис. 3.6 приведены сравнительные кривые действительной и мнимой составляющих сопротивления излучения для поршня в сфере, для поршня в стенке и для пульсирующей сферы. В первом случае кривые соответствуют отношению радиусов пор-
52 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА шня и сферы a/as — 0,35. Кривые для поршня в стенке соответ- ствуют alas = Q' Как это видно из рисунка, при ka<_\ реактив- ные нагрузки весьма близки для всех трех излучателей. Мни- мая часть для сферического источника примерно в два раза больше, чем для поршня. Рнс. 3.6. Нормированное активное и реактивное акустические сопротивления излучения для: а) круглого поршня в бесконечном экране; б) круглого поршня в сферическом экране, радиус которого примерно ® три раза больше радиуса а поршня, ---- =0,35; в) пульсирующей сферы. Радиус излучателя, круглого или сферического, равен а Эти соотношения могут быть интерпретированы относитель- но размеров рта. Возьмем типичные крайние значения площади ротового отверстия (наименьшее и наибольшее) при образова- нии гласных. При произношении огубленного гласного типа /и/ площадь отверстия между губами составляет около 0,9 см2. Для открытого гласного, например /а/, типичной является площадь
РАСПРОСТРАНЕНИЕ ЗВУКА ВОКРУГ ГОЛОВЫ отверстия 5,0 см2. Радиусы круглых поршней с такой площадью равны 0,5 и 1,3 см соответственно. На частотах примерно ниже 5000 гц такая величина радиусов соответствует значению ka меньше единицы. Если голову приближенно представить как сферу радиусом 9 см, то отношение радиуса поршня к радиусу сферы для крайних значений площади будет равно 0,06 и 0,1 соответственно. Для отверстий таких размеров и для таких ча- стот нагрузка излучения рта достаточно хорошим приближе- нием может быть оценена, если рассматривать ее как нагрузку на поршень в стенке бесконечной протяженности. Приближение будет даже больше соответствовать действительности для нозд- рей, площадь излучения которых мала. Для более высоких ча- стот и больших площадей ротового отверстия нагрузка может быть более точно оценена на основе соотношений, справедли- вых для поршня в сфере. Необходимо также отметить, что при- ближенный подход к определению нормированной нагрузки из- лучения рта как к нагрузке на пульсирующую сферу приводит: к завышению сопротивления излучения примерно в два раза. 3.4. Распространение звука в пространстве вокруг головы При акустическом анализе речевого тракта обычно опреде- ляют величину колебательного воздушного потока, поступаю- щего на нагрузку излучения у губ или у ноздрей. В этих: точках звуковая энергия излучается в окружающее простран- ство. Затем звуковые колебания воспринимаются ухом или мик- рофоном в некоторой фиксированной точке в пространстве. Же- лательно поэтому определить характер распространения звукам между губами и заданной точкой в пространстве. Изложенные выше приближенные методы оценки импедан- сов излучения не определяют характера распрострганения звука1 в пространстве вокруг головы. Не исключена возможность то- го, что изменение формы отражательного экрана у источника1 вызовет большие изменения в характере распределения звука в. пространстве и вместе с тем сравнительно' мало скажется на нагрузке излучения. Например, как было показано выше, пор- шень в стенке и поршень в сфере имеют примерно одинаковые- сопротивления излучения. В первом случае излучение звука ог- раничено полупространством, тогда как во втором случае из- лучение носит сферический характер. Пространственное распре- деление лепестков является также различным. Следует ожидать, что на частотах, для которых Длина вол- ны велика по сравнению с диаметром головы, влияние головьи на поле излучения не будет слишком большим-. Структура про-
54 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА странства излучения звука должна быть весьма близка к про- странству излучения простого сферического источника с интен- сивностью, соответствующей мощности колебаний у губ. На высоких частотах, однако, следует ожидать, что диффракция во- круг головы окажет заметное влияние на поле излучения. Сферический источник с синусоидальной пульсацией соз- дает на расстоянии г от своего центра скорость частиц и зву- ковое давление, которые соответственно равны и(г)= aU° ika 1 + ifa~ e-i г 1 — i ka i kr и p(r)= ( (3 39) r 1 -f- i ka где a—радиус, u0 — величина скорости поверхности и & = (о/с. (Третий множитель в выражении для и(г) дает подъем низких частот, который достигается, когда говорят в микрофон, рас- положенный близко у губ — излюбленный прием певцов ночных клубов.) Если ka 1, источник называется гипотетиче- ским (точечным) и звуковое давление равно p(r)= (3 40) 4л г где t7o = 4na2HO — интенсивность источника или сила звукового потока. Следовательно, гипотетический источник создает звуко- вое давление, имеющее сферическую симметрию и амплитуду, пропорциональную 1/г и о. Морз нашел распределение давления в дальнем поле мало- го вибрирующего поршня, помещенного в сферический экран. Полагая, что рот и голова имеют примерно такую же конфигу- рацию с радиусом сферы порядка 9 см, можно диаграмму из- лучения системы определить относительно диаграммы излуче- ния гипотетического излучателя равной интенсивности, поме- щенного в ту же точку. При этом можно получить график, изо- браженный на рис. 3.7. Если поле давления не будет отличать- ся от поля давления гипотетического излучателя, то все кривые совпадут с окружностью, соответствующей нулевому давлению в дб, на плоскости полярных координат. Кривые рис. 3.7 сим- метричны относительно оси рта (поршня), совпадающей с ну- лем градусов. Как видно из рисунка, на оси рта подъем высо- ких частот несколько больше, чем +6 дб на октаву, как это ха- рактерно для гипотетического источника (на частотах выше 300 гц этот дополнительный подъем составляет примерно +2 дб
РАСПРОСТРАНЕНИЕ ЗВУКА ВОКРУГ ГОЛОВЫ 55 на октаву). Кроме этого, образуются лепестки излучения, осо- бенно с тыльной стороны «головы». Возникает вопрос о степени пригодности сферической аппро- ксимации формы головы. Чтобы получить хотя бы частичный ответ на этот вопрос и оценить распределение звукового давле- ния вокруг головы средних размеров, был проведен (возможно Рис. 3.7. Пространственное распределение звукового давления для малого поршня в сфере с радиусом 9 см. Давление выражено в дб относительно давле- ния, создаваемого простым сферическим источником равной интенсивности единственный) эксперимент (Фланаган — Flanagan, 1960, а). В голову манекена взрослого человека (рис. 3.8) был помещен громкоговоритель, прокалиброванный таким образом, чтобы можно было получить у губ манекена звуковые колебания за- данной силы, а амплитуду и фазу внешнего поля давления изме- рить с помощью микрофона. Результаты измерения амплитуд относительно уровней, которые были получены с помощью рас- положенного у рта гипотетического источника такой же интен- сивности для горизонтальной и вертикальной секущих плоско- стей, проходящих через рот, показаны на рис. 3.9. Можно заметить, что на частотах до 4000 гц, величина дав- ления в пределах вертикального и горизонтального углов по- рядка ±60°, отложенных относительно оси рта, отличается от
-56 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА уровней для гипотетического источника не более чем на ±3 дб. Выполненные одновре- менно измерения фазы пока- зали, что в пределах того же пространственного угла фаза отклоняется примерно не бо- лее чем на 30° по сравнению с фазой гипотетического источ- ника. В указанных пределах функция, связывающая силу звукового потока через ротовое отверстие со звуковым дав- Рис. 3.8. Манекен в рост человека для измерения отношения между зву- ковым потоком у губ и звуковым давлением в точке внешнего поля. Звукопреобразователь смонтирован в голове манекена 120° 100° 80° 6(Р 120° 100° 80° 60° Рис. 3.9. Распределение звукового давления вокруг головы манекена отно- сительно распределения гипотетического источника: а) горизонтальное распределение; б) вертикальное распределение
ГОЛОСОВОЙ источник 57" лением у рта, может быть аппроксимирована характеристикой гипотетического излучателя,, представленной ур-нием (3.40). Не- обходимо отметить, что зависит от со и характеристика' имеет спектральный нуль на нулевой частоте. 3.5. Голосовой источник 3.5.1. Возбуждение голосовыми связками Способ возбуждения речевого тракта в случае вокализован- ных звуков речи был с качественной стороны представлен на рис. 2.1—2.4. Однако имеется возможность количественного под- хода, позволяющего оценить акустические характеристики го- лосового источника, каким является голосовая щель. Подобные- оцепкп основываются, главным образом, на данных о подсвя- зочном давлении, о разме- рах голосовой щели и о ха- рактере изменения пло- щади щели во времени. Основные органы, участвующие в голосооб- разовании, схематически изображены на рис. 3.10. Дан вад спереди системы органов, расположенных ниже голосовой щели; раз- меры примерно такие, как у взрослого мужчины (Юдсон и Уивер — Judson and Weaver). В электри- ческом моделировании эта система эквивалентна схе- рис зю Схематическое изображение орга- не, приведенной на рис.3.4. нов подгортанной 'системы человека: Порция воздуха ВТЯГИ- '-трахея, 2 - бронхи, 3 - легкие (макс. 4-5 .1), 1 4 — голосовые связки, 5 — ложные связки вается в легкие и накап- ливается на их акустиче- ской емкости CL. Легкие состоят из губчатой ткани и вно- сят акустические потери, представленные проводимостью GL,. которые зависят от степени наполнения легких. Мускулы; грудной клетки воздействуют на легкие с некоторой си- лой, повышая легочное давление Рь> в результате чего воздух: выталкивается по бронхам и трахее через относительно малое отверстие между голосовыми связками (см., рис. ЗД);.. Под воз>-
68 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА действием изменений местного давления в голосовой щели связ- ки, обладающие определенными массой и эластичностью, при- ходят в колебательное движение. Квазипериодические размы- кания и смыкания связок приводят к колебаниям последова- тельного импеданса (A’g+iaZg) и модулируют воздушный по- ток. Поэтому поток воздуха, проходящий в голосовой тракт, имеет форму дискретных толчков или импульсов. При вытал- кивании воздуха мускулы грудной клетки сокращаются, и для сохранения постоянства голосового усилия стремятся поддер- живать легочное давление постоянным. Емкость легких при этом уменьшается, так что отношение запаса воздуха к емкости ос- тается примерно постоянным. Бронхиальная и трахеальная трубки, представленные на рис. 3.11 эквивалентными Т-образными звеньями, относительно велики, так что падение давления в них мало1). Поэтому под- Рис. 3.11. Эквивалентная схема подгортанной системы: /—легкие, 2 —бронхи, 3 — трахея, 4 — голосовая щель, 5 — голосовой тракт, 6 — площадь голосовой щели, 7 — мускульная сила связочное давление Ps и легочное давление PL примерно оди- наковы. Межсвязочное отверстие переменной площади пред- ставляет собой изменяющийся во времени импеданс, на кото- ром расходуется основная часть подсвязочного давления. Под- связочный потенциал эффективно преобразуется в кинетическую энергию импульсов звукового потока голосовой щели Ug. На частотах ниже нескольких тысяч герц основная состав- ляющая импеданса голосовой щели активна. Для многих задач, связанных с анализом голосового тракта, удобно оперировать с эквивалентом сопротивления голосовой щели в виде схемы пе- ременного тока; это означает, что схема на рис. 3.11 левее то- чек, отмеченных крестами, должна быть представлена эквива- лентом Тевенина. Для определения такого эквивалента рассмот- рим характер изменяющегося во времени импеданса голосовой щели и некоторые типичные характеристики площади голосовой щели и силы потока. ’) Бронхиальные ветви представлены одной трубкой, площадь попереч- ного сечения которой равна сумме площадей поперечного сечения ветвей.
голосовой источник 59 Рис. 3.12. Простое приближенное представление гортани человека постоянного потока 3.5.2. Импеданс голосовой щели Для первоначальной оценки импеданса голосовой щели до- пустим, что отношение инертности к сопротивлению мало по сравнению с периодом колебательного изменения зазора щели (иначе говоря, постоянная времени LgIRg мала по сравнению с основным периодом Т). Определим условия, при которых это допущение является спра- ведливым. В подобном случае поток в ще- ли можно представить в виде ряда чере- дующихся состояний, и для оценки сопро- тивления голосовой щели можно использо- вать выражения для через отверстие. Поток через щель между голосовыми связками (рис. 3.10) можно приближенно представить как постоянный несжимаемый поток через круглое отверстие, показанное на рис. 3.12. Подсвязочное и надсвязочное давления обозначены через Pi и Р2 соот- ветственно. Скорость частиц в проходе рав- на и, площадь отверстия — Ли глубина (толщина) прохода — d. Если площади по- перечного сечения примыкающих труб намного больше А, из- менения Pi и Р2, создаваемые потоком, невелики и величины давления следует считать достаточно постоянными. Кроме того, если размеры отверстия малы по сравнению с длиной волны акустического возмущения и если средняя скорость потока на- много меньше, чем скорость звука, акустическое возмущение, по существу, сказывается мгновенно на всей ближайшей окрестно- сти отверстия, так что допущение о несжимаемости оказывается справедливым. Далее, предположим, что распределение скоро- сти в проходе является равномерным, а вязкое рассеяние отсут- ствует. При таких условиях кинетическая энергия на единицу объема, которой обладает воздух в отверстии, развивается под воздействием разности давлений (Pi—Р2) и равна р _ р = ЕД2 1 2 2 Отсюда скорость частиц (3.41) г 2(pt—р2) (3.42) w = L Р Сопротивление отверстия 7?g можно определить как отношение падения давления к силе потока: п = Р« = Р_^ ЧА ЧА* ' (3.43)
60 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА где U=uA— сила потока. Фактически Р% равно атмосферному давлению, так что Pv—P^ = P;i, т. е. избыточному подсвязочно- ,му давлению, и 1 Я* = <2Р \ . (3.44) В условиях, более близких к условиям работы голосовой ще- .ли, допущение о равномерном распределении скорости по сече- нию отверстия и о пренебрежимо малых потерях за счет вяз- кости не является удовлетворительным. Распределение скоро- стей в общем неравномерно и струи потока непрямолинейны и непараллельны. На некотором расстоянии по пути потока соп- ло сужается, и распределение здесь равномерно, а струи пото- ка становятся параллельными. В результате уменьшается эф- фективная площадь отверстия и увеличивается Rg • Кроме того, преобразование давления в кинетическую энергию никогда не осуществляется без потерь за счет вязкости, и скорость частиц в действительности несколько меньше, чем получается при оп- ределении с помощью выражения (3.42). Фактически, если пло- щадь и скорость потока достаточно малы, сила потока практи- чески определяется законами, вязкости. Это, безусловно, может иметь место в голосовой щели, где площадь прохода стремится к нулю. Поэтому выражение для сопротивления отверстия — действительное также для малых скоростей и площадей — в первом приближении можно представить в виде линейной ком- бинации членов, учитывающих кинетическую энергию и потери За счет вязкости: * (S) <м5> где Rv — сопротивление вязкости, ak—вещественная постоян- ная. Для постоянного ламинарного потока Rv пропорционально коэффициенту вязкости и длине путепровода и обратно пропор- ционально некоторой функции площади. Чтобы найти приближенные выражения вида (3.45), Вегель и ван ден Берг и др. (Wegel and van den Berg at al.) измерили постоянный поток на моделях гортани человека. В обоих иссле- дованиях даются эмпирические формулы, которые согласуются в пределах порядка. Данные ван ден Берга несколько более об- ширны и получены на гипсовых слепках с нормальной гортани. Голосовая щель в идеализированном виде была представлена прямоугольной щелью, как показано на рис. 3.13. Длина щели I сохранялась постоянной, равной 18 мм, а ее глубина d = 3 мм. Изменение площади обеспечивалось за счет изменения ширины
ГОЛОСОВОЙ ИСТОЧНИК 61 w. Измерения на модели показали, что сопротивление пример- но равно /?. = А. = + 0,875 , (3.46) где р, — коэффициент вязкости. Согласно данным ван ден Бер- га точность выражения (3.46) сохраняется в пределах десяти процентов при 0,1 <оу< 2,0 мм, PS^C 64 см вод. ст. для малых w и U <2000 см?!сек, для больших w. Как следует из (3.46), значениями Ps и А определяется сила потока U. Площадь голосовой щели A — lw, такчточлен (первый) в вы- ражении (3.46), определяющий потери на вязкость, пропорциона- лен А~3,а кинетическая энергия (второй член) пропорциональ- на иА~1 или в той мере, в какой и можно оценить по (3.42), при- мерно пропорциональна величине Р^/гАГ1. Какой из членов (кинетическая энергия или потери на вязкость) преобладает, зависит как от А, так и от Ps. Они становятся примерно рав- ными, когда (р/\)1/2 Д2= 19,3 [idP. Для типичных значений Ps го- лосовой щели это равенство имеет место при значениях площа- ди голосовой щели, в общем составляющих лишь малую часть 1 \ тл менее— максимального значения. Иными словами, 5 ) для большей части интервала размыкания голосовых связок со- противление голосовой щели оп- ределяется вторым членом выра- жения (3.46). Как указывалось ранее, ур- ние (3.46), строго говоря, дейст- вительно лишь при условии пос- тоянного потока. Представляет интерес, в какой мере (3.46) при- менимо для расчета потока через голосовую щель в функции вре- мени, когда A(t) и Ps известны. Для ответа на этот вопрос необ- ходимо уяснить влияние инертно- сти объема воздуха в голосовой щели. Поскольку падение давле- ния в бронхах и в трахее невелико и поскольку Ps за счет низ- кого импеданса легких1) остается в течение нескольких перио- дов основного тона, по существу, постоянным, схему 3.11 можно Рис. 3.13. Модель гортани чело- века (ван ден Берг и др.) *) Ван ден Берг считает, что отклонения составляют менее 5% от среднего подсвязочного давления. Р, измерялось с помощью зондов, введен- ных в трахею и пищевод.
62 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА упростить, как показано на рис. 3.14. Кроме того, можно пока- зать, что на большей части частотного диапазона входной им- педанс голосового тракта Z( мал по сравнению с импедансом голосовой щели. В идеальном случае при Zt = 0 £7g(Z) удовлет- воряет выражению t/ga)^ga)+-^-[Lga)t/ga)]=ps, (3.47) Rg (t) LgR] Рис. 3.'14. Упрощенная схема го- лосового источника где Rg(t) приближенно может быть определено согласно (3.46) и без учета концевых поправок Lg(t) =pdlA(i). Так как Rg зависит от пото- ка, то ур-ние (3.47) является не- линейным дифференциальным уравнением первого порядка с переменными коэффициентами. Его решение для произвольной зависимости A(t) затруднитель- но. Некоторое представление о потоке в голосовой щели можно получить, если зависимость A(t) задать в упрощенной форме. До- пустим, что A(t) имеет характер скачка, так что Д(0 = Л; />0, A(t) = O; t<0 и Ц,(0) = 0. Тогда d.Lgldt равно нулю при />0, и схема представляется зависящим от потока сопротивлением, включенным последо- вательно с индуктивностью постоянной величины, причем пе- репад напряжения Ps подается в момент t = 0. Режим схемы в этом случае описывается выражением = -Цр5-ед,). (3.48) CLI При t = 0 величина Ug(0) также равна нулю и dPgl _ Ps di |f=o Lg p так что вначале Ug(i')~ ^-st (для положительных t вблизи £g нуля). Аналогично, при t=oo, =0 и Ug( оо ) = — . Зна- dt Rg чение Ug ( оо ) является установившимся, обусловленным толь- ко величиной Rg. В этом случае Ug является решением уравне- ния Ps—UgRg = 0 и представляет собой положительный корень второй степени по Ug.
ГОЛОСОВОЙ источник 63 На основе этих асимптотических значений можно оценить постоянную времени нарастания потока. Допустим, что нара- стание продолжается с первоначальной скоростью Ps/Lg до устойчивого состояния соответствующего f7g(oo). Время на- растания Т в этом случае определяется выражением Ц,Ю = -^т = с/,(о»)=-^, l, & откуда <3-49) Так как Rg является суммой членов и Rk, определяемых соответственно вязкими и кинетическими потерями, то постоян- ная времени Lg/Rv+>Rk будет меньше меньшего из выражений Lg/Rv и LgIRh. Если скачок функции площади невелик, то бу- дет доминировать Rv и постоянная времени LgIRr, пропорцио- нальная А2, будет превалирующей. При больших скачках в функции площади применима постоянная LgIRk. В этом случае и в той мере, в какой величиной Rv можно пренебречь [т. е. в той мере, в какой Rk можно приближенно считать равным Rk = 0,875(2pPs)1/2/2Л], постоянная LgIRk пропорциональна РГ*/2 и не зависит от А. На рис. 3.15 приведены графики зависимостей Lg/Rv и Lg/Ri от А, построенные на основе этих предположений. График Lg/Rh дан для двух значений параметра Ps (4 см и 16 см вод. ст.). Первое значение примерно соответствует минимальной (порого- вой) интенсивности произношения гласного звука взрослым мужчиной. Второе значение соответствует достаточно громкому произношению, обычно с высоким основным тоном. Значения Lg/Rg ле- жат поэтому ниже сплош- ных кривых рис. 3.15. Согласно рис. 3.15 наи- большее значение постоян- ной времени (для пороговой величины подсвязочного дав- ления) составляет примерно четверть миллисекунды. Это время можно считать пре- небрежимо малым по срав- нению с периодом колеба- ний голосовых связок, боль- шим на порядок, т. е. 2,0 г- 7,0 - J0 - 7,0 - 1,2 ~ 1,0 - 0,0- 40- 40- 42- 0 к. < 5а 'к ' ОУ/ Рз~^смН'2О Ps=16a<HiO 0 5 10 15 20 Рис. 3.16. Отношение инертности голо- совой щели (iZ.g) к вязкому и кинетиче- скому сопротивлениям (/?„, Rk} в функ- ции площади (Д)
64 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА 2,5 мсек. Последнее значение соответствует частоте основного тона 400 гц, которая лежит за верхней границей среднего диа- пазона частот основного тона для мужского голоса. Поэтому в Рис. 3.16. Кривые изменения площади (/) го- лосовой щели и кривые потока (2), вычислен- ные /для одного периода основнаго тома. Fq—основная частота; Р3—подсвязочное дав- ление. Дикторы—взрослые мужчины, произно- сящие звук /ге/ а) диктор 4-1: F0=125 гц, Р3 = 4 см вод. ст; б) диктор 4-П: Fo= 1Й5 гц, Р3—8 см вод. ст.; (Фланаган, 1958) первом приближении форма волны звукового потока голосовой щели может быть оценена по Ps и A (t) просто с помощью вы- ражения (3.46). Из приведенных данных вытекает также, что для LgIRg~ ~0,25 мсек (т. е. Ps~4 см вод. ст.) индуктивная составляющая
ГОЛОСОВОЙ ИСТОЧНИК 65 становится сравнимой по величине с активным сопротивлением на частотах между 600 и 700 гц. Для Ps=16 см вод. ст. частота примерно удваивается и становится равной примерно 1300 гц. Это позволяет предположить, что на частотах выше 1000ч- -г-2000 гц импеданс голосовой щели имеет значительную со- ставляющую, пропорциональную частоте, что может оказать влияние на форму спектра потока, проходящего через голосо- вую щель. Если влиянием инертности пренебречь, то грубую оценку потока через голосовую щель можно получить из выражения (3.46). Исходя из допущения о постоянном подсвязочном давле- нии, можно показать, что соответствующий поток пропорциона- лен А3 при малых значениях площади голосовой щели и А при больших площадях. Полученные Фланаганом таким образом типичные кривые силы потока приведены на рис. 3.16 (Флана- ган, 1958). Характер изменения площади определен на основе измерений с помощью скоростной киносъемки голосовой щели (см. рис. 2.3), а подсвязочное давление оценивалось по интен- сивности звука и прямым измерением давления в трахее. Рису- нок 3.16а соответствует гласному /ээ/, произнесенному с мини- мально возможными интенсивностью и основным тоном, вто- рой — тому же гласному при большей интенсивности и при том же основном тоне. В первом случае голосовая щель вообще полностью не закрывается. Это обстоятельство характерно для слабых вокализованных звуков. Отметим, что входящие в Rg потери на вязкость способствуют появлению более крутых пе- реднего и заднего фронтов импульсов звуковых волн. Это приво- дит к подъему амплитуд высокочастотных составляющих спек- тра голосового источника. Спектр звукового потока голосовой щели в общем является нерегулярным и характеризуется многочисленными минимумами или спектральными нулями. Например, если импульс (рис. 3.166} идеализировать до симметричного треугольника, то он имел бы спектр вида (sin х/х)2 со спектральными нулями второго по- рядка на частотах ю = 4 пп/то, где п — целое число, а т0— интер- вал размыкания голосовой щели. Если функцию изменения площади считать периодической с периодом 1/125 сек и вычис- лить ее спектр (лучше всего на электронно-цифровой машине), то можно получить график, изображенный на рис. 3.17. (Фла- наган, 1961, Ь). Небольшая асимметрия в кривой изменения площади приводит к тому, что спектральные нули лежат на комплексных частотах, и поэтому спектральные минимумы раз- мещены не столь равномерно и не являются такими выражен- ными, как в случае симметричного треугольного импульса. 3—71
66 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА О 24 < \ 16 I < -10 й -20 « -30 i I -40 § -50 V Кривая ^площади 8 7 , \ У О 2 4 6 8 10 время,нсек 1-60- —70 L О 500 1000 1500 2000 2500 3000 3500 Частота,гц Рис. 3.17. Амплитудный спектр, вычислен- ный для кривой изменения площади голо- совой щели диктора A-II .на рис. 3.16 (Фланаган, 1961, Ь) 3.5.3. Эквивалентная схема голосового источника для переменного тока Учитывая только сопротивление 7?й в выражении (3.46), мож- но приближенно представить эквивалентную схему голосового источника для переменного тока, т. е. эквивалентную схему для сигналов голосового возбуждения малого уровня. Такое огра- ничение позволяет представить импеданс источника не изме- няющейся во времени величиной и является полезным при вы- полнении вычислений для голосового тракта. Эквивалентный генератор Тевенина (или Нортона) для голосовой щели мож- но получить таким же способом, каким получают эквивалент- ную схему электронного усилителя для переменного тока. Со- гласно (3.46) Ug(t)=f(Ps, А). Сила потока, площадь голосовой щели и подсвязочное давление являются униполярными функ- циями времени. Каждая из них содержит переменную состав- ляющую, наложенную на среднее значение. Иначе говоря, Ug{t) = Ug0 + U'{t), A(t) = A0+A'{t), Ps^i) = Ps0 + P's(t)- Разлагая Ug(~t) в ряд Тейлора относительно (Ps0, Ао) и учиты- вая только первые члены, получаем: и, (Р„ 4) = и, (Р^, А) +|Л (Л - А.) + + д>|р,.,л(л-л">+ ' ' +
ГОЛОСОВОЙ источник 67 и dUg I дА P „ 1 $0> л A'(t). Ao Уравнение (3.50) можно рассматривать как выражение, оп- источника пере- Рso, А, (5.50) ределяющее силу тока dUg/dA]^ AA'(t) менного тока с внутренней проводимостью dUg/dPs\ Р 0 А<>. На выходные зажимы от источника поступает переменный ток U’g (t). Схема его изображена на рис. 3.18. Мгновенная поляр- ность величины Р' (I) определяется разностью давлений над и под голосовой щелью. Частные производные в выраже- нии (3.50) можно оценить с по- мощью выражения (3.46). Пусть п' = I g dUg I ,л, • Тогда dPs _______ п i г j d#g 'PSO<PO И Рис. 3.18. Эквивалентная схе- ма голосового источника по переменному току (Фланаган, 1968) Rg — (Ro + 2Rk)ps0, а,. Сила тока эквивалентного источника равна A' (t). PS0,A° (3.51) dUg дА Пренебрегая составляющей сопротивления, определяемой вяз- костью, для приближенного вычисления и можно использовать (3.42). В таком случае ди/дА=0 и I дА | Р5в Л Р3».* । л ди ~ и+ А------ дА (3.52) Из приближенных выражений (3.51) и (3.52) вытекает, что сопротивление голосового источника переменному току равно значению первого члена выражения (3.46), учитывающего по- тери на вязкость плюс удвоенное значение второго члена, опре- деляющегося потерями кинетической энергии, и что источник переменного тока генерирует сигнал, форма которого аналогич- на изменяющейся во времени составляющей функции A(t). Что- бы получить типовое значение R ’g, примем Pso=10 см вод. ст. и Ло=5 мм2. Для этих часто встречающихся условий вычислен- ное значение Д' равно примерно 100 акустическим омам в си- стеме CGS. Сравним эту величину с входным акустическим им-
68 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА педансом речевого тракта. Подобное сравнение позволяет вы- яснить вопрос о том, эквивалентна ли голосовая щель генера- Рис. 3.19. Упрощенное представление импеданса речевого тракта со стороны голосовой щелн ной 17 см, открытой на дальнем тору тока (акустическому потоку) или генератору на- пряжения (давления). Входной импеданс трак- та сильно зависит от его конфигурации, однако для тракта постоянного сечения такую оценку сделать лег- ко. Рассмотрим тракт в ви- де однородной трубы дли- конце. При отсутствии связи с носовой полостью тракт нагружен только на импеданс излу- чения через ротовое отверстие. Подобная модель тракта при- ведена на рис. 3.19. Используя соотношения для длинной линии, приведенные выше, можно показать, что входной импеданс Zt прямой трубы определяется как Zt 2 Zr ch у I Zo sh у I 0 Zo ch у / + ZT sh у I (3.53) где /=17 см, а остальные величины были определены выше. Ес- ли предположить, что в трубе потери отсутствуют, то у = 1р и (3.53) может быть выражено через круговые функции: Zt — 20 Z.T cos р I + i Zo sin р I Zo cos p I i Zr sin p I (3.54) где Z0=pc/X, p = (o/c. Максимумы Zt будут иметь место на ча- стотах, для которых /=|(2и+1)Х/4, р/= (2п + 1) — и cos j3Z = O. Поэтому максимумы Zt для трубы без потерь равны Z — .° t макс „ (3.55) и труба действует как четвертьволновый трансформатор. В точ- ках минимумов Z(MIiH=Zr, при этом труба эквивалентна полу- волновому трансформатору. Для оценки Ztмакс можно использовать выражение для им- педанса излучения поршня в бесконечном отражателе [см. ур- ние (3.36)]: Zr = Z„^- = ^-[^-+ i —(to)], (3.56) т р А А 2 Злк ' V ’ где а = У А/л и ka <$С 1.
ГОЛОСОВОЙ источник 69 В качестве приемлемой величины площади поперечного се- чения прямого тракта примем А=5 см2. Первый четвертьволно- вый резонанс в трубе длиной 17 см имеет место на частоте при- мерно 500 гц. На этой частоте Zrl500 гц = (0,18 + Ю,81) и ^максЬоогц = = 86|—7701) акустических ом В системе CGS. Этот входной импеданс по величине сравним с только что выведенным эквивалентным сопротивлением переменному току голосового источника. По мере увеличения частоты значение Zr возрастает и на- грузка, пересчитанная на голосовую щель на четвертьволновых резонансах, становится меньше. Например, на втором резонан- се 411500гц = (l,63+i 2,44) и ZtMaKC]i500 e4 = 241—56° акустиче- ских ом в системе CGS. С дальнейшим увеличением частоты пе- ресчитанный импеданс продолжает уменьшаться до тех пор, пока на очень высоких частотах Zt не достигнет величины Zo= = 8,4 акустических ома. Заметьте также, что на полуволновых резонансах тракта, т. е. при / = иХ/2, синусные слагаемые в вы- ражении (3.54) равны нулю и Zt = Zr. Таким образом, входной импеданс тракта имеет максималь- ное значение на частоте первого четвертьволнового резонанса (который соответствует первой форманте). На этой частоте и вблизи нее входной импеданс (без учета всех потерь, кроме из- лучения) имеет величину, сравнимую с сопротивлением пере- менному току голосового источника. На всех других частотах он меньше. Для прямой трубы максимумы пересчитанного им- педанса имеют емкостный характер, так как нагрузка излуче- ния имеет индуктивный характер. Таким образом, в первом при- ближении голосовой источник можно рассматривать, как гене- ратор тока, исключая частоты вблизи первой форманты. Как было показано выше, источник, эквивалентный голосовым связ- кам, вырабатывает переменный ток величиной uA'(t) на Zt, включенный параллельно R' Изменения в конфигурации трак- та в общем не оказывают сильного влияния на работу голосо- вых связок. Однако на частоте первой форманты и вблизи нее можно ожидать наличия некоторого взаимодействия источника и тракта, и оно действительно имеет место. Синхронные с пе- риодом основного тона колебания частоты и ширины полосы первой форманты (ввледствие заметного взаимодействия тракта с 'источником) могут быть обнаружены экспериментальным путем. *) 861—77° обозначает (комплексную величину, имеющую модуль, рав- ный 86, и аргумент —77° (прим. ред.).
70 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА 3.6. Источник шумового и импульсного возбуждения тракта О механизме и свойствах шумового и импульсного возбужде- ний речевого тракта в настоящее время известно гораздо мень- ше, чем о голосовом возбуждении. Среди причин, объясняющих это, далеко не последнее место занимают трудности прямого из- мерения конфигурации тракта, размеров сужений, спектральных свойств и внутреннего импеданса источника, а также его про- странственного распределения. Шумовое возбуждение возникает при прохождении воздушного потока через щель в речевом трак- те. Возникающие при этом завихрения создают звуковое давле- ние, которое в основном носит случайный характер. Например, звук / j / возникает при продувании воздушной струи через уз- кую щель между языком и небом. Турбулентный поток возни- кает также при встрече струи воздуха с преградой или с острым краем. При произношении зубных фрикативных типа /f/ такой преградой служат верхние зубы. Другой фрикативный соглас- ный /Ь/ произносится при образовании турбулентного потока в голосовой щели. Механизм возбуждения остается при этом та- ким же, как и в случае произношения передних фрикативных, за исключением того, что артикуляционная щель образована невибрирующими голосовыми связками. Взрывные согласные (губные, зубные или твердонебные) об- разуются при полной смычке в соответствующей точке, созда- нии давления за смычкой и резком высвобождении воздуха в результате быстрого открытия щели. Такое возбуждение тракта аналогично возбуждению электрической схемы скачком напря- жения. При этом взрыв часто сопровождается фрикативным воз- буждением. Этот последний элемент взрывного звука аналогичен короткому фри- кативному протяженному звуку с тем же местом ар- тикуляции. Турбулентный Рис. 3.20, Эквивалентная схема для шу- мового возбуждения речевого тракта Вследствие пространст- венного характера шумо- вого источника его поло- жение в тракте указать трудно. Обычно можно считать, что он расположен внутри сужения, если оно короткое, и непосредственно перед ним в противном случае. В эквивалент- ной схеме шумовой источник и его внутренний импеданс мо- гут включаться последовательно (рис. 3.20). Символом Ps обо- значено звуковое давление, создаваемое турбулентным потоком, а символом Zs — внутренний импеданс источника. Последова-
ИСТОЧНИК ВОЗБУЖДЕНИЯ ТРАКТА 71 тельное включение источника можно аргументировать тем, что параллельное включение источника давления с низким импедан- сом привело бы к изменению резонансных свойств речевого тракта. Кроме того, согласно Фанту (Fant, 1960) эксперимен- тально полученные распределения полюсов и нулей для соглас- ных оказываются более соответствующими последовательному включению источника возбуждения. Хотя спектральные характеристики и внутренний импеданс шумового источника недостаточно известны, оценка этих вели- чин может быть сделана на основе данных о выходном звуко- вом сигнале и конфигурации тракта, а также на основе изме- рений на акустических моделях (Гейнц — Heinz, 1958). На ос- нове этих данных можно предположить, что спектр является относительно плоским в средней части звукового диапазона и что импеданс источника носит в основном активный характер. Приемлемую оценку для внутреннего импеданса можно полу- чить, пользуясь выражением для сопротивления отверстия (см. раздел 3.5). Звонкие фрикативные звуки типа /V/ образуются при одно- временной работе голосового и турбулентного источников. Так как вибрирующие голосовые связки создают пульсирующий по- ток воздуха, то возникающий в щели турбулентный звук моду- лируется импульсами голосовых связок. Поэтому турбулентный звук принимает форму синхронных с основным тоном импульсов шума. При оценке некоторых аспектов фрикативного и взрывного возбуждений возможен и количественный подход. Например, Мейер-Эпплер (Meyer-Eppler, 1953) произвел измерения пара- метров фрикативного возбуждения на моделях речевого трак- та, выполненных из деформированных пластических труб. При моделировании он приближался к способам произношения чело- веком фрикативных согласных /f, s, j /. Для соответствующих конфигураций голосового тракта, очевидно, существует крити- ческое число Рейнольдса Rec, ниже которого энергия произво- димого турбулентного звука является пренебрежимо малой. Мейер-Эпплер установил, что величина шумового звукового дав- ления Рг, измеренного на расстоянии г от ротового отверстия модели или человека, приближенно описывается выражением =/((Re2 — Rej?) , (3.57) где К — постоянная, Re—безразмерное число Рейнольдса, рав- ное Re = ut0p/p,, и — скорость частиц, р — плотность воздуха, р,— коэффициент вязкости и w — эффективная ширина прохода. Напомним, что из рассмотрения, относящегося к ур-нию (3.41), вытекает, что для турбулентного потока падение давле-
72 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА ния на сужении примерно равно Pd = p«2/2 = p£/2/2A2. Поэтому Re2 = 2p(co/p)2Pd и выражение (3.57) можно записать как Pr = (K^Pd-K2); Рг>0, (3.58) где Ki и К2 — постоянные. Отсюда следует, что выше некоторого порогового значения давление у губ для фрикативных звуков пропорционально падению давления на сужении (по существу, избыточному давлению за смычкой) и квадрату эффективной ширины прохода. Для иллюстрации типичных случаев скоростей потока при образовании согласных отметим, что площадь щели 0,2 см2 и избыточное давление порядка 10 см. вод. ст. вполне реальны для фрикативных звуков типа /s/. Соответствующая этому дав- лению скорость частиц и= (2Р<?/р) 1/2~4100 см/сек и величина потока U—820 см^секР). Если суженный проход в речевом тракте непрерывно рас- крывается, а ширина его увеличивается, то постоянное избы- точное давление за сужением может поддерживаться только за счет увеличения воздушного потока. Поток должен быть про- порционален площади прохода. Связанная с потоком мощность в основном определяется PdU и, следовательно, также возра- стает. Поскольку источником энергии являются дыхательные мускулы, то их сила определяет величину максимального пото- ка, который может быть получен при данном Pd. При некотором значении площади прохода дальнейшее его увеличение и, сле- довательно, увеличение w2 не компенсирует уменьшения вели- чины Pd, поддерживаемой в данных условиях. Произведение w2-Pd в выражении (3.58) начинает таким образом уменьшать- ся, так же как интенсивность самого фрикативного звука. Глухие взрывные согласные отличаются от фрикативных тем, что источником их возбуждения в большей степени являются нестационарные процессы. При отчетливом произношении взрыв- ных согласных голосовая щель открыта. Поэтому подгортанная система полостей взаимодействует с объемом за смычкой (Ев), который и сам по себе является достаточно большим. Дыхатель- ные мускулы развивают усилие, достаточное для создания дав- ления, однако слишком низкое, чтобы вытолкнуть воздух во время размыкания смычки. Воздушный поток в начальный пе- риод размыкания смычки является в основном турбулентным, с ламинарными струями, возникающими при затухании пото- ка. Если звонкие взрывные согласные стоят в начале слова (на- пример, /d, g/), голосовые связки включаются после размыка- ') Эта скорость превышает 0,1 Маха.
ИСТОЧНИК ВОЗБУЖДЕНИЯ ТРАКТА 73 ния смычки, однако часто (например, при произношении зву- ка /Ь/) они могут включаться В весьма грубом приближе- нии образование взрывных со- гласных может быть описано эк- вивалентной схемой рис. 3.2i. Конденсатором Св представлена упругость (Кв/рс2) полостей за и до размыкания смычки. СМЫЧКОЙ. Он заряжается ДО ве- рис 321 Приближенная схема личины, соответствующей избы- производства взрывных согласных точному давлению Рс. Сопротив- ление Rc является сопротивлением щели и в соответствии с ур-нием (3.43) примерно равно 7?c = pZ7m/2A2. Допустим, что площадь щели изменяется скачком от нулевого значения, т. е. AW = 0; ^<0, AU) = A; t>0. При этом через рот проходит такой поток, при котором удо- влетворяется выражение t UmRc + 4“ f Umdt = Pc ИЛИ в о р 1 Г -^+— \umdt = Pc при Um>0. 2А~ В J 0 Его решение для положительных значений Um имеет вид 2/Д у/2 а Р / Um(t) = At Св (р2Рс)1/2 (3.59) Согласно (3.59) поток уменьшается линейно во времени в начальный период размыкания смычки, так что весь запас воз- духа будет израсходован за время С3 (Р2РС)У2 (3.60) Однако по мере уменьшения потока он приближается к лами- нарному и сопротивление мало зависит от скорости [см. первый член выражения (3.46)]. Затухание потока в этом случае в боль- шей мере приближается к экспоненциальному закону1). ') Это можно строго доказать, если включить в /?с как постоянный член (потери на вязкость), так и член, зависящий от потока [как в ур-нии (3.46)]. Хотя дифференциальное уравнение при этом становится несколько боле₽ сложным, переменные разделяются и решение может быть получено в зна- чениях Um и ln(7m.
74 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА Чтобы получить представление о некоторых характерных ве- личинах, рассмотрим глухой взрывной звук типа /t/. Фант (Fant, 1960) считает, что реалистическую оценку артикуляци- онных параметров этого звука дают Рс = 6 см вод. ст., VB = pc2CB = 4 л (включая легкие) и А = 0,1 см2. Если допустить, что площадь изменяется скачком, подстановка этих значений в выражения (3.59) и (3.60) дает Um (0) =320 см31 сек и ti = = 130 мсек. Скорость частиц в начале линейного спада равна и™ (0) =3200 см!сек. Через 50 мсек она падает до величины 1300 см/сек, приближающейся к нижнему пределу, определен- ному Мейером-Эпплером для шумового возбуждения. Фант ука- зывает, что за это время расходуется незначительное количе- ство воздуха — порядка 10 см3. Стивенс (Stevens, 1956), а также Фант (Fant, 1960) подчер- кивают значение открытой голосовой щели при образовании сильных взрывных согласных. При закрытой щели VB сокра- щается до величины, несколько меньшей 100 см3, и избыточное давление, которое может быть создано за щелью, обычно рав- но примерно 3 см вод. ст. В подобных условиях трудно полу- чить потоки, достаточные для возбуждения шума. Турбулент- ный шум, возникающий во время размыкания смычки, в прин- ципе, является вторичным продуктом возбуждения. Первичное возбуждение обусловливается воздействием на голосовую си- стему внезапно приложенного давления. Как упоминалось вы- ше, такое возбуждение при резком изменении площади щели эквивалентно скачку напряжения, приложенного к электриче- ской схеме. Такой источник характеризуется спектром, пропор- циональным 1/со, т. е. спадающим по амплитуде со скоростью 6 дб на октаву. 3.7. Некоторые свойства передаточной функции речевого тракта 3.7.1. Определение передаточной функции Некоторые из основных соотношений, выведенных в преды- дущих разделах, можно использовать для описания определен- ных свойств передаточной функции речевого тракта. Эти свой- ства легче всего выявить аналитическим путем, если принять весьма упрощенное представление о геометрии тракта. Вычис- ления для более строгих приближений удобнее производить с помощью аналоговых или цифровых вычислительных машин. Хотя наши примеры в общем будут чрезвычайно просты, воз- можность перехода к более точному описанию в большинстве случаев будет очевидна.
ПЕРЕДАТОЧНАЯ ФУНКЦИЯ РЕЧЕВОГО ТРАКТА 75 Сначала рассмотрим характеристики передачи от голосовой щели до губ при неназализованных звуках. Кроме того, предель- но упрощая задачу, будем считать, что тракт имеет одинаковое поперечное сечение по всей длине I и заканчивается нагрузкой излучения, величина которой пренебрежимо мала по сравнению с характеристическим импе- дансом тракта. Предполо- жим, что тракт возбуждается у голосовой щели источни- ком звукового потока, внут- ренний импеданс которого велик по сравнению с вход- ным импедансом тракта. Со- ответствующие этому слу- чаю схемы показаны на рис. 3.22. Передаточная функция, связывающая по- токи у голосовой щели и у губ, в этом случае имеет вид = —гл— = (3 61) Ug. 2Ь + ?а ch у I za ~%о Ы z^ZgCshfl Рис. 3.22. Соотношение между потока- ми у голосовой щели и у губ для пря- мого тракта. Импеданс голосовой щели считается бесконечным, импеданс излу- чения равен нулю Особым точкам (полюсам) передачи соответствуют значения yl, при которых знаменатель обращается в нуль. Эти резонансы отражаются в спектрах звуков, излучаемых через рот. Их часто- ты определяются соотношениями ch у I = О у/ = ± i (2п+ 1)-у; п= 0, 1, 2 . . (3.62) Таким образом, полюсы являются комплексными. Обозначая комплексную частоту в виде o+i(o = s и учитывая, что для слу- чая малых потерь согласно (3.8) y = a+ip и р~и/с, комплексные частоты полюсов можно приближенно определить как —«с + iHn-± 1)яс , п = 0,1,2 . . Л) (3.63) ') Фактически а является неявной функцией <в [см. ур-ние (3.33)]. Од- нако поскольку частотная зависимость относительно слаба и поскольку обыч- но < Ип, вполне допустимо приближение (3.63).
76 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА Передаточная функция (3.61) может быть представлена в виде произведения дробей, числители которых совпадают с кор- нями знаменателей: И (S) = = П--------. (3 64> Ug(s) И (s_s„)(s_s*) Здесь s* и sn являются комплексно сопряженными величи- нами, причем числители определяются соотношением Um 0 <>) I = 1 j Ug (i ш) |iw=o chai которое для малых значений а примерно равно единице. Пере- даточная функция, следовательно, полностью определяется бес- конечным числом комплексно сопряженных полюсов'). Эти осо- бые точки проявляются в выходном звуке в виде спектральных максимумов, называемых формантами. Передаточная функция (3.64) не имеет нулей на конечных частотах. Максимумы функ- ции | И (ico) | (проявляются на частотах со= ±:(2п +1) лс/2/ и резонансы характеризуются шириной полосы на уровне 0,5 по мощности, примерно равной А/= ст/л=ас/л. Если принять 1= = 17 см, что соответствует длине голосового тракта взрослого мужчины, то при отсутствии сужений резонансные частоты при- близительно равны fi = 500 гц, f2~ 1500 гц, /3 = 2500 гц и далее с интервалом с/2/ гц. В данном примере учитываются лишь потери на теплопро- водность и вязкость. Вследствие этого расчетные значения ши- рины полосы формант необычно малы. Тем не менее учет влия- ния этих потерь на затухание представляет определенный ин- терес. Напомним {ур-ние (3.8)], что при малых потерях а~ ~Ral2VCaILa+Gal2V LalCa , где Ra, Ga, La и (^—величи- ны, определенные ранее в разделе 3.2.6. На частоте первой фор- манты (т. е. на частоте 500 гц) для прямого тракта с круглым поперечным сечением площадью 5 см2 вычисленное значение а равно примерно 5,2- 10-4, что соответствует ширине полосы пер- вой форманты Д/\ = 6 гц. На частоте второй форманты (1500 гц) аналогичные вычисления дают Af2 = 10 гц. Потери возрастают пропорционально корню квадратному от частоты, так что на частоте третьей форманты (2500 гц) А/З=13 гц. Из выражения (3.64) следует, что H(s) является функцией с минимальной фазой (т. е. она не имеет нулей в правой полу- *) Строгое доказательство ф-лы (3.64) основывается на теории функций (Titchmarsh, Ahlfors). Подробнее см. раздел. 6.2.3.
ПЕРЕДАТОЧНАЯ ФУНКЦИЯ РЕЧЕВОГО ТРАКТА 77 плоскости комплексных частот), так что амплитудная и фазо- вая частотные характеристики однозначно связаны преобразо- ванием Гильберта. Кроме того, H(s) полностью определяется величинами sn, так что и частота и амплитуда формантного ма- ксимума функции |H(ico)| однозначно определяются комплекс- ными частотами полюсов. В частности, если затухание форман- ты считать известным и постоянным, то амплитуды резонанс- ных максимумов функции |J7;(ico)| скрыты в мнимых состав- ляющих формантных частот coj, (02, ••• (Фант, 1956; Фланаган, 1957, с). Действительно, из (3.61) следует, что \Н 0 ®)1 = , и , , - L г.----=----------~ , (3.65) 1 V Л“=“>„ |ch (а + 1 0) /|ш= ш |i shaZ| al V П ' где р = со/с и сои= (2п+1)лс/2/. Заметим также, что фазовый угол Н (ico) возрастает на л радиан при переходе через фор- Рис. 3.23. Амплитудная и фазовая частот- ные характеристики модели речевого трак- та, приведенной на рис. 3.22 мантную частоту соп. Графики амплитудной и фазовой харак- теристик функции Н (ico) показаны на рис. 3.23. Отметим, что в случае отсутствия потерь Н (ico) =-.
78 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА 3.7.2. Влияние нагрузки излучения на распределение полюсов тракта При учете нагрузки излучения на открытом конце трубы эк- вивалентная схема трубы принимает вид, показанный на рис. 3.24. На этом рисунке At — площадь поперечного сечения тракта и Ат — излу- чающая площадь рта с экви- валентным радиусом ат. Тол- щина стенки ротовой диафраг- мы предполагается пренебре- жимо малой, величина импе- Рис. 3.24. Эквивалентная схема пря- мого речевого тракта с учетом на- грузки излучения. Импеданс голосо- вой щели считается бесконечным данса голосовой щели доста- точно большой и поперечные размеры сужения малы по срав- нению с длиной волны. Коэффициент передачи между голосовой щелью и губами определяется выражением Um _ 1 ch у /-]- sh у/ или, в более удобной форме, Um = chyr/ Uг ch (у + yr) I (3.66) где yr/ = aricthZr/Z0. Следует иметь в виду, что при Zr <^Z0 chyr/~l, а при малых потерях Zo — pc/A;. Пользуясь (3.66), выразим постоянную распространения через импеданс излучения (V + Yr) = 1 7 ‘ «+ i Р+ — arc tg » ^0 . — а + i Р + ar + i Рг = «' + iP' = y' • Если принять нагрузку излучения равной нагрузке на поршень в стенке [см. ур-ние (3.36)], то рс ’(&а)2 . . 8£а Ат 2 Зл < 1, (3.67) где а — радиус рта ат. Разлагая arcthZr/Z0 в ряд и ограничи- ваясь только первым членом (т. е. принимая, что Zr<^Z0), по- лучаем 1 А, Г(£а)2 . . 8£а"1 . . о 1’'я=Тл;[—+ <368)
ПЕРЕДАТОЧНАЯ ФУНКЦИЯ РЕЧЕВОГО ТРАКТА 79 При малых потерях р~со/с, откуда '(*' + i0')= [а + -^^-1 + iР И + "Г^т| • <3-69) |_ Ат оЛ. Z Полюса выражения (3.66) определяются из равенства e2l'z +1 = 0 или у' = ± i (2п+12я- , п = 0, 1,2 . . . (3.70) Принимая, что ico—>•« = (o+ico) и имея в виду, что <зп С и», по- лучаем приближенное выражение для полюсов: 1 Г . At со2 (2я + 1) л с ________ — а сЧ-----Ч 1 -———--- А <8а 2 л 1с 21 + Ат8п1 n = 0,l,2... (Zr«20). (3.71) Таким образом, влияние излучения сказывается в уменьшении мнимых составляющих частот полюсов и в увеличении веще- ственных составляющих. Для частного случая Ат=А; полюса определяются выраже- нием / Зл Z \ 'пт ~ ------------- г \ Зл I + 8а/ . а2 со2 \ , . (2я + 1) л с ' ). С Н----------+ 1 -——------------------- 21с ) ~ 21 (3.72) Используя данные примера, приведенного в предыдущем разде- ле (Аг = 5 см2, 1=17 см), можно показать, что при этом спек- тральные резонансы (форманты) понизятся по частоте с коэф- фициентом 3л//(3л/+8о) = 0,94. Исходная частота первой фор- манты 500 гц снижается до 470 гц, частота второй форманты 1500 — до 1410 гц. Ширина полосы первой форманты увеличит- ся примерно до Д/1~0,94 (6+4) =9 гц, а ширина полосы вто- рой форманты — примерно до Д/г — 0,94 (10+32) =40 гц. Подоб- ные же вычисления для третьей форманты дают Д/3=100 гц. Последняя цифра уже приближается к значениям ширины по- лосы форманты, измеренным на реальных голосовых трактах при закрытой голосовой щели (Хаус и Стивенс — House and Stevens, 1958; Данн—Dann, 1961; ван ден Берг — van den Berg, 1955). Как видно, влияние излучения, потерь на вязкость и теп- лопроводность на Д/1 относительно мало. Гораздо больше на величину затухания первой форманты сказываются потери в го- лосовой щели и вибрации стенок полости. Как следует из (3.72), влияние сопротивления излучения на затухание формант возрастает пропорционально квадрату ча-
80 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА / стоты, в то время как теплопроводность и потери на/вязкость обусловливают возрастание а пропорционально w Zt- Реактивная составляющая сопротивления излучения приводит к пониже- нию формантных частот. Из ур-ния (3.71) видно, что при Ат = =At действие реактивного сопротивления излучения эквивалент- но увеличению длины голосового тракта на 8а/3л. 3.7.3. Влияние импеданса голосовой щели на распределение полюсов тракта Действие эквивалентного импеданса голосовой щели мо- жет быть учтено в основном таким же способом, как и действие нагрузки излучения. Чтобы упро- Рнс. 3.25. Эквивалентная схе- ма прямого речевого трак- та. Импеданс голосовой щели считается бесконеч- ным, а импеданс излуче- ния—равным нулю стать рассмотрение, предположим снова, что нагрузка излучения пре- небрежимо мала по сравнению с характеристическим импедансом од- нородного тракта, а импеданс голо- совой щели имеет конечную вели- чину. Соответствующая этим усло- виям схема изображена на рис. 3.25. Как и в предыдущем примере, ко- эффициент передачи для звукового потока может быть выражен фор- мулой = ___________!_ =________J= ch уё1 chYZ + — sh у Z ch(Y + YgH’ zg (3.73) где yg/ = arcth Zo!Zg, т. e. импеданс голосовой щели входит в по- стоянную распространения. Ограничиваясь, как и ранее, первым членом разложения arcth ZQjZg в ряд (в предположении, что Zg^>Z0), получим ( у+у«) ~ (a+ip+ —----—. \ I Z&} Эквивалентный импеданс голосовой щели приближенно вы- ражается как Zg=iR’g +icoZ.g, где R'g —эквивалентное сопротив- ление переменному току [см. ур-ние (3.51)], a Lg — эффективная индуктивность голосовой щели. Полюсы коэффициента переда- чи определяются нулями дроби (3.73), и соображения, анало-
ПЕРЕДАТОЧНАЯ ФУНКЦИЯ РЕЧЕВОГО ТРАКТА 81 гичные приведенным в предыдущем разделе для случая малых потерь (Zo — pcMt, р^со/с), приводят к выражению . 1 (2я + 1)лс — 21 (3.74) Согласно (3.74) действие конечного импеданса голосовой щели проявляется в увеличении затухания формантных резо- нансов (вследствие потерь в голосовой щели 7?g ) й в повыше- нии формантных частот на величину, определяемую множите- лем перед фигурными скобками (вследствие индуктивности го- лосовой щели). Сделаем примерный расчет этого эффекта. В ка- честве исходных значений примем: подщелевое давление Ps = = 8 см. вод. ст., среднюю площадь голосовой щели Ао = 5 мм2, толщину голосовой щели d = 3 мм, площадь поперечного сече- ния голосового тракта Аг = 5 см2 и длину тракта 1=17 см. Рас- чет сопротивления голосовой щели по ур-нию (3.51) дает R' — 91 акустическому ому. Индуктивность щели Lg = pd/Aa = = 6,8-Ю-3 единиц в системе CGS. Примерно на частоте первой форманты со—лс/2/ = 2л (500 гц) множитель перед скобками имеет величину 1/(1—0,014), так что резонанс первой форман- ты увеличивается сравнительно с его значением, определяемым условием бесконечного глоточного импеданса, примерно на 1,4%. Влияние глоточного импеданса на частоту формант боль- ше проявляется на низких формантах, потому что Zg увеличи- вается с частотой. Подобные расчеты для второй форманты ( — 1500 гц) дали величину 1/(1—0,010). Можно заметить, что действие его состоит в укорочении эффективной длины тракта до величины I—LgZoc/1 Zg |2. Вычисленная ширина полосы пер- вой форманты равна ДЛ= -—о 014)' гг1+56 г/(] = 63 гц, что в общем соответствует измеренным значениям ширины полосы первой форманты в естественной речи. Влияние потерь голосо- вой щели 7?' на затухание формант является максимальным для самой низкой форманты и уменьшается с увеличением час- тоты, поскольку | Zg| возрастает с частотой. Аналогичное вы- числение для частоты второй форманты дает &f2= (1/1—0,010) X X (10 ги + 40 гц) =51 гц. Напомним, что потери на теплопровод- ность и вязкость, определяющие а, возрастают пропорциональ- но со1/2, а потери на излучение — пропорционально со2 (при ka < 1). Поэтому на затухание нижних формант в большей ме- ре влияют потери голосовой щели, а на затухание верхних фор- мант — потери на излучение.
82 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА Следует вспомнить, что сопротивление и индуктивность го- лосовой щели (которые здесь рассматриваются как эцРивален®.--. ные постоянные величины) фактически зависят от времени, и, следовательно, частоты полюсов sng в выражении (3.74) под- вержены модуляциям, синхронным с основным тоном. Это оз- начает, что при размыкании голосовых связок затухание и ре- зонансная частота форманты увеличиваются, так что за каж- дый период колебаний голосовых связок частота полюса опи- сывает небольшую траекторию в комплексной плоскости. Эти синхронные с основным тоном колебания частоты и затухания форманты можно наблюдать экспериментально, в частности, при обратной фильтрации формант1). Они особенно выражены для первой форманты. 3.7.4. Влияние колебаний стенок полости Выше предполагалось, что стенки голосового тракта гладкие и жесткие. В этом случае учитываются потери, вносимые сопро- тивлением излучения, сопротивлением голосовой щели, вязко- стью и теплопроводностью стенок полости. Однако голосовой тракт человека не имеет жестких стенок, и импеданс его поверх- ности не является бесконечным. Мягкие же стенки могут при- водить к дополнительным потерям энергии в тракте и влиять на его резонансные частоты. Целесообразно оценить это влия- ние. Конечный импеданс стенок тракта образует дополнительную шунтирующую цепь в Т-образном (или П-образном) звене экви- валентной схемы трубы (см. рис. 3.3). Поскольку мышечная ткань стенок тракта относительно массивна и вносит потери на вязкость, то дополнительную шунтирующую полную проводи- мость в интересующем нас диапазоне частот (т. е. в речевом диапазоне) можно приближенно представить обратной индук- тивностью или инертностью на единицу длины (Г№=1/£№), включенной параллельно с проводимостью на единицу длины (G1C= l/Rw). Соответственно видоизмененное Т-образное звено показано на рис. 3.26. Рассмотрим влияние дополнительной шунтирующей полной проводимости на постоянную распространения трубы. Как и ра- нее, будем исходить из основного предположения, что в трубе распространяется плоская волна и что звуковое давление в лю- бом поперечном сечении равномерно и синфазно. Напомним, что y = a+ip= V yz, где у и z—шунтирующая полная проводи- ') По-видимому, автор имеет в виду операцию «сглаживания» спектра, которая облегчает, в частности, анализ параметров импульсов голосового возбуждения (прим. ред.).
ПЕРЕДАТОЧНАЯ ФУНКЦИЯ РЕЧЕВОГО ТРАКТА 83 млеть и последовательный импеданс на единицу длины, соответ- ственно определяемые выражениями: 2 — Ra + i М У = (Ga + Gw} + — \ (0 / (3.75) Как и ранее, в большинстве представляющих интерес случаев потери будут малы и со£а, a (Ga+Gw) < (аСа—Гк/и). Кроме того, реактив- ная проводимость объема воздуха в общем будет превосходить реактивную проводимость стенок и <оСа > rw/co. В соответ- ствии с вышеизложенным [см. ур-ние (3.8)] посто- янную затухания в этом случае приближенно мож- но представить как Ra/2 LaJ2 Ьа/2 Ga А I Полная проВоВимость Т стенки полости Рис. 3.26. Представление импеданса стенки посредством эквивалентного Т-образного звена для отрезка однород- ной трубы длиной I + /тг- (376) Аналогично фазовая постоянная задается приближенным вы- ражением 7 г \ ® Ьа(Са-^\ = — . (3.77) \ (О2 / с Следовательно, эффективная скорость распространения звука в трубе с «массивными» стенками (т. е. с отрицательной реактив- ной проводимостью) превосходит скорость распространения звука в свободном пространстве. Труба как бы укорачивается, и резонансные частоты смещаются вверх. Этот эффект макси- мален на низких частотах. Такой же результат можно получить более элегантно через удельную полную проводимость стенок, с помощью волнового уравнения для цилиндрической трубы, если учитывать радиальную симметрию и установить гранич- ные условия для импеданса у стенок (Морз—Morse). Кроме решения для плоской волны, последняя формулировка позво- ляет получить также решения для высших типов волн в цилин- дрической трубе. Выражения (3.76) и (3.77) показывают, что вибрация стенок полости вносит дополнительную составляющую в постоянную затухания, и если стенка обладает преимущественно реактивно-
84 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА сгью массы, то действие вибраций состоит в уменьшении фаго- вой постоянной или в увеличении скорости распространения зву- ка. Согласно примененной выше методике [см. ур-ние (3.63)] по- люса такого типа однородной трубы определяются выражением saw = [- а с' ± i (~+2/1)ЯС<] = + i « =- 0, 1, 2 . . .(3.78) Для вычисления шунтирующего эффекта стенок в реальном голосовом тракте необходимо располагать некоторыми сведе- ниями о механическом импедансе стенок полости. Измерения по- добного рода, очевидно, трудно выполнить, и они, по-видимому, не проводились. Можно, однако, оценить порядок соответствую- щих величин, используя значения механического импеданса, по- лученные для других поверхностей тела. К сожалению, подоб- ные измерения дают несовпадающие результаты. Оказывается, что импеданс значительно изменяется в зависимости от точки измерения. Тем не менее для ориентировочных расчетов эти дан- ные вполне пригодны. Измерения проводились Франке (Franke) на тканях грудной клетки, бедра и живота, а результаты этих измерений затем были использованы для оценки вибраций стенок (Хаус и Сти- венс, 1958). На частотах примерно ниже 100 гц мышечные по- верхности обнаруживают резистивную и реактивную по массе составляющие. Удельные импедансы (при грубом приближе- нии) лежат в области 40 0004-70 000 н-сек]м2. Ориентировочное значение удельного импеданса поверхности живота определяет- ся выражением zs = (rs+'\ xj = (rs + i co ls) = (65 000 + 4i co) (3.79) при (2к- 200) < co < (2z- 1000). Удельный последовательный импеданс можно выразить че- рез эквивалентные параллельные сопротивление и индуктив- r S + х2 . r2s + X2 ность: гр= --------и ixp = 1--------.Полученные удельные зна- й Xs чения (на единицу площади) можно привести к значениям на единицу длины трубы, разделив их на длину S (внутреннюю г2 + х2 г2 + x2s окружность): Rw=— ---------- и 1Хда = i—---—. Отсюда г $5 xsS rSS . Гда . ti>lsS 2 । 2~ И I 2 । 2~ ’ c+x: ы rs+x2 <02 lsS где rw = -y 2 . (3.80) rs I X$
ПЕРЕДАТОЧНАЯ ФУНКЦИЯ РЕЧЕВОГО ТРАКТА 85 Допуская, что голосовой тракт не деформирован и имеет од- нородное поперечное сечение площадью 5 ел;2 (т. е. 5 = 7,9 см),. можно вычислить влияние полной проводимости стенок на по- стоянную распространения, ширину полосы и частоту форман- ты. Согласно (3.76) и (3.77) получаем // 1 s \ ш Г р La(ca-----1-----------------,(3.81) \ д + с L rs + ^s) J где а= У Л/л— радиус трубы, а выражение в скобках являет- ся приближением квадратного корня первыми двумя членами биномиального разложения. Подставляя измеренные значения вместо rs и ls и вычисляя aw, ₽w и ширину полосы форманты на частотах, которые при- мерно соответствуют первым трем формантам, получаем1) сле- дующее (табл. 3.1): Таблица 3.1 Частота, гц б лг = гц 500 4,7-10~3 (0 — (1—0,011) с 50 1500 3,6-10~3 (0 — (1—0,008) с 40 2500 2,5-10—3 со — (1—0,006) с 30 Таким образом, влияние потерь на стенках на ширину по- лосы форманты наиболее заметно на самой низкой форманте,, уменьшаясь для более высоких формант. При сопоставлении с влиянием рассмотренных ранее потерь эти вычисленные значе- ния представляются несколько завышенными. Можно полагать, • что стенки голосового тракта являются более жесткими, чем ткани в области живота, для которых были получены оценки механического импеданса. Увеличение формантных частот вследствие реактивности массы стенок полости довольно незначительно и составляет ве- личину порядка 1% для нижних формант, уменьшающуюся с повышением частоты. ') При с=3,5-104 см'сек и р= 1,14-10 3 г]см2.
86 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА 3.7.5. Аппроксимация голосового тракта двумя трубками В предыдущих разделах для приближенного представления голосового тракта была использована однородная труба, что позволило уяснить некоторые свойства тракта. Эта модель, ха- Рис. 3.27. Двухтрубная модель речевого тракта. Импеданс голосовой щели считает- ся бесконечным, а импеданс излучения— равным нулю рактеризующаяся равномерным распределением полюсов по ча- стоте, приближается к реальной конфигурации голосового трак- та только в случае образования нейтрального звука /э /, когда артикуляционное сужение отсутствует. Более полное представ- ление о взаимодействии голосовых полостей мо- жет быть получено на следующем этапе услож- нения аппроксимирующей модели, а именно при ап- проксимации тракта по- средством двух однород- ных последовательно сое- диненных труб с разным поперечным сечением. Чтобы не усложнять ана- лиза и сосредоточить основное внимание на передаточных ха- рактеристиках труб, будем исходить из предположения, что им- педанс голосовой щели велик по сравнению с входным импе- дансом тракта и что нагрузка излучения пренебрежимо мала по сравнению с величиной импеданса у губ. Эти условия иллюст- рируются рис. 3.27. Для схемы, изображенной на рис. 3.27, отношение величины потока у губ к величине потока у голосовой щели равно 1 или = ______________________________1__________________ (chyJi) (ch у2 Z2) (l-b-T-thyAthyaZ,, ) (3‘82) Полюса ур-ния (3.82) имеют место при соотношении -j-thy2Z2 == — chyjZj. (3.83) ^2 При отсутствии потерь гиперболические функции вырожда- ются в круговые и все импедансы становятся чисто реактивны- ми. Полюса в этом случае удовлетворяют уравнению
ПЕРЕДАТОЧНАЯ ФУНКЦИЯ РЕЧЕВОГО ТРАКТА 87 л -y-tgp/2 = ctgp/1. (3.84> л2 Поскольку речевой тракт характеризуется относительно низ- кими потерями, ур-ние (3.84) пригодно для анализа распреде- а.) Лг=1смг ^=8см2 . к"--»-U »| 1,-Зсн. 1п=всм ' т2 Ft=250 F2=1875 F3 =2825 Л2=8смъ 5 Ч 3 2 / О -/ -2- ~3- -ч - -5L 5Г ч - 3 - 2 - 1.=Чсм Т-2~23см Не/ F, = 625 F3=!700 е F3 =2325 Аг=7см2 F,=1ci^—J О -/ -2 ч 3 2 - 1 - 0- -1 - -2 - -3 - -Ч - -5 3 2 "2 О -1 -2 ~30 3000 то 2ооо Частотами гласных 1,~9СМ If8см /а/ F2=1250 F3=2750 2) Я1=Яг =6см2 I '* 12=0см /а/ Ft=500 F2=1500 F3=2500 Рис. 3.28. Двухтрубные модели для /1‘, а:, а, э / и распределение их спектральных максимумов (формант) при отсутствии потерь ления полюсов в двухтрубной аппроксимирующей модели. На- пример, рассмотрим модели (рис. 3.28), аппроксимирующие артикуляционные конфигурации для четырех различных глас-
88 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА Рис. 3.29. Положение гласных на плоскости первой (F,) и второй (f2) формант. Точками обозначены усредненные зна- чения Петерсона и Барни для реальных гласных, произнесен- ных мужским голосам; кружка- ми обозначены гласные, полу- ченные на двухтрубных моде- лях, изображенных на рис. 3.28 них. На этом же рисунке приведены функции реактивных со- противлений ур-ния (3.84) для каждого случая и обозначены ча- стоты полюсов. Как видно, максимальный разнос частот первых двух фор- мант наблюдается для звука /1/, а для звука /а/ эти частоты наиболее близки. Нейтральный гласный /э/, соответствующий тракту без артикуляторного су- жения, характеризуется форман- тами, разнесенными равномерно с интервалом 1000 гц. Согласно рассмотренным графикам с уве- личением отношения площадей поперечного сечения задней и пе- редней полостей Ai/Лг частота первой форманты понижается. На классическом графике F\^F2 первые два полюса четырех мо- делей расположены, как показа- но на рис. 3.29. Звук / э/, соот- ветствующий отсутствию артику- ляторного сужения, занимает центральное положение. Для сравнения на рисунке показаны также формантные частоты для четырех гласных, произносимых взрослым мужчиной (Петерсон и Барни — Peterson and Barney) '). В нижнем левом углу диаграм- мы обозначено положение глас- ного /и/. Однако вследствие огуб- ления гласного /и/ этот звук нельзя получить на модели, состоя- щей только из двух труб. Выражение (3.84) делает очевидной одну из возможных форм компенсаторной артикуляции. Распределения полюсов для случая l\ = a, 12 = Ь и для случая 1\ = Ь, 12 = а оказываются одинаковыми. Иными словами, при постоянном соотношении ’) Размеры голосового тракта, приводимые в настоящей главе для иллю- страции акустических соотношений, характерны для взрослого мужчины. Женщины и дети имеют голосовой аппарат меньших размеров. Так как ча- стоты |резонансов обратно пропорциональны длине тракта, то форманты глас- ных для женского нли детского голоса расположены выше, чем для муж- ского голоса. Согласно Чибе .и Каджияме (Chiba and Kajiyama) длина рече- вого тракта молодой женщины составляет 0,87 от длины тракта молодого мужчины. Поэтому форманты женского голоса должны быть на 15% выше формант мужского голоса. Это обстоятельство отражено также в измере- ниях Петерсона и Барни.
ПЕРЕДАТОЧНАЯ ФУНКЦИЯ РЕЧЕВОГО ТРАКТА 89 площадей поперечного сечения задней и передней полостей взаимная замена длин полостей не сказывается на формантных, частотах. Это положение, безусловно, справедливо для идеали- зированного случая отсутствия потерь в трубах и с некоторым приближением приложимо к практическим условиям потерь в трубах. Такая взаимозаменяемость предоставляет одну из сте- пеней свободы для чревовещателя. Из (3.84) также ясно, что если /1 = 2/2, то частоты, при которых ctgpZj и tg(3/2 обращаются в бесконечность, совпадают (при р/2 = л/2), что соответствует второму резонансу. Таким образом, при отношении длин труб, равном 2: 1, частота второй форманты всегда остается постоян- ной. Третья форманта также будет постоянной при отношении длин, равном 3 : 2. 3.7.6. Возбуждение источником, смещенным вперед по продольной оси тракта Как указывалось выше, фрикативные звуки (за исключе- нием /Ь/) возбуждаются источником, расположенным в точке, смещенной вперед вдоль оси речевого тракта. Рассмотрим зву- ковой поток, создаваемый подобным источником у губ. В предыдущем разделе было показано, что в случае голосо- вого возбуждения максимумы характеристики передачи го- лосовой щели ко рту имели место на собственных частотах (по- люсах) речевой системы и нули при этом отсутствовали. Если возбуждение прикладывается в некоторой другой точке той же системы, то полюса возбуждаемых колебаний остаются неиз- менными. В передаточной функции, однако, появляются нули. При последовательном возбуждении эти нули располагаются на тех частотах, для которых импеданс в направлении от источни- ка к голосовой щели является бесконечно большим. В качестве примера обратимся снова к рассмотренной вы- ше простой двухтрубной модели. Вследствие пространственного- характера турбулентного источника глухих звуков его точное местоположение определить трудно. В большинстве случаев можно считать, что он расположен в точке максимального су- жения либо несколько впереди нее. Первый случай более соот- ветствует звукам /J , f, р, к/; второй — звукам /s, t/. Рассмот- рим сначала случай, когда источник расположен перед щелью. Эквивалентная схема двухтрубной модели приведена на рис. 3.30. Задняя полость показана закрытой, причем предпо- лагается, что импеданс голосовой щели и гортани велик (по сравнению с величиной импеданса задней полости), даже если голосовая щель открыта. Импеданс излучения, как и ранее, счи- тается малым по сравнению с величиной импеданса у рта, и
<90 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА внутренний импеданс самого источника также считается ма- лым. Преобразование Лапласа в области комплексных частот для коэффициента передачи Umlpt можно представить выражением =/7(s)G(s), (3.85) Pt («) где H(s) определяется выражением (3.64) и содержит все по- люса системы, a G(s) является функцией, включающей все ну- Рис. 3.30. Двухтрубная модель голосового тракта с источником возбуждения, располо- женным перед щелью .ли и некоторые постоянные, соответствующие неголосовому воз- буждению. В рассматриваемом частном случае Umlpt представ- ляет собой полную проводимость точки возбуждения у губ и равно Um __ ____________гЬг + zbl + га1 гаг__________ Pt za2 (zb2 + гЫ + zai + г«г) + zbi(zbi + zai + г«г) или в преобразованном виде Um Pt sh Yi /i sh Ya *a (cth Ya *a+ ^0______________\____________ ch у± ch Ya Za ^4 1 + —p th Yi G th y2 (3.86) Нули передаточной функции появляются на тех частотах, для которых числитель равен нулю, и, следовательно, удовлетво- ряют условию Аг cth Ya h = — cth Yi G ИЛИ j Л2 thyJi = — -^~th Ya*a> которое при отсутствии потерь сводится к tgpZx = - -^-tgpZ2. (3.87)
ПЕРЕДАТОЧНАЯ ФУНКЦИЯ РЕЧЕВОГО ТРАКТА 91 В качестве примера используем (3.87) и (3.84) для опреде- ления пулей и полюсов (без потерь) функции Umlpt для артику- ляционной конфигурации, соответствующей /s/ в грубом прибли- жении. Пусть Лт ~ 7 см2, А2 — 0,2 см2, li = 12,5 см, /2 = 2,5 см. На рис. 3.31 приведены графики левой и правой частей уравне- ний (3.84) и (3.87) и отмечены частоты полюсов и нулей. Нули. Полюсы Частота ,гц Рис. 3.31. Двухтрубная модель для фрикативного /з/. Положение полюсов и нулей при отсутствии потерь получено по кривым реак- тивностей Нижние *) полюса и нули лежат рядом и практически ней- трализуют друг друга. Первый значительно удаленный от по- люса нуль лежит вблизи 3400 гц, а первый некомпенсированный полюс—вблизи 6650 гц. Эти две особенности, а также почти нейтрализованные пары полюсов и нулей можно часто наблю- ') Соответствующие более низким частотам (прим. ред.).
92 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА дать в спектрах реальных звуков /з/. Например, на рис. 3.32 приведены два измеренных спектра фрикативного звука /s/ ес- тественной речи (Хьюз и Халле — Hughes and Halle). Для дан- ного диктора можно полагать, что максимум вблизи 6000— Рис. 3.32. Измеренные спектры для фрикативно- го /з/ в реальной речи (Хьюз и Халле) 7000 гц соответствует некомпенсированному полюсу, а спад вблизи 3000 гц—нулю. Чередование максимумов и минимумов на нижних частотах отражает влияние пар полюс—нуль, отме- ченных на кривых (рис. 3.31). На измеренных спектрах, воз- можно, отразился также переход от звукового потока у рта к давлению в фиксированной точке в пространстве, описываемый ур-нием (3.40). Поэтому с учетом эффекта излучения спектры имеют нуль на нулевой частоте. Чтобы продолжить анализ влияния положения источника на передаточную функцию, предположим, что турбулентный источ- ник приложен ближе к сочленению двух труб, а не на выходе системы. Такое положение характерно для звуков типа Д/, /к/ и, возможно, / J /. Например, при образовании /Г/ турбулент- ный поток возникает в щели между верхними зубами и ниж- ней губой. При этом за зубами лежат полости большого объема, а губы перед щелью образуют короткую трубу с малой пло- щадью поперечного сечения. Схема модели для такой конфигу- рации речевого тракта показана на рис. 3.33. Передаточная функция между источником и губами равна Цт = _________________________________г&2___________________________ Pt гЬ2 (га1 + га2 + г61) + га2 (%Ь2 "I" г«1 4“ г«2 "I" гй1) или 1 7— sh 71 Ц ^01 ch 71 Gchi2 /2 Л 1 + ~ th ft /1 th 72 /2 ^2 (3.88)
ПЕРЕДАТОЧНАЯ ФУНКЦИЯ РЕЧЕВОГО ТРАКТА 93 Распределение полюсов оказывается таким же, как и в пре- дыдущем случае. Однако нули появляются теперь при — shyi/i = 0 или 201 Sm = (— ах с + i ; т = 0, 1, 2 . . . (3.89) \ <1 / При отсутствии потерь нули появляются при sinp/a = 0, т. е. на частотах fm = mcl2l\ гц (т = 0, 1, 2...), где длина задней полости определяется целым числом половинных длин волны. Рис. 3.33. Двухтрубная модель речевого трак- та с источником возбуждения, приложенным в месте сочленения труб Нули поэтому появляются в комплексных сопряженных па- рах, за исключением случая, когда т = 0. Нуль на действитель- ной оси вызывается импедансом объема задней полости на ну- левой частоте. В частности, при отсутствии потерь на низких частотах числитель ур-ния (3.88) стремится к пределу liml/Zoisinp/1^o)/i/ZoiC= (AjZi/pc2)w = wC1, где Ci = Vi/pc2— аку- о»—>0 стическая емкость задней полости. Результат (3.89) показывает, почему губно-зубной фрика- тивный звук типа Д/ имеет в большей части слышимого частот- ного диапазона относительно равномерный спектр. Ориентиро- вочные значения параметров для звука Д/ (рис. 3.33): Д1 = 7 см2, А2 = 0,1 см2, 1) = 14 см, /2=1 см. Как и ранее, 0 2 4 6 8 10 0 2 4 6 8/0 Частота.,гц Рис. 3.34. Измеренные спектры для фрикативно- го /1/ в реальном речи (Хьюз и Халле) полюса появляются при ctgp/] =A\IA2\.gfil2. В|виду большой вели- чины А\1А2 и малой величины 12 полюса расположены весьма близко к частотам, на которых ctgp/] обращается в бесконеч-
94 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА ность, т. е. fn~nc/2li', n=0, 1, 2, ... (Первое бесконечно большое значение tgp/2 имеет на частоте с/4/2 вблизи 8500 гц.) Нули же согласно (3.89) расположены точно на частотах т = = 0, 1, 2, ..., так что каждый полюс почти полностью нейтрали- зуется нулем. Передаточная функция поэтому относительно по- стоянна вплоть до частоты второго нуля Ai/A2tgp/. Эта относи- тельно плоская характеристика обнаруживается в измеренных спектрах реальных звуков Д/, как показано на рис. 3.34 (Хьюз и Халле). 3.7.7. Влияние носового тракта При весьма упрощенном и приближенном рассмотрении функции передачи голосового тракта мы до сих пор пренебре- гали влиянием носового тракта. Носовой тракт включается при образовании носовых согласных и при назализации некоторых звуков, которые в основном излучаются через рот. Оба клас- са звуков являются вокализованными. При образовании носо- вых согласных полость рта закрывается, небная занавеска опу- скается и звук излучается, главным образом, через ноздри. За- крытая полость рта действует как резонатор бокового ответвле- ния. При образовании назализованных гласных основная энер- гия звука излучается через рот, а акустическая связь с носовым трактом образуется через проход у небной занавески. Совместная работа голосового и носового трактов трудно поддается аналитическому описанию. Связанные полости обра- зуют относительно сложную систему. Точный расчет их взаи- модействия лучше всего выполнить путем моделирования на аналоговых или цифровых электронных вычислительных ма- шинах. Тем не менее можно с помощью вычислений осветить некоторые общие свойства системы, допуская упрощающие при- ближения. В частности, предположим, что полости глотки, рта и носа можно представить отрезками однородных труб. Соот- ветствующая эквивалентная схема приведена на рис. 3.35. Заметим, что параллельное ответвление в тракте у небной занавески создает нули в спектре носового звука на частотах, на которых входной импеданс полости рта /Zm/ равен нулю. На этих частотах весь поток поглощается ответвлением. В частно- сти, для носовых согласных /гл, п, д/ Zrm—oo и Um = 0. В этом случае нули на выходе носового тракта появляются на часто- тах, на которых Zm = 0 при закрытой полости рта. Носовые со- гласные и назализованные гласные в общем характеризуются более широкими или более ослабленными резонансами, чем гла- сные. Дополнительные потери вносятся носовым трактом, кото-
ПЕРЕДАТОЧНАЯ ФУНКЦИЯ РЕЧЕВОГО ТРАКТА 95 рый на некотором протяжении разделяется на две продольные полости. Его внутренняя поверхность изогнута, и полость ха- рактеризуется сравнительно большой величиной отношения площади поверхности и площади поперечного сечения. Потери на вязкость и теплопроводность соразмерно возрастают. Небная Занавеска Рис. 3.35. Эквивалентная схема для объеди- ненных голосового и носового трактов. Гло- точная, ротовая и носовая полости аппрокси- мцрюваны однородными трубами Следуя примененной выше методике и в целях уяснения при- чин появления полюсов и нулей в спектре носовых согласных, рассмотрим упрощенную мо- дель тракта при произно- шении звука /гл/ (рис. 3.36). Полюса сигнала, излучае- мого через нос, определяют- ся совместным действием полостей глотки, рта и но- са. Резонатор ответвления, образуемый закрытой по- лостью рта, вносит нули на Рис. 3.36. Простая модель конфигу- рации голосового тракта для носо- вого согласного /т/ частотах, на которых его входной импеданс равен нулю. Допуская, что система не имеет потерь, нагрузка излучения пренебрежимо мала и импеданс голосовой щели велик, можно считать, что полюсы определя- ются частотами, на которых полная проводимость у небной за- навески (т. е. в точке соединения всех трех полостей) равна нулю: j -^-ctgpZ„ = (3.90)
96 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА Нули передаточной функции имеют место при = 0 = ~^-ctg0Zm, ИЛИ pZm = (2n+l)^-; /2 = 0, 1, 2 . . ., или А=(2п+1)-^- (3.91) Распределение полюсов и нулей, определяемое выражения- ми (3.90) и (3.91), показано на рис. 3.37. Как видно из рисунка, Рис. 3.37. Кривые реактивностей и распре- деление полюсов и нулей при отсутствии потерь для артикуляционной модели /ш/, 'приведенной на рис. 3.36 первый полюс проявляет- ся на сравнительно низ- кой частоте, что объясня- ется значительной длиной носоглоточного тракта и большим объемом рото- вой полости. Кроме по- люсов, характерных для артикуляции неназализо- ванных гласных, вносят- ся дополнительные полюс и нуль в области 1000 гц. Такое распределение по- люсов и нулей характер- но для всех носовых со- гласных, поскольку носо- глоточный тракт имеет в основном одинаковую фор- му во всех случаях. В настоящем примере частота первого нуля равна 1300 гц. Для согласных /п/ и /г)/ объем полости рта уменьшается, вследствие че- ПГ го нуль смещается вверх по частоте. Для сравнения на рис. 3.38 показан изме- ренный спектр реального звука /ш/ (Фант, 1960). В этом спектре нуль переда- чи носового тракта, по-ви- димому, отражается отно- сительно широким спект- ральным минимумом вбли- зи 1200 гц. Для носовых Частота, гц Рис. 3.38. Измеренный спектр носо- вого согласного /т/ в реальной ре- чи (Фант, I960)
ПЕРЕДАТОЧНАЯ ФУНКЦИЯ РЕЧЕВОГО ТРАКТА 97 согласных большое затухание и значительное понижение спектральных амплитуд на верхних частотах характерны. 3.7.8. Четырехтрубное, трехпараметровое приближение к артикуляции гласных Для иллюстрации основных соотношений в предыдущих раз- делах были использованы весьма простые приближения к голо- совой системе. Совершенно ясно, что такое представление не описывает всего разнообразия артикуляционных конфигураций, используемых в языке. Очевидно, можно получить более точные приближения, если модель голосовой системы представить с большим числом более коротких цилиндрических секций. В ча- стности, при образовании гласных можно выделить четыре ос- новные особенности геометрии тракта. К ним относятся задняя глоточная полость, сужение, образуемое приподнятой частью языка, передняя полость рта и сужение между губами (см. рис. 3.1). Модель в виде четырех сочлененных отрезков труб (рис. 3.39а) (Фант, 1960) гораздо лучше отражает эти особен- ности и по сравнению с двухсекционной моделью точнее описы- вает передаточ'ную функцию голосового тракта. Особые точки передаточной функции четырехсекционной модели достаточно хорошо соответствуют нижним формантам. Если по-прежнему считать, что импеданс голосовой щели ве- лик, а нагрузка излучения мала, то передаточная функция меж- ду губами и голосовой щелью равна ит 1 4 П (ch tn In) (ab + cd) Л=1 где a = I1 + th Y1 I] th y2 l2 \ ^2 b = (1 + -4LthY3^thY4Z1' \ ^4 > c= 4-{thY3Z3 + AthY4Z4 л3 \ (3.92) d = -^-(thYi^+thbZ,) Очевидно, что если Z3=iZ4 = 0, то ур-ние (3.92) приводится к (со- отношениям для двухтрубной модели, которые задаются ур-нием (3.82). Чтобы показать влияние конфигурации системы полостей на расположение полюсов передачи, Фант (1960) рассчитал вод- 4—71
98 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА робные номограммы для нескольких комбинаций значений А и /. Одна из этих номограмм особенно показательна и достаточно хорошо соответствует схеме, примененной Данном (Dann, 1950) а? Рис. 3.39. Номограмма для первых трех полюсов при отсутствии потерь (Flt F2, F3) в четырехтрубной модели речевого тракта (Фант, 1960). Параметром является площадь губного отверстия Л4. Кривые 1, 2, 3 и 4 относятся к площадям 4; 2; 0,65 и 0,16 см2 соответственно. Постоянными величинами яв- ляются Л|=Л3=8 см2, Z4=il см и 42=0,65 см.2. По осн абсцисс отложена длина в см при разработке электрического аналога голосового тракта. Эта номограмма в упрощенном виде приводится на рис. 3.39 б. При этом приняты следующие условия: /] + lt+h= 15 см; /4=1 см; А1 +Лз—8 см2; Лг=0,65 см2 и /2=5 см. Параметрами модели яв- ляются расстояние от голосовой щели до средней точки язы- кового сужения х и площадь отверстия между губами Л4. Для наибольшего и наименьшего значения х величины /3 и Ц равны 'нулю. Величина 12 изменяется так, чтобы общая длина модели сохранялась постоянной. Изменение положения полюсов в этом диапазоне изменения параметров при фиксированной площади языкового сужения (Л2=0,65 см2) показано на рис. 3.396. 4*
ПЕРЕДАТОЧНАЯ ФУНКЦИЯ РЕЧЕВОГО ТРАКТА 99 Эти данные показывают, что перемещение языкового суже- ния из заднего (х~3 см) в переднее (х~9 см) положение в общем сопровождается переходом от формантной структуры с высокой Fi и низкой F2 к структуре с низкой F\ и высокой F2. (Эту общую тенденцию можно было наблюдать также на двух- трубной модели, рассмотренной в разделе 3.7.5.) С увеличением степени огубления, т. е. с уменьшением А4 (а также с увеличе- нием Ц), частоты всех формант в общем понижаются. Хотя это и не показано на рисунке, интересно отметить, что с уменьше- нием площади языкового сужения диапазон изменения формант-, ных частот в зависимости от места сужения уменьшается. Аб- солютное изменение частоты F\ (в герцах) менее значительно., чем изменения частот более высоких формант. Однако для слу- хового восприятия более существенным является относительное изменение формантной частоты, выраженное в процентах. Этот вопрос более детально будет рассмотрен в гл. VII. Вследствие значительной связи между секциями частоты формант, строго говоря, не совпадают с резонансными частота- ми отдельных полостей речевого тракта. Распределение полю- сов характеризует связанную систему в целом. В литературе делались многочисленные попытки связать ту или иную фор- манту с отдельной полостью голосового тракта, однако при строгом подходе это можно сделать лишь тогда, когда размеры сужений настолько малы, что полости практически оказывают- ся несвязанными. Однако очень просто доказать, что такое соот- несение иногда приводит к серьезным ошибкам. Если переме- щение приподнятой части языка вперед вызывает повышение резонансной частоты, например F2, в интервале 3<х<9 см (рис. 3.39), то можно предположить, что резонанс определяет- ся, главным образом, полостью, длина которой уменьшается, в данном случае — полостью рта. С другой стороны, можно вызвать повышение частоты той же форманты посредством от- тягивания языка назад и соответственно укорочением полости глотки, например F2, в интервале 16>х>13 см. Отсюда ясно, что на одну и ту же форманту могут влиять различные полости тракта. Из четырехсекционной модели образования гласных выте- кает, что артикуляцию гласных приближенно можно описать с помощью трех параметров, а именно: расстояния х от голосовой щели до сужения, образуемого приподнятой частью языка; раз- мера языкового сужения А2 и степени огубления, которая, на- пример, может измеряться отношением площади сечения губной секции к ее длине А4//4. Эти основные параметры уже давно применяются фонетистами для качественного описания артику- ляции гласных. В работах Данна (1950), Стивенса и Хау-
100 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА за (1965) и Фанта (1960), связанных с разработкой электриче- ских аналогов голосового аппарата, эти параметры получены также и в количественных соотношениях. Как указывалось выше, Данн применил схему, весьма близ- кую к схеме, показанной на рис. 3.39, т. е. приближенно пред- ставлял тракт в областях, смежных с сужением, посредством труб с постоянной площадью поперечного сечения. Стивенс и Хауз, а также Фант развили эту схему, наложив ограничения на характер изменения площади поперечного сечения голосо- вого тракта вблизи сужения. При этом Стивенс и Хауз исполь- зовали параболическую аппроксимацию функции площади по- перечного сечения, а Фант применил секцию в виде катенои- дального рупора (т. е. с гиперболическим законом изменения площади сечения). В обоих случаях для имитации гортани и нижней глотки применялись трубы с постояными размерами. В результате экспериментов по восприятию синтетических глас- ных Стивенс и Хауз установили, что между допустимыми зна- чениями х, Д2 и Д4//4 и первыми тремя формантами гласных су- ществует достаточно однозначная зависимость. Хотя указанные три параметра обеспечивают адекватное описание неносовых и неретрофлексных артикуляций гласных, ясно, что их в общем недостаточно для описания согласных и носовых конфигураций. 3.7.9. Многотрубные модели и электрические аналоги речевого тракта С увеличением числа элементарных труб, используемых для аппроксимации голосового тракта, возрастает сложность вычи- слительных работ. Когда число аппроксимирующих секций пре- вышает четыре, обычно прибегают к помощи аналоговых или цифровых устройств. Аналоговые электрические схемы зареко- мендовали себя как полезное средство моделирования как го- лосового, так и носового трактов. Эти схемы широко использо- вались Данном (1950); Стивенсом, Фантом и Касовским (Kaso- wsKi); Фантом (1960); Стивенсом и Хаузом (1955, 1956) и Ро- зеном. Основная идея такого моделирования состоит, во-первых, в аппроксимации линейных характеристик голосового аппарата достаточно большим числом трубчатых секций с последующей заменой их эквивалентными Т-образными или П-образными зве- ньями (рис. 3.3) с сосредоточенными и постоянными параметра- ми. На низких частотах эквивалентная схема с сосредоточенны- ми постоянными ведет себя как длинная линия и достаточно хорошо моделирует распространение одномерной акустической волны в голосовом тракте. Верхняя граничная частота диапазо- на, для которого электрическая линия может быть адекватным
ПЕРЕДАТОЧНАЯ ФУНКЦИЯ РЕЧЕВОГО ТРАКТА 101 аналогом, определяется числом аппроксимирующих трубчатых секций, способом аппроксимации элементов, характеристики ко- торых выражаются гиперболическими функциями и влиянием поперечных колебаний в реальном речевом тракте. Как было показано выше, сопротивления плеч Т-образного эквивалента цилиндрической трубы определяются выражения- т/ ми: za = Zoth и zb = ZocschyZ. Первое приближение для этих величин дает za^Z0^j и z^Z,, Za Zo — (a + i 6) l и zb Zo-!- “ ° 2 b ° (a + i P) I (3.93) Из соотношений, выведенных ранее, Zo= [(R + i(o£)/(G + itt>C)]1''* и y = [(R + i<»L) (G + icoC)]1/г, где R, G, L и C — акустические вели- чины на единицу длины, заданные ур-иием (3.33). Поэтому эле- менты Т-образных звеньев приближенно равны z0=~ (R-V-iwL)Z и zb = 1/ (G + icoС) I. Акустические величины Ra, La, Ga и Са в ур-нии (3.3) не со- ответствуют электрическим величинам, встречающимся на прак- тике. Поэтому при переходе от акустических к электрическим импедансам целесообразно ввести масштабный множитель, что- бы выполнялось равенство ZOe=£ZOa или Re + i соД 'll/2 _ -p i io Ce J (3.94) Для определения целесообразной величины масштабного мно- жителя рассмотрим случай отсутствия потерь, когда kz<>«=k - (з-95> где A — площадь поперечного сечения акустической трубы. Приемлемым значением для ZQe можно считать 600 ом, а ориен- тировочное значение А = 8 см2. Отсюда £ = 600/5,3 = 113, и вели- чины импедансов на единицу длины электрических элементов в
102 АКУСТИЧЕСКИЕ СВОЙСТВА РЕЧЕВОГО АППАРАТА размерностях системы м—кг—сек соответствуют импедансам на единицу длины акустических элементов в системе см—г—сек (CGS), взятым с масштабным коэффициентом, равным ИЗ. Заметим также, что р/~о)//с = о)/е|/ЦСе=о)/а|/ЛаСа. Так как скорость распространения звука и плотность воздуха в тру- бе заданной длины являются постоянными, то поддержание по- стоянным произведения LeCe в электрической линии эквивалент- но постоянной скорости распространения звука в моделируемой трубе. Аналогичным образом изменениям площади трубы А со- ответствуют пропорциональные изменения величины отноше- ния Ce]Le. Электрическое моделирование осуществимо применительно как к голосовому, так и к носовому трактам. Выбор длины эле- ментарной цилиндрической секции I, электрического масштаб- ного коэффициента k, а также данные о распределении площа- ди поперечного сечения по продольной оси тракта полностью определяют элементы длинной линии без потерь. Для расчета потерь на вязкость и теплопроводность (R и G) необходимы данные о длине окружности сечения тракта вдоль его оси. На- грузка излучения рта и ноздрей определяется с учетом элек- трического масштабного коэффициента, определенного выше. Этот метод можно также применить для электрического моде- лирования подгортанной системы. Известны, по крайней мере, четыре схемы электрического аналога голосового тракта, раз- работанные для изучения передаточной функции и синтеза ре- чи (Данн, 1950; Стивенс, Фант и Касовский; Фант, 1960; Розен) и одна схема для моделирования подгортанной систе- мы (ван ден Берг, 1960). Другим исключительно эффективным методом анализа мно- готрубных моделей голосового тракта является применение циф- ровой вычислительной машины (ЦВМ), позволяющей произво- дить расчеты моделей из 20 или 30 секций. Для вычисления передаточных функций и полюсов в многотрубных моделях на ЦВМ применялись две программы (Фант, 1960; Мэтьюс и Уол- кер •— Mathews and WalKer). Другой подход состоял в описа- нии характеристик секций посредством коэффициентов отра- жения в точках их сочленения (Келли и Лохбаум — Kelly and Lochbaum). Последний метод моделирования также дает ре- зультат, который после преобразования цифра — аналог мо- жет служить формой представления речевого сигнала. Поэтому этот метод можно эффективно использовать и для синтеза ре- чи. Как аналоговое, так и цифровое представления голосового тракта будут рассмотрены ниже при обсуждении вопросов, свя- занных с синтезом речи.
УСТРОЙСТВО УХА 103 3.8. Применение основных свойств речи и слуха в синтетической телефонии В предыдущих разделах были изложены основные принципы акустической теории речевого аппарата. Выведенные соотноше- ния не только составляют основу для сжатого описания физи- ческих принципов работы источника речевых сигналов, но и очень много дают для построения эффективной системы связи. Они указывают возможность других способов кодирования ре- чевой информации в отличие от обычного электроакустическо- го преобразования. В частности, соотношения, которыми опреде- ляются характеристики возбуждения и резонансные свойства тракта, дают основания для разработок узлов системы синте- тической телефонии. То же самое можно сказать и по поводу описания речевого тракта посредством артикуляционных пара- метров. В обоих случаях отражаются ограничения, присущие процессу речеобразования. До сих пор, однако, свойства слуха и ограничения, прису- щие слуховому анализатору, не рассматривались. Этим вопро- сам посвящена следующая глава. IV. УХО И СЛУХ Конечным приемником информации в канале речевой связи обычно яв- ляется человек. Способность человека к, восприятию и определяет точность, с какой следует обрабатывать и передавать речевые данные. Эта способ- ность, по существу, задает критерий точности при приеме и фактически опре- деляет пропускную способность канала, необходимую для передачи речевых сообщений. Вот почему нужно исследовать основные механизмы слуха и по- пытаться установить возможности и границы человеческого восприятия. Как уже указывалось, речевая йнформация, создаваемая диктором, про- ходящая через среду распространения и поступающая к слушателю, кодиру- ется в несколько этапов: на передающей стороне под действием, мускульных усилий, управляющих речевым аппаратом, т. е. физической формой тракта и характеристиками его возбуждения; формируются акустические волны; на приемной стороне информация представляется акустико-механическими дви- жениями слухового преобразования «ли в виде электрических импульсов по- ступает по слуховому нерву в мозг. Характеристики кодирования на этих этапах представляют интерес при построении систем связи. 4.1. Устройство уха 4.1.1. Общая схема Наши знания акустико-механических процессов в перифери- ческом отделе слухового анализатора достаточно полны. Основ- ным источником этих знаний являются эксперименты Бекеши
104 УХО И СЛУХ (G. von Вёкёзу), отмеченные Нобелевской премией в 1961 г. Од- нако сведений о том, как механические колебания преобразуют- ся нервной системой во внутреннем ухе, имеется сравнительно мало. Еще меньше известно о передаче нервной информации в мозг и о конечных механизмах восприятия. Несмотря на эти трудности, некоторые аспекты слухового восприятия поддаются количественной оценке. Можно, напри- мер, наблюдать и измерять отклики соответствующих органов на определенные звуковые воздействия, получая, таким обра- зом, данные, необходимые для построения систем речевой свя- зи. В некоторых случаях можно установить четкую связь меж- ду реакциями, определяемыми восприятием, и физиологически- ми процессами, происходящими в периферической части слу- ховой системы. В настоящей главе предлагаются общепринятые представления о физиологии уха и психоакустических явлениях, а также о степени их взаимосвязи. Первичный акустический преобразователь, используемый че- ловеком, схематически показан на рис. 4.1. Акустико-механиче- ские компоненты этого органа обычно разделяются на три об- ласти: наружное, среднее и внутреннее ухо. Рис. 4.1. Схема уха человека. Показаны области наруж- ного, среднего н внутреннего уха. Рисунок выполнен без соблюдения масштаба. Для наглядности структуры внут- реннего н среднего уха увеличены: 1— ушная раковина, 2—слуховой проход, 3, 4, 5 — слуховые кос- точки — соответственно стремечко, наковальня, молоточек, 6 — на- ружное ухо. 7 — среднее ухо, 8 — внутреннее ухо, 9 — вестибуляр- ный аппарат с полуокружными каналами. 10— вестибулярный нерв, // — слуховой нерв, 12 — улитка, 13 — полость носа, 14 — евстахие- ва труба, 15 — круглое окно, 16 — овальное окно, 17 — барабанная перепонка
УСТРОЙСТВО УХА 105 4.1.2. Наружное ухо Обычно термином ухо обозначают ушную раковину, которая окружает вход в слуховой проход. Главное назначение ушной раковины человека состоит в защите слухового прохода, хотя ее характеристики направленности на высоких частотах слухо- вого диапазона, вероятно, также облегчают и локализацию ис- точников звука (у некоторых животных акустические свойства направленности ушной раковины используются более полно). Слуховой проход человека имеет длину около 2,7 см, диа- метр— около 0,7 см, объем —около 1 см3-, форма поперечного сечения не постоянна и изменяется от овальной до круглой с площадью от 0,3 до 0,5 см2 (Бекеши и Розенблит - Bekesy and Rosenblith; Девис — Davis, 1951). Слуховой проход заканчива- ется тонкой мембраной, называемой барабанной перепонкой. Эта мембрана представляет собой относительно жесткий конус, на- правленный внутрь, с углом у вершины около 135°. Поверхность мембраны — около 0,8 см2. При грубой аппроксимации слуховой проход можно представить как однородную трубу — открытую на одном конце и закрытую на другом. На резонансных частотах вдоль трубы укладывается нечетное число четвертей длины вол- ны. Таким образом, первый резонанс приходится на частоту — — с/4 (2,7)—3000 гц. Можно полагать, что этот резонанс повы- шает чувствительность слуха в данном диапазоне частот. Дей- ствительно, измерения показывают, что вследствие резонанса звуковое давление у барабанной перепонки повышается на 5— 10 дб по сравнению с давлением у входа в слуховой проход (Ви- нер и Росс — Wiener and Ross). 4.1.3. Среднее ухо За барабанной перепонкой находится заполненная воздухом полость среднего уха, содержащая слуховые косточки: молото- чек, наковальню, стремечко. Основное назначение слуховых ко- сточек заключается в преобразовании импеданса цепи, начи- нающейся у воздушной среды наружного уха и заканчивающей- ся у жидкой среды внутреннего уха1). К барабанной перепон- ке прикреплен молоточек. Молоточек соприкасается с нако- вальней, которая, в свою очередь, при помощи маленькой связ- ки соединяется со стремечком. Подножная пластинка стремеч- ’) Трансформация импеданса при преобразовании наружного звукового давления в смещение объема жидкости во внутреннем ухе является весьма важной функцией среднего уха (см. раздел 4.1.4).
106 УХО И СЛУХ ка расположена в отверстии, называемом овальным окном, в котором она удерживается с помощью круговой связки. Оваль- ное окно служит входом во внутреннее ухо. Звуковая волна проходит через наружное ухо и слуховой проход, вызывая колебание барабанной перепонки. Это коле- бание через три слуховые косточки передается во внутреннее ухо. Акустико-механический импеданс внутреннего уха намно- го превышает импеданс воздуха, поэтому для эффективной пе- редачи энергии звука требуется преобразование (повышение) импеданса. Эту задачу выполняют слуховые косточки. Во-пер- вых, эффект рычага обеспечивает увеличение силы при пере- даче от молоточка к стремечку в 1,3 раза (Бекеши, 1960). Во-вторых, эффективная поверхность барабанной перепон- ки значительно больше эффективной поверхности стремечка, что также приводит к повышению давления, приложенного к стремечку. Бекеши измерил коэффициент трансформации дав- ления и установил, что он равен примерно 15:1. Среднее ухо выполняет еще одну важную функцию, а имен- но защищает от громких звуков более нежное внутреннее ухо. Обычно считают’ что функцию защиты осуществляют две мыш- цы, связанные с барабанной перепонкой, причем особую роль иг- рает мышца натяжения барабанной перепонки, соединяющая центр барабанной перепонки со внутренней областью головы. Есть предположения, что рефлекторные сокращения этой мыш- цы ослабляют амплитуду колебаний барабанной перепонки. Однако Бекеши отмечает, что сокращения этой мышцы, а также изменения статического давления в слуховом проходе лишь в малой степени уменьшают амплитуду колебаний барабанной перепонки. Следовательно, сокращения мышцы могут лишь в незначительной степени защитить внутреннее ухо от звуковых давлений большого динамического диапазона. Этот факт мож- но установить посредством измерений акустического импедан- са у барабанной. перепонки. Тщательно изучая колебания слуховых косточек, Бекеши ус- тановил, что при звуках низкой и средней интенсивности стре- мечко совершает почти вращательное движение вокруг оси, про- ходящей через разомкнутое «кольцо» стремечка. Это движение иллюстрируется рис. 4.2а. При интенсивности звука на уровне порога ощущения и выше движение стремечка принимает вра- щательный характер вокруг оси, проходящей продольно через «арку» стремечка, как это показано на рис. 4.26. В последнем случае- эффективное смещение объема оказывается малым вследствие того, что верхняя часть подножной пластинки стре- мечка продвигается вперед примерно на столько же, на сколь- ко нижняя часть отступает назад.
УСТРОЙСТВО УХА 107 С увеличением интенсивности звука сокращение мышц сред- него уха увеличивается. Таким образом предотвращается разъе- динение слуховых косточек, которое могло бы вызвать чрез- Рис. 4.2. Колебания слуховых косточек при интенсивности звука: й) ниже порога ощущения; б) выше порога ощущения (по Бекеши, 1960); 1—центр вращения, 2—наковальня, 3 — молоточек, 4 — стремечко, 5—бара- банная перепонка мерные искажения при высоких уровнях звука. Необходимость подобной защиты от искажений в диапазоне амплитуд от поро- га слышимости и почти до порога болевого ощущения с одно- временной защитой внутреннего уха от пагубных уровней ко- лебания является очевидно причиной сложности структуры среднего уха ’). Одной из важных характеристик среднего уха является ча- стотная характеристика, т. е. зависимость величины смещения основания стремечка от звукового давления на барабанную пе- репонку. Ряд исследователей пытались измерить или рассчитать эту характеристику (Бекеши, 1960; Звислоцкий — ZwislocKi, 1957. 1959, Мёллер — МОПег, 1961, 1962). Результаты оказались весьма различными, поскольку частотная характеристика зави- сит не только от жизненного тонуса человека, но и существенно изменяется от одного индивидуума к другому. Если жидкость внутреннего уха считать несжимаемой, а стенки улитки — жесткими, тогда величина смещения кругло- го окна должна быть такой же, как и у основания стремечка. ) Можно указать на трудности протезирования этого механического соч- ленения. При протезировании среднего уха обычно поврежденные пли боль- ные слуховые косточки обычно заменяются пластмассовой подпоркой, соеди- няющей барабанную перепонку с основанием стремечка. Защиту от искаже- ний и колебаний большой амплитуды в нормальном состоянии, обеспечивае- мую средним ухом, трудно осуществить в подобной конструкции.
108 УХО И СЛУХ На низких частотах движение стремечка определяется общей эластичностью барабанной перепонки, слуховых косточек и мембраны круглого окна. Вся система действует как пружи- на, причем смещения стремечка пропорциональны и находятся в фазе с давлением барабанной перепонки. На частотах между 1000 и 3000 гц начинает сказываться реактивное сопротивление системы, обусловленное наличием массы; таким образом, по ме- ре увеличения частоты факторы, определяющие режим колеба- ния, сменяются в такой последовательности: жесткость, вяз- кость, инерционность (масса). При фиксированном звуковом давлении на барабанную перепонку с увеличением частоты сме- щения стремечка начинают уменьшаться по амплитуде и от- ставать по фазе. " Бекеши, (1960) выполнил ряд измерений передаточной функции среднего уха, непосредственно наблюдая величи- ну смещения круглого окна. Свойства передаточной функции можно также определить на основании знаний о строении сред- него уха, входном механическом импедансе внутреннего уха и Частота,гц Частота,гц Рис. 4.3. Данные о передаточной функции среднего уха; эффективное смещение стремечка при постоянном звуковом давлении у барабанной перепонки: а) Бекеши, 1960 (первое исследование); б) Бекеши, 1960 (второе ис- следование); в) данные измерений на электрической аналоговой схеме, по Звислоикому (1959); г) данные измерений на электрической анало- говой схеме по Мёллеру (196,1)
УСТРОЙСТВО УХА 109 акустическом импедансе барабанной перепонки. Этот подход ис- пользован в работах Звислоцкого (1957, 1959) и Мёллера (1961) для создания схемы — аналога среднего уха. Все эти резуль- таты, согласуясь в общих чертах, свидетельствуют о значитель- ном разбросе характеристик передаточной функции. Для срав- нения на рис. 4.3а-г показаны передаточные функции среднего уха, определенные несколькими различными способами. При использовании данных, представленных на рис. 4.36, Бе- кеши установил, что критическая частота, на которой начинает- ся спад частотной характеристики среднего уха, лежит около 800 гц. По данным, представленным на рис. 4.3щ эта частота, очевидно, выше и находится около 3000 гц. По результатам Зви- слоцкого (рис. 4.3в) эта частота лежит около 1500 гц, а по ре- зультатам Мёллера — около 1000 гц (рис. 4.3г). Совпадает лишь общий вывод о том, что передаточная функция среднего уха имеет характеристики фильтра нижних частот. Эффектив- ная частота среза и крутизна ската, как видно, существенно от- личаются. 4.1.4. Внутреннее ухо Внутреннее ухо (см. рис. 4.1) состоит из улитки (в нормаль- ном состоянии свернутой в плоскую спираль с двумя с полови- ной оборотами и напоминающей раковину улитки), вестибуляр- ного аппарата и окончаний слухового нерва. В улитке проис- ходит преобразование механических процессов в нервные. Ком- поненты вестибулярного аппарата (полукружные каналы, ме- шочек и маточка) служат для ориентации в пространстве и, по- видимому, не используются при анализе слуховых колебаний. Если улитку развернуть и вытянуть, она будет иметь вид, схематически показанный на рис. 4.4. Полость улитки запол- Рис. 4.4. Упрощенная схема развернутой улитки: 1— стремечко, 2—овальное окно, 3— преддверная лестница, 4 — геликотрема, 5 — перегородка улитки, б —барабанная лест- ница, 7 — круглое окно йена бесцветной жидкостью (перилимфой), вязкость которой примерно в два раза больше вязкости воды, а удельный вес примерно равен 1,03. Длина канала в спиральной раковине
110 УХО И СЛУХ составляет примерно 35 мм. Площадь поперечного сечения у стремечка составляет приблизительно 4 мм2, она уменьшается примерно до 1 мм2 у противоположного тонкого конца (гелико- тремы). Полость улитки вдоль почти всей ее длины разделена пере- городкой. Одна половина, включающая стремечко, называется преддверной лестницей, другая половина — барабанной лест- ницей. Внутри перегородки улитки имеется канал, называемый улитковым ходом. С одной стороны улитковый ход ограничен костистым выступом со студенистой мембраной, называемой базилярной мембраной, с другой стороны — мембраной, извест- ной как мембрана Рейснера. Перегородка заполнена особой жидкостью — эндолимфой. Базиллярная мембрана и костный выступ на 1—2 мм не доходят до концов каналов, поэтому ка- налы сообщаются у геликотремы. Площадь соединяющего про- хода составляет около 0,3—0,4 мм2 (Бекеши и Розенблит). Ба- зилярная мембрана имеет длину около 32 мм, ширину у вер- шины около 0,5 мм, к основанию (у стремечка) мембрана су- жается до 0,05 мм (Девис, 1951). Внутреннее ухо связано со средним ухом подножной пла- стинкой стремечка. Подножная пластинка поддерживается кру- говой связкой и располагается в овальном окне (площадь око- ло 3 ми2). При вибрации стремечко действует как поршень и производит смещение объема жидкости улитки. Улитка пред- ставляет собой жесткое образование, а жидкость улитки несжи- маема, поэтому необходим выход для жидкости, вытесняемой движением стремечка внутрь. Избыток жидкости выходит че- рез круглое окно, покрытое упругой мембраной (около 2 мм2). Очень медленные колебания стремечка (например, с частотой менее 20 гц) вызывают переливания жидкости из преддверной лестницы в барабанную и обратно через отверстие у гелико- тремы. Колебания более высокой частоты передаются через мягкую перегородку улитки, причем место передачи зависит от частоты звукового воздействия. Схематичное изображение поперечного сечения улитки с пе- регородкой дано на рис. 4.5. Главным элементом, определяю- щим основные функциональные динамические свойства перего- родки, является базилярная мембрана, на которой покоится ор- ган Корти. Наряду с несколькими типами поддерживающих клеток орган Корти содержит около 30 000 чувствительных кле- ток, к которым подходят окончания слухового нерва. Базиляр- ная мембрана у основания уже и значительно жестче и тонь- ше, чем у вершины, где она более податлива и массив- на. Поэтому резонансные свойства базилярной мембраны не- прерывно изменяются вдоль ее длины. На низких частотах ба-
УСТРОЙСТВО УХА 111 зилярная мембрана обычно колеблется синфазно с мембраной Рейснера. Современные знания акустико-механических свойств бази- лярной мембраны основываются почти исключительно на ре- Рис. 4.5. Схематическое изображение поперечного сечения канала улитки: / — кость, 2 —лимб, 3 — преддверная лестница, 4 — мембрана Рейснера, 5 — внутренние волосковые клетки, 6 —сосудистая полоска, 7 — улитковый ход, 8 — эндолимфа, 9 — покровная мембрана, 10 — клетки Хеисеиа, // — клет- ки Клаудиуса, 12 — спиральная связка, 13 — наружные волосковые клетки, 14 — базилярная мембрана, 15 — дуга Корти, 16— перилимфа. 17 — внутренняя спиральная вырезка, 18 — миелиновая оболочка, 19 — спиральный гаиглий, 20 — спиральная артерия (Девис, 1957) зультатах исследований Бекеши. Проводя опыты на физиоло- гических препаратах, Бекеши вызывал гармонические колеба- ния основания стремечка и измерял амплитуды и фазы сме- щений мембраны вдоль улитки. Полученные в этих экспери- ментах механические характеристики базилярной мембраны приведены на рис. 4.6. Амплитудная и фазовая характеристики для некоторой за- данной точки мембраны весьма схожи с соответствующими ха- рактеристиками полосового фильтра, обладающего относитель- но широкой полосой пропускания. Частотные характеристики в различных точках мембраны близки к частотным характеристи- кам контуров с приблизительно одинаковой добротностью. Вследствие этого постоянства относительной полосы пропуска- ния разрешающая способность по частоте оказывается наилуч-
112 УХО И СЛУХ шей у низкочастотного конца мембраны, расположенного у вер- шины, а наилучшая разрешающая способность по времени — у высокочастотного конца, расположенного у основания улитки. Все частотные характеристики, изображенные на рис. 4.6, нор- мированы таким образом, что максимальные значения равны единице. Однако выполненные Бекеши измерения свидетельст- ву’ 1,0- 1||^- Примерное расстояние от стремечка,мм 30 28 26 23 18 14 О 20 SO 100 200 500 1000 2000 5000 Частотами б) Расстояние от стремечка,нм Рнс. 4.6 Амплитудная н фазовая характе- ристики смещений базилярной мембраны (стремечко возбуждалось синусоидальным колебанием; амплитуда смещений стремеч- ка постоянна, Бекеши, 1960): а) частотные характеристики различных точек базилярной мембраны; б) частотная и фазовая характеристики точки мембраны с резонансной частотой 150 гц; в) зави- симость амплитуды и фазы смещений мембраны от расстояния вдоль мембраны (параметром служит частота) 5 S Я S вуют, что максимумы ча- стотных характеристик, полученные для резони- рующих точек мембраны, увеличиваются с увеличе- нием частоты примерно до 1000 гц со скоростью около 5 дб на октаву; на более высоких часто- тах амплитуды указан- ных .максимумов пример- но одинаковы. Линейным приращениям координа- ты базилярной мембра- ны соответствуют прира- щения резонансной часто- ты почти по логарифми- ческому закону. Такая закономерность соблюда- ется, по крайней мере, для частот ниже 1000 гц. Возбуждение, созда- ваемое у стремечка, рас- пространяется вдоль мем- браны в форме бегущей волны смещения. Изме- нение распределенных па- раметров вдоль длины мембраны определяется конусообразной конструк- цией улитки, вследствие этого от геликотремы поч- ти не происходит отра- жений и не создается стоячих волн. Мембрана является дисперсионной средой передачи. По ме- ре приближения бегущей волны к геликтреме ее
УСТРОЙСТВО УХА 113 высокочастотные компоненты постепенно ослабляются, а груп- повая задержка увеличивается. 4.1.5. Преобразование механических колебаний в нервное возбуждение Механические движения мембраны превращаются в нервное возбуждение в органе Корти. Орган Корти, представленный в увеличенном виде на рис. 4.7, состоит из большого числа кле- ток, среди которых имеются и волосковые клетки. Волоски, вы- ходящие из этих чувствительных клеток, проникают сквозь сет- Рнс. 4.7. Поперечное сечение органа Корти: 1 — пограничные клетки, 2 — лимб, 3 — внутренние волосковые клетки, 4 — по- кровная мембрана. 5 — нервные волокна, б—наружные волосковые клетки, 7 — сетчатая пластинка, 8 — наружный туннель, 9 — клетки Хеисена, 10 — клет- ки Клаудиуса, 11— базилярная мембрана, 12 — внутренний туннель (Корти), 13 — клетки Дейтернса, 14 — кровеносный сосуд, 15 — столбы органа Корти, 16 — базальные клетки, /7 — нервные клетки, входящие в эпителий органа Корти (Девис, 1951) чатую пластинку и соприкасаются с третьей мембраной пере- городки улитки — с покровной мембраной. Одна группа клеток располагается в виде отдельного ряда, проходящего вдоль ба- зилярной мембраны в направлении оси спирали улитки (слева от дуги Корти), и называется внутренними волосковыми клет- ками. Другая группа располагается тремя или четырьмя ряда- ми, радиально расходящимися от центра спирали. Это — на- ружные волосковые клетки. Число внутренних волосковых кле- ток составляет около 5000, число наружных волосковых кле- ток — около 25 000.
114 УХО И СЛУХ Покровная и базилярная мембраны прикреплены своими внутренними кромками к различным точкам, удаленным друг от друга на некоторое расстояние. Деформация базилярной мембраны вызывает движение покровной мембраны относитель- но сетчатой пластинки, в результате чего создается давление на волоски, проходящие между указанными образованиями. Каким-то, неизвестным в настоящее время образом, изгиб волосков вызывает электрические разряды в улиточной части VIII нерва1). Электрофизиологические эксперименты свидетельствуют, что- наружные и внутренние волосковые клетки органа Корти раз- личаются по чувствительности к механическим воздействиям (Бекеши — Вёкёэу, 1953; Дэвис—Davis, 1958). Наружные во- лосковые клетки, по-видимому, чувствительны только к изги- бам, направленным перпендикулярно продольной оси мембра- ны. Более того, лишь направленные наружу от дуги Корти из- гибы волосков вызывают электрический потенциал в улитко- вом ходе, способствующий возбуждению окончаний слухового нерва. Эти изгибы получаются при движении базилярной мем- браны вверх, т. е. в направлении сближения с покровной мем- браной. С другой стороны, согласно Бекеши и Дэвису, внутренние во- лосковые клетки, расположенные между дугой Корти и осью спирали улитки, чувствительны к напряжениям, направленным параллельно продольной оси мембраны. При этом потенциал,, способствующий возбуждению нерва, вызывает в улитковом ходе лишь напряжения, направленные в сторону вершины улит- ки. В любой заданной точке мембраны внутренние волосковые клетки чувствительны, главным образом, к продольному гради- енту смещения мембраны, т. е. к производной от смещения по длине в продольном направлении. Далее, внутренние клетки возбуждаются лишь при том знаке указанного градиента, ко- торому соответствует наклон волосков к вершине улитки. По- рог возбуждения внутренних клеток оказывается заметно выше порога возбуждения наружных клеток. Каким образом меха- нические смещения базилярной мембраны преобразуются в по- тенциалы чувствительных клеток и в электрические импульсы слухового нерва, неизвестно. Чувствительные клетки уха соединены с мозгом пучком нервных клеток, или нейронов, образующим слуховой нерв. Слу- ховой нерв проходит вдоль оси спирали улитки, собирая на пу- ти от вершины к основанию все большее число нервных воло- *) Этот иерв также используется для связи вестибулярного аппарата с центральной нервной системой (см. рис. 4.1.).
устройство уха 115 кон. Общее число нейронов в слуховом нерве доходит, пример- но, до 30 000. По-видимому, нейроны имеют только два состоя- ния: активное и заторможенное. При возбуждении входным электрическим сигналом, превышающим некоторый порог, ней- роны генерируют стандартный электрический импульс длитель- ностью около 1 мсек, после чего наступает период нечувстви- тельности, длящийся от 1 до 3 мсек. Следовательно, возбуж- дение нейронов может приводить к появлению разрядов с мак- симальной частотой до 300—1000 гц. Связи между клетками нерва и волосковыми клетками ор- гана Корти имеют сложную структуру. Каждая внутренняя во- лосковая клетка иннервируется одним или двумя нервными во- локнами, а каждое волокно соединяется с одной или с двумя во- лосковыми клетками. Иннервация наружных клеток еще слож- ней. Большинство нервных волокон соединяется с целым рядом наружных клеток, а каждая наружная клетка обычно соединена с несколькими нервными волокнами (Дэвис—Davis, 1957). Функ- циональное назначение этой сложной системы многократных соединений в настоящее время точно не известно. Высказано предположение, что эта система способствует расширению ди- намического диапазона слуха (ван Бергейк — van BergeijK). Волокна слухового нерва свиты вокруг сердцевины наподо- бие прядей веревки. Сам нерв короткий (около 5 мм), он вхо- дит в нижнюю часть ствола мозга (Дэвис, 1957). Входящие во- локна разделяются, образующиеся ветви направляются к дор- сальному и вентральному слуховым ядрам. Здесь находятся нервные синапсы (связки, соединяющие нервные клетки). Во- локна слухового нерва и клетки слухового ядра, к которым присоединяются волокна, в основном сохраняют упорядоченное расположение соответственно положению чувствительных кле- ток на базилярной мембране. Эта общая тенденция к упорядо- ченности, видимо, сохраняется во всей слуховой системе. Относительно мало известно о механизмах преобразования смещения базилярной мембраны в нервную активность. Еще меньше известно о способе кодирования информации нервными импульсами и о том, каким образом в мозге возникает слуховое ощущение. Тем не менее ясно, что локальная деформация мем- браны (достаточной амплитуды), приводящая к изгибам волос- ков в данной области, вызывает генерацию чувствительными клетками потенциала в улитковом ходе, в результате чего соз- даются благоприятные условия для возбуждения находящихся поблизости нейронов. Чем больше амплитуда смещений, тем больше число возбужденных нейронов. Периодическое смеще- ние, происходящее с достаточно низкой частотой, вызывает син- хронное с воздействием возбуждение нейронов. Следовательно,
116 УХО И СЛУХ частоты тонов меньше 1000 гц могут быть представлены часто- тами групп нервных разрядов. Это может быть одним из ме- тодов кодирования для субъективных оценок высоты звука. Нейроны, отходящие от различных областей частотноизбира- тельной базилярной мембраны, сохраняют упорядоченность и в слуховом нерве, и это создает другую возможность представле- ния информации о высоте звука, а именно по месту максималь- ного возбуждения на мембране. 4.1.6. Проводящие пути в слуховой нервной системе Восходящие нервные пути для одного уха показаны на рис. 4.8. Около 30 000 индивидуальных нейронов, начинающих- ся в органе Корти, иннервируют порознь или группами пример- но такое же количество чувствительных (волосковых) клеток (обычно внутренние волосковые клетки обслуживаются только одним или двумя нейронами, а наружные клетки — нескольки- ми). Ветвящиеся отростки — дендриты — первичных нейронов соприкасаются с чувствительными клетками. Тела клеток пер- вичных нейронов находятся в спиральном ганглии, а их аксо- ны через слуховой нерв (длина около 5 мм) проходят в дор- сальное и вентральное слуховые ядра продолговатого мозга. Здесь расположены первые синапсы слухового* пути. От слуховых ядер берут начало вторичные нейроны, кото- рые доходят до верхних олив. Некоторые нейроны идут по од- ной стороне, другие переходят на противоположную сторону. Часть нейронов восходит к внутреннему коленчатому телу; не- которые нейроны имеют промежуточные синапсы. Часть нейро- нов располагается в боковой петле и в нижних буграх четверо- холмия. Эти ядра находятся в среднем мозге, они связаны меж- ду собой вторым, меньшим, каналом. Таким образом, сигналы, воспринимаемые двумя ушами, могут взаимодействовать как на уровне продолговатого мозга, так и на уровне среднего моз- га. Последней ступенью слухового пути является слуховая об- ласть коры мозга. Не вполне ясно, каким образом звуковое воз- действие представляется на различных рассмотренных уровнях в виде нейроэлектрических процессов; в настоящее время зна- чительные усилия исследователей направлены на изучение этих процессов. Из электрических явлений улитки наиболее известен микро- фонный эффект улитки. Электрический потенциал можно отве- сти с помощью электрода, помещенного около круглого окна или введенного в один из каналов улитки. Оказывается, что этот потенциал довольно точно воспроизводит форму воздей-
УСТРОЙСТВО УХА 117 Рис. 4.8. Схематическое изображение восходящих путей слуховой системы (упрощенный чертеж Неттера): / — уровень продолговатого мозга, 2— уровень среднего мозга,. 3—слуховая область коры, 4—внутреннее коленчатое тело, 5 — нижнне бугры четверохолмия, 6 — ядро боковой петлн, / — бо- ковая петля. 8 — дорсальное слуховое ядро, 9 — веревчатое тело, 10— вентральное слуховое ядро, 11— покровная мембрана, 12 — на- ружные волосковые клетки, 13 — клетки-фаланги, 14 — наружные столбы, 15 — внутренние столбы, 16—базилярная мембрана. /7 — спиральный ганглнй, 13 — внутренние волосковые клетки, 19—слуховой нерв, 26 — трапециевидное тело, 21 — верхняя олива
118 УХО И СЛУХ рядка, на рис. 4.У изооражена ЯР Ц---------------5мсек------------------ Рис. 4.9. Электрические потенциалы в области круглого окна, возникаю- щие в ответ на звуковой щелчок. СМ обозначает наиболее выражен- ную часть микрофонного потенциа- .ла улитки и характеризуется мини- мальной задержкой во времени. АР обозначает компонент А, потенциа- ла, создаваемого нервом (Кьянг и Пик) ствующего на ухо звукового колебания1)- Микрофонный эф- фект возникает, вероятно, как результат электрохимической деятельности волосковых клеток в качестве «преобразователя» при их изгибе. С помощью электрода, расположенного около круглого ок- на, можно также обнаружить потенциал суммарной нервной деятельности. Этот потенциал является, очевидно, интеграль- ным эффектом возбуждения множества нейронов первого не- типичная запись потенциала, снимаемого с помощью элект- рода из области круглого ок- на слуховой системы кошки при воздействии короткого аку- стического щелчка (Кьянг и Пик — Kiang and Peake). Короткие повторяющиеся посылки шума оказались так- же полезными стимулами для изучения суммарного потенци- ала нервной деятельности. Од- но из преимуществ подобного стимула состоит в возможно- сти исключения путем усред- нения микрофонного эффекта улитки. Поскольку микрофон- ный потенциал является, по существу, аналоговым пред- ставлением воздействия, его можно исключить, усредняя большое число реакций на шумовые посылки, среднее значение которых равно нулю. Но временная огибающая посылки выделяется и в определенной фазе вызывает потенциал нервной деятельности. Характерный результат усреднения откликов на шумовые посылки длитель- ности 0,1 мсек для различных частот повторения приведен на рис. 4.10 (Пик, Гольдштейн и Кьянг — Peake, Goldstein and Kiang). Уровень звука устанавливается на 35 дб выше уровня, необходимого для визуального обнаружения пика N\. В нап- равлении ( + //) откладывается отрицательный (относительно расположенного на голове электрода) потенциал области круг- лого окна. Из рисунка видно, что для частот выше 1000 гц вы- сота импульса потенциала нервной деятельности уменьшается. *) Известен также и обратный «телефонный» эффект. Если к ушам прн- .ложить электроды, подключенные к источнику электрических колебаний, то .возникает слуховое ощущение (прим, перев.).
УСТРОЙСТВО УХА 119- Установлено, что амплитуда суммарного потенциала нерв- ной деятельности зависит как от частоты следования посылок,, так и от их уровня (Пик, Кьянг и Гольдштейн). Усредненные значения размаха амплитуд для пика У], отражающие эту за- висимость, приведены на рис. 4.11. Уровень —85 дб соот- ветствует уровню визуального обнаружения. Уменьшение ам- плитуды пика N} при увеличе- нии частоты посылок на сла- бых сигналах менее заметно, чем на сильных. Синхронные реакции можно наблюдать примерно до частоты 1000 ?ц. Маскировка широкополосным непрерывным шумом сказыва- ется на общей реакции нерва подобно уменьшению уровня сигнала при отсутствии маски- ровки, т. е. при увеличении уровня маскирующего шума синхронные реакции могут на- блюдаться при более низких частотах посылок. С помощью микроэлектро- дов изучали н продолжают изучать электрическую актив- ность отдельных нейронов раз- личных уровней слуховой нерв- ной системы. Использование различной методики экспери- мента и различных способов обезболивания иногда приво- ЮООгц-г^-/~^-г>^гх—г>< N=400 2000<ц fOV\A/V\T\fVV\ n=320(t L---------5меек----J Рис. 4.10. Усредненные инте- гральные реакции слухового нер- ва на шумовые посылки длитель- ностью 0,1 мсек для различных частот повторения. N—число ус- редненных реакций. Интенсив- ность воздействия на 35 дб вы- ше порога визуального обнару- жения (Пик, Гольдштейн и Кианг) дит к получению противоречи- вых результатов, но по мере развития исследований гмы все лучше понимаем строение нервной системы. Согласно одному из исследований, проведенному на кошке, частота возбуждений единичного нейрона монотонно возрастает при увеличении интенсивности воздействия на всех уровнях нервной системы, начиная с периферии и кончая нейронами вну- треннего коленчатого тела (Кацуки — KatsuKi). Это положение иллюстрируется рис. 4.12 и 4.13. В качестве стимулов исполь- зовались гармонические колебания. На рис. 4.12 показаны им- пульсы, создаваемые одним из нейронов трапециевидного тела<
120 УХО И СЛУХ слуховой системы кошки при воздействии посылок тона часто- ты 9000 гц при четырех различных уровнях. Длительность воз- буждаемых импульсов в среднем равна около 1 мсек, а частота их следования увеличивается с увеличением интенсивности звука. Рис. 4.11. Зависимость усредненных и нормированных значений размаха интегрального потенциала действия слухового нерва от частоты следования шумовых по- сылок длительностью 0,1 мсек. Параметром служит ин- тенсивность посылок (Пик, Кьянг ,и Гольдштейн) На рис. 4.13 показаны монотонные зависимости между ча- стотой следования возбуждаемых импульсов и интенсивностью возбуждения для четырех различных уровней нервной системы. Рис. 4.12. Реакции одиночного нейрона, распо- ложенного в трапециевидном теле слуховой си- стемы кошки. В качестве раздражителя исполь- зовались тональные посылки частотой 9000 гц. Относительные интенсивности раздражителей указаны на рисунке (Кацуки) Частота импульсов единичного нейрона первого порядка (кри- вой 1 представлена зависимость для слухового нерва) достигает
УСТРОЙСТВО УХА 121 максимума вблизи некоторой, так называемой характеристиче- ской частоты данного нейрона (в данном случае 830 гц). Это означает, что при гармоническом воздействии нейрон первого порядка генерирует са- мое большее один им- пульс на период воздей- ствующего сигнала. Час- тоты возбуждений на более высоких уровнях нервной системы оказы- ваются существенно ни- же соответствующих ха- рактерных частот. Другие исследователи использовали короткие импульсные воздействия (Кьянг, Уотенейбл, То- мас и Кларк — Kiang, Watenable, Thomas and Рис. 4.13. Зависимость частоты разрядов одиночных нейронов четырех различных уровней слуховой системы кошки от ин- тенсивности звука. Характерные частоты отдельных нейронов имели следующие значения: слуховой нерв—830 гц (кривая 7); тра- пециевидное тело — 9000 гц (кривая 2); кора—3500 гц (кривая 3); коленчатое тело—6000 гц (кривая 4) (Кацуки) периоду резонансной частоты соот- Clark). При увеличении интенсивности воздейст- вия наблюдались перио- дически повторяющиеся возбуждения нейронов первого порядка. Период повторения оказался рав- ным периоду частоты воздействия, «наилуч- шим» образом возбужда- ющей данный нейрон, т. е. ветствующего данному нейрону места на базилярной мембране. Записывая потенциалы отдельных нейронов первого поряд- ка, получаемые с помощью микроэлектродов, часто можно обна- ружить значительную спонтанную активность. На более высо- ких уровнях нервной системы и в коре головного мозга спон- танная активность, по-видимому, меньше (Кацуки). Специальному исследованию подвергалась и другая об- ласть — комплекс слухового нервного центра кошки (Розе, Га- ламбос и Хьюз — Rose, Galambos and Hughes). Доказано, что в главном подразделении слухового нервного центра имеет место упорядоченное в пространстве расположение частот. На рис. 4.14 приведено сагиттальное сечение левого слухового комплекса. Шкала частот указывает значение частоты, при котором нейрон, расположенный против данной отметки шкалы, обладает наи- большей чувствительностью.
122 УХО И СЛУХ Упорядоченное в пространстве расположение частот, по-ви- димому, имеет место и на уровне коры, однако вопрос о степе- ни упорядоченности и протяженности подобной структуры яв- ляется спорным (см., например, Кацуки, Тунтури— Tunturi). Рис. 4.14. Сагиттальное сечение левого слухово- го комплекса кошки. Электрод прикладывался к точкам, расположенным немного выше отмечен- ной линии. Указаны характерные частоты нейро- нов, лежащих на отмеченной траектории (Розе, Галамбос и Хьюз) Установлено, что характеристика зависимости пороговой ам- плитуды тонального звука от частоты (т. е. резонансные кри- вые), измерение для отдельных нейронов на уровне слухового нервного центра при изображении их на плоскости интенсив- ность — частота имеют различную форму (Розе, Галамбос и Хьюз): некоторые характеристики оказываются широкополос- ными, другие узкополосными’). Однако все они напоминают механическую резонансную характеристику базилярной мем- браны. Так, высокочастотный скат резонансной кривой (или по- роговой амплитуды) круче низкочастотного. Характерные уз- кополосные и широкополосные резонансные кривые для отдель- ных элементов слухового нервного центра приведены соответ- ственно на рис. 4.15а и б. Если интенсивность тонов превышает пороговую не более чем на 60 дб, частотный диапазон, в кото- ром возбуждаются элементы как с узкополосными, так и с ши- рокополосными характеристиками, простирается вверх не боль- *) Исследования (Кьянг, Уотенейбл, Томас и Кларк), проведенные не- давно, подобных изменений не подтвердили.
МАТЕМАТИЧЕСКИЕ МОДЕЛИ УХА 123- ше чем на 0,3 октавы относительно резонансной частоты. Диа- пазон частот ниже резонансной частоты может охватывать ог 0,4 до 3,8 октавы для узкополосных нейронов и почти всю низкочас- тотную часть диапазо- на для широкополос- ных нейронов. Отдель- ные нейроны этого уровня обладают свой- ствами адаптации и торможения, причем эти свойства сильно за- висят от интенсив- ности. Предстоит серьезно исследовать механизм передачи нервного воз- буждения по синапсу. В местах соединений обычно происходит за- держка на время око- ло 1 мсек. Минималь- ное время запаздыва- ния реакции на уровне слухового нервного центра составляет 2—3 мсек, хотя измерялись интервалы задержек реакции до 6—8 мсек. На уровне коры вре- мя запаздывания ре- акции может изменять- ся от минимальных значений 6—8 мсек до максимальных значе- ний 20—30 мсек. а) Частота,кгц Рнс. 4.15. Частотные зависимости порогов, возбуждения отдельных нейронов в слухо- вом ядре кошки. Различные кривые пред- ставляют реакции различных нейронов: а) нейроны, возбуждаемые в узком диа- пазоне частот; б) нейроны, возбуждаемые <в широком диапазоне частот (Розе, Галам- бос и Хьюз) 4.2. Математические модели уха 4.2.1. Постановка задачи Выше подчеркивалось, что механизм слухового восприятия- в целом еще недостаточно изучен. Тем не менее современные знания физиологии уха, электрофизиологии нервных клеток и<
124 УХО И СЛУХ субъективного поведения аудитора при психоакустических ис- пытаниях позволяют установить связь между некоторыми функ- циями слуха и этими столь различными областями знаний. Ус- тановление подобных связей облегчается, если поведение удает- ся количественно оценить и аналитически предопределить. Пер- вым шагом в этом направлении было построение математиче- ской модели, описывающей смещение базилярной мембраны ^G(S)-Fx(S) PIS) №)*($) 1 Рис. 4.16. Схематическое изображение уха под действием произволь- ного звукового давления у барабанной перепонки (Фла- наган, 1962). На рис. 4.16 вверху по- казана упрощенная схема периферических органов слу- ха, положенная в основу математического моделиро- вания. На этой упрощенной схеме уха улитка показана развернутой; p(t) — давле- ние звука у барабанной пе- репонки, x(t)—эквивалент- ное линейное смещение ос- нования стремечка и yi(t)— линейное смещение бази- лярной мембраны в точке, расположенной на расстоя- нии I от стремечка. Целью исследования является установление приблизительной аналитической зависимости между указанны- ми величинами. Задачу удобно решать в два этапа. На первом этапе аппроксимируется передаточная функция среднего уха, т. е. устанавливается связь между x(t) и p(t). На втором этапе аппроксимируется передаточная функция системы на участке от стремечка до указанной точки I на мембране. Аппроксимирую- щие функции представлены в нижней части рис. 4.16 в виде ча- стотных преобразований G(s) и Fi(s) соответственно. Функции G(s) и Fi(s) должны выбираться в соответствии с имеющимися физиологическими данными. Если предполагать, что механическая система уха в интересующем нас диапазоне частот и амплитуд пассивна и линейна, то для аппроксимации физиологических данных можно использовать рациональные функции частоты со стабильными спектральными максимума- ми (полюса в левой полуплоскости). Кроме удобства расчетов, рациональные функции имеют дополнительное достоинство, со- стоящее в том, что при необходимости эти функции могут быть воспроизведены электрическими цепями с сосредоточенными
МАТЕМАТИЧЕСКИЕ МОДЕЛИ УХА 125 элементами. Так как модель устанавливает связь между вход- ным и выходным сигналами, т. е. описывает передаточные свой- ства системы, для расчета реакции в некоторой выбранной точ- ке мембраны можно не производить подробные расчеты для других точек. Таким образом, смещения yi(t) можно рассчитывать для произвольных фиксированных значений I. 4.2.2. Модель базилярной мембраны Функция Fi(s) рассчитывается по физиологическим данным Бекеши, представленным на рис. 4.6. Если нормировать кри- вые рис. 4.6 по резонансной частоте, можно установить, что все они имеют примерно одинаковую относительную ширину поло- сы пропускания. Кроме того, фазовая характеристика содер- жит составляющую, соответствующую простой задержке на время, обратно пропорциональное резонансной частоте. Это зна- чит, что низкочастотные точки мембраны (расположенные у вершины) возбуждаются с большей задержкой, чем высокоча- стотные точки (расположенные у основания). Более подробное обсуждение этих соотношений, а также представление приведен- ных выше данных в виде функциональной зависимости дано ранее (Фланаган, 1962, а), где рассматривались аппроксима- ции тремя различными выражениями Fi(s). В данной работе будет использована лишь первая аппроксимация, с помощью функции пятого порядка. При выборе достаточно сложной модели физиологические данные могут быть аппроксимированы, разумеется, с любой сте- пенью точности. Настоящая модель выбрана с учетом компро- мисса между требованиями удобства расчетов и адекватности представления физиологических данных. Одна из функций, до- статочно хорошо согласующаяся с результатами Бекеши, за- писывается следующим образом: —3rcS Fl(s) = c^l р+лМ Г-------!----T /К(4.1) ' 'р,+ 2000л/ V + flJ + где s = o+i® — комплексная частота; [Зг=2сс— угловая частота, для которой в точке, удаленной от стремечка на расстояние I, возникают колебания с максимальной амплитудой; Ci — дей- ствительная постоянная величина, задающая надлежащее зна- — Зтс S 40, чение смещения; е 1 — множитель, вводящий задержку на -Зл/4рг секунд, необходимую для согласования фазовой задерж- ки в модели с измеренной фазовой характеристикой уха чело-
126 УХО И СЛУХ века, этот множитель учитывает, главным образом, время рас- пространения колебания от стремечка до точки I мембраны; / 2000л|3; \о,8 \'-р"+2000л / ™ — амплитудный множитель, аппроксими- рующий изменения амплитуды колебаний на резонансной часто- те при изменении значений.резонансной частоты 0; согласно фи- зиологическим измерениям (Бекеши, 1943); ^/0; = 0-4-0,1 в зави- симости от желаемого соответствия фазовой характеристике. Рис. 4.17. Частотные характеристики базилярной мембраны: а) схема расположения полюсов и нулей аппроксимирующей функции (Фланаган, 1962, а); б) амплитудно-частотная и фазо-частотная характерис- таки модели базилярной мембраны Fi(s). Частота нормирована относитель- но частоты резонанса 0г Фазс^рад Таким образом, реакция мембраны в любой точке опреде- ляется полюсами и нулями рациональной функции, входящей в Fi(s) в виде сомножителя. Резонансные свойства мембраны примерно соответствуют резонансным свойствам контуров с по- стоянным Q (постоянная относительная ширина полосы пропу- скания). Следовательно, действительная и мнимая части кри- тических частот отличаются лишь постоянным множителем, а именно p;=2oc;. Значит, мнимая часть частоты полюса 0; с точ- ностью до постоянного множителя полностью описывает мо- дель и характеристики мембраны в точке, удаленной от стре- мечка на расстояние I. Схема расположения полюсов и нулей для данной модели показана на рис. 4.17а. Характеристика в вещественной области частот может быть получена путем подстановки s = i®. Относительные фазовая и амплитудная характеристики Fi№ для нормированной часто-
МАТЕМАТИЧЕСКИЕ МОДЕЛИ УХА 127 ты ^ = (о/Рг показаны на рис. 4.176. В соответствии с вышепри- веденными соотношениями F^Z.) одинакова (с точностью до постоянного множителя) для всех значений I. Обратное преобразование Лапласа выражения (4.1) дает смещение мембраны в ответ на импульсное смещение стремеч- ка. Выполнение обратного преобразования требует длинных ма- тематических расчетов, проделав которые, можно получить сле- дующее выражение для t ^-Т и е;/Рг=О,1: Рг«-г> М)= С1 Г ₽/+г |[°-033 + 0,360рг(/- Т) е" 2 X \ р; -j- zUUUJT ) I ₽z(f- T) Xsm$l(t — T) + [0,575 — 0,320 рг (t — DIe 2 X X COS рг (t — T) — 0,575“^(/“r> j = 0, (4.2) где согласно вышеизложенному задержка Т=3л/4рг. График отклика (4.2) приведен на рис. 4.18. Рис. 4.18. Реакция модели базилярной мембраны на им- пульс смещения стремечка 4.2.3. Передаточная функция среднего уха Чтобы вычислить передаточную функцию среднего уха, не- обходимо найти аналитическое выражение зависимости смеще- ния стремечка от заданного звукового давления у барабанной перепонки (см. рис. 4.16). Количественные психоакустические данные о работе среднего уха весьма скудны. Имеющиеся дан-
128 УХО И СЛУХ ные получены, главным образом, Бекеши и позднее Звислоцким и Мёллером. Эти результаты приведены на рис. 4.3. Получен- ные данные свидетельствуют о значительной изменчивости и не- определенности характеристик, в особенности критической ча- стоты (частоты среза) и затухания. Однако все исследования сводятся к тому, что передаточная функция среднего уха имеет свойства фильтра нижних частот. Результаты Бекеши получены путем физиологических измерений. Данные Звислоцкого и Мёл- лера получены методом электрических аналогий и основывают- ся на измерениях импеданса у барабанной перепонки, на зна- ниях конфигурации схемы среднего уха и некоторых значений параметров схемы. В первом приближении все данные согла- суются. Если воспользоваться приведенными на рис. 4.3 результата- ми Звислоцкого, то для них достаточно хорошая аппроксима- ция дается функцией третьего порядка: G (S) ---------£«------- , (4.3) (s + a)l(s+aP + &4 где Со — действительная положительная постоянная. [Постоян- ные множители выбираются таким образом, чтобы при объеди- нении данной функции с функцией Fi(s) получить правильное значение абсолютного смещения мембраны. Для удобства мож- но положить с0 = а(а2 + Ь2), так что задаваемый функцией G(s) коэффициент передачи на низких частотах окажется равным единице.] Если для частот полюсов G(s) принять соотношение 6 - 2а - 2-(1500) (4.4) сек то получим функцию, отмеченную точками на рис. 4.19. По ри- сунку можно судить о степени совпадения результатов расчета с данными Звислоцкого. Обратное преобразование выражения (4.3) характеризует смещения стремечка, возникающие под действием импульса дав- ления у барабанной перепонки. Пусть G(s) = Gi(s)G2(s), где GJs) = ; G2(s) = -----!. (4.5) ' s + а ' ’ (s+ay + tfi Обратные преобразования этих функций имеют вид: gi 0)1= с0 е~ ; g2 (0 = sin bt. (4.6)
МАТЕМАТИЧЕСКИЕ МОДЕЛИ УХА 129 Обратное преобразование функции G(s) равно свертке функций £1(0 и g2(t) £(0 = J £1(0 £2 a — ^)dx, о или ___bt_ e~at re 2 £(0= Со(1 - COSbt) = ----(1- COS W). (4.7) О о -10 - -15 - I -20- §.-.25 ^-55 'jJPss Л(- Г tU*: 5 Si II-W- g t ~45 - -50- 40 i % ° ft- Ы -240'^ § £ -wlhi -wT 60 100 200 600 1000 4000 10000 Частота, гц г - а у £ а Рис. 4.19. Аппроксимация передаточной функции сред- него уха. Сплошные кривые получены Звислоцким на электрической модели (см. рис. 4.Зе). Отмеченные на графике точки представляет значения амплитуды и фазы аппроксимирующей функции G(s) (Фламаган, 1962) В дальнейшем нам понадобится следующее выражение для про- изводной по времени от смещения стремечка: ы 2 £'(0 = ~^--------(2sin&i + cos bt—1). (4.8) Графики функций g(t) и g'(t) показаны на рис. 4.20. Из ри- сунка видно, что принятой передаточной функции среднего уха соответствует сильно демпфированная импульсная реакция. При использовании других данных, например приведенных на рис. 4.3 данных Мёллера, затухание получается несколько мень- 5—71
130 УХО И СЛУХ bt,pa3 шим; кроме того, эти данные с достаточной точностью мож- но аппроксимировать еще бо- лее простой функцией второго порядка. Для такой переда- точной функции импульсная реакция получилась бы с бо- лее выраженным колебатель- ным характером '). Рис. 4.20. Зависимости величины (а) и скорости (б) смещения стремечка от времени при воздействии импуль- са давления у барабанной перепонки 4.2.4. Эквивалентная передаточная функция среднего уха и базилярной мембраны Эквивалентную передаточную функцию и импульсную реак- цию моделей среднего уха и базилярной мембраны можно запи- сать в следующем виде: //г(5) = 6(5)Л(5) 1 М0 = £(0*Л(0 г Для описанной здесь модели Ft(s) эквивалентную импульсную реакцию проще всего получить путем нахождения обратного преобразования Hi(s) [для других моделей Fi(s) может ока- заться удобным рассчитать эквивалентную импульсную реакцию по формуле свертки во временной области]. Подробное вычис- ление обратного преобразования функции lii(s) сопряжено со сложными числовыми расчетами; нас интересует лишь конеч- ный результат. Если вычислить обратное преобразование, то можно получить следующий результат: ht (т) = А е~Ьт/2 + В e~bz/2 /cos b т— ~ sin b т) + С (е-Ьт/2 sin b т) + +D е~г,Ьх + Е (e~"r‘bz/2 sin т; Ь т) + F (у b т e~r‘bx/2 sin 6т) + -j- G(e— T'*r/2cosvj6т) + е—T,iT/2 cos т( 61) , для т^>0, (4.10) ') Методика моделирования не очень критична к конкретному Типу мо- делируемых данных. С появлением более полных физиологических измерений рациональную функцию можно будет изменить таким образом, чтобы онд соответствовала новым данным.
МАТЕМАТИЧЕСКИЕ МОДЕЛИ УХА 131 где x—(t—Т); T=3nl^i', x\ = ^ilb-, ф = 2аг; 6==2а; ег=О; и А, В, С, D, Е, F, G, Н — действительные числа, определяемые величи- нами Р; и b (подробнее см. Фланаган, 1962, а). Как видно, форма импульсной реакции зависит от парамет- 1 характерны для точек мембраны, врец<я,мсек Рис. 4.21. Смещения точек базилярной мембраны, расположенных у вершины (а), в середине (б) и у основания (в), возникающие при воздействии импуль- са давления у барабанной перепонки. Импульсные реакции рассчитаны по- средством обратного преобразования функции [G(s)F;(s)] ра ц = рг/6. Значения ц<1,0 лежащих у вершины. Для этих точек частоты макси- мального возбуждения мень- ше критической частоты среднего уха. При расчете ( возбуждения в этих точках можно считать, что частот- ная характеристика средне- го уха почти равномерна и смещения мембраны с боль- шой точностью описываются функцией fi(t) из ур-ния (4.2). С другой стороны, значения т)>1,0 характерны для точек мембраны, лежа- щих ближе к основанию. Для этих точек частоты мак- симального возбуждения больше критической часто- ты среднего уха. При рас- чете возбуждения в этих точках приходится рассмат- ривать диапазон частот, в котором частотная характе- ристика среднего уха весь- ма неравномерна, поэтому среднее ухо оказывает су- щественное влияние на ко- лебания этой части мембра- ны. Для иллюстрации этого положения были выполнены расчеты по ур-нию (4.10) для т| = 0,1; 0,8 и 3,0. Полученные результаты Три сплошные кривые представляют смещения мембраны в точках, характеризующихся резонансными частотами 150, 1200 и 4500 гц, возникающие при воздействии импульса давления у барабанной перепонки. На каждом графике показана также пунктирная кривая. На рис. 4.21а и б пунктирные кривые пред- ставляют смещения мембраны, рассчитанные при условии, что приведены на рис. 4.21. 5*
132 УХО И СЛУХ частотная характеристика среднего уха равномерна, а фазо- вая— тождественно равна нулю. Указанные пунктирные кри- вые представляют собой импульсные реакции (L~lFi(s)). Пунк- тирной кривой рис. 4.21в показана производная по времени от смещений стремечка g(t), взятая с рис. 4.20. Кривые рис. 4.21в свидетельствуют, что смещения мембраны у основания напоми- нают по форме производную от смещений стремечка. Отдельно частотные характеристики G(s) и Fi(s) показаны соответственно на рис. 4.17 и 4.19. Результирующая частотная характеристика (рис. 4.22а) находится путем сложения уровней (в дб) G(s) и Fi(s), а результирующая фазовая характеристика (рис. 4.226) — сложением соответствующих фазовых характе- ристик. Как уже было показано при расчете импульсных реакций, передаточная функция для точек, расположенных у вершины мембраны (низкие частоты), определяется в основном функ- цией Fi(s), в то время как на передаточную функцию для то- чек у основания (высокие частоты) существенное влияние ока- зывает передаточная функция среднего уха G(s). Можно от- метить две особенности частотной характеристики модели мем- браны (т. е. Fz(®)]. Во-первых, в области низких частот ампли- тудная частотная характеристика имеет подъем около 6 дб на октаву. Во-вторых, фазовая характеристика 1модели мембраны [т. е. | F (го) ] приближается к значению + — радиан по мере перехода от частоты максимума амплитудной частотной ха- рактеристики к более низким частотам. Другими словами, при значениях го, значительно меньших частоты максимума, харак- теристика мембраны Д(го) примерно соответствует характери- стике дифференцирующего устройства. Ввиду того что ампли- тудно-частотная характеристика среднего уха начинает спадать на частотах выше 1500 гц, смещения мембраны у основания оказываются примерно пропорциональны производной по вре- мени от смещений стремечка. Поэтому форма импульсной реак- ции в различных точках у основания мембраны примерно оди- накова. Однако в различных точках мембраны, расположенных у вершины, импульсная реакция различна, причем по мере при- ближения к вершине колебания импульсной реакции замедля- ются (см. рис. 4.21). Можно отметить еще одну особенность зависимостей, пока- занных на рис. 4.22. Ввиду того что частотная характеристика среднего уха заметно спадает на высоких частотах, частотная характеристика для некоторой точки, расположенной у основа- ния мембраны, оказывается весьма несимметричной (см. экви- валентную частотную характеристику для ц = 3,0). В результа-
МАТЕМАТИЧЕСКИЕ МОДЕЛИ УХА 133 те амплитуда возбуждения некоторой точки, расположенной у основания мембраны, оказывается больше амплитуды возбуж- дения любой другой точки мембраны, когда частота воздействия совпадает с резонансной ча- стотой рассматриваемой точки; но наибольшая для данной точки амплитуда возбуждения получается при некоторой более низкой ча- стоте воздействия, причем на этой более низкой часто- те некоторая другая точка базилярной мембраны мо- жет возбуждаться с еще большей амплитудой, чем рассматриваемая точка. Рис. 4.22. Эквивалентные характеристи- ки модели: а) частотные; б) фазовые; 1 — модель среднего уха, 2 — модель базиляр- ной мембраны, 3 — эквивалентная характе- ристика 4.2.5. Электрическая схема, моделирущая смещения базилярной мембраны Основываясь на ур-ниях {4.1) и (4.3), можно созда- вать электрические схемы с .передаточными функциями, соответствующими функци- ям G(s) и Ft(s). Проще все- го промоделировать эти функции с помощью кас- кадно включенных одиноч- ных резонансных контуров. Дополнительное отставание фазы обеспечивается с по- мощью электрической линии задержки. Подобная модель для случая Sf = 0 показана на рис. 4.23. Напряжение на каждом отдельном отводе линии задержки отображает смещение мембраны на соответствующем удалении от стремечка. На рисунке показаны также напряжения, пред- ставляющие звуковое давление у барабанной перепонки и сме- щения стремечка. Буферные усилители, обозначенные буквой А, имеют постоянные коэффициенты усиления, устанавливае- мые в соответствии с параметрами моделируемой системы. Эле- менты схемы выбираются в соответствии с ограничениями, ус-
134 УХО И СЛУХ тановленными для G(s) и Fi(s). Эти ограничения представле- ны в виде уравнений на рис. 4.23. Задавшись импедансами, по указанным уравнениям можно рассчитать все элементы схемы. Относительные коэффициенты усиления усилителей для каж- Рис. 4.23. Модель уха, представленная в виде электрической схемы дой точки мембраны устанавливаются таким образом, чтобы удовлетворить амплитудным соотношениям рис. 4.22а. Опреде- ляя коэффициенты усиления, надо учитывать также постоянные множители при используемых для описания моделей рациональ- ных функциях. Некоторые характерные импульсные реакции аналоговой схе- мы рис. 4.23 показаны на рис. 4.24а. При рассмотрении откли- ков для точек, расположенных ближе к вершине, можно наблю- дать ухудшение разрешающей способности по времени. Это оз- начает, что разрешающая способность мембраны по частоте увеличивается по мере приближения к вершине. С помощью электрической схемы можно легко получить приближенное значение пространственной производной от сме-
МАТЕМАТИЧЕСКИЕ МОДЕЛИ УХА 135 щения мембраны. Эта функция, как и само смещение, возмож- но играет важную роль при преобразовании механического воз- буждения в нервное. Как уже отмечалось ранее, внутренние волосковые клетки органа Корти, по-видимому, чувствительны к продольным изгибам мембраны, тогда как наружные клетки чувствительны к поперечным изгибам (Бекеши, 1953). Следо- вательно, внутренние клетки могут оказаться более чувстви- “2 I 5000гИ ПОргц 200гц, Смещении мембраны Смещения стремечка Давление на оарабанную лерепонку б) Пербая пространственная * производная* Рис. 4.24, Импульсные реакции (а), аппроксима- ции пространственной производной первой раз- ностью (б), измеренные с помощью схемы рис. 4.23 тельны к пространственной производной от смещений мембра- ны, тогда как наружные клетки чувствительны, главным обра- зом, к самим смещениям. Разности между отклонениями сосед- них точек, равномерно размещенных по длине мембраны, мож- но принять в качестве аппроксимации пространственной произ- водной. На рис. 4.246 показаны зависимости для первой про- странственной производной, полученные с помощью аналоговой ду у (I, х + Дх) — у и,х) . схемы путем вычисления — = ------------;--------> где дх=, J дх &х - - = 0,3 мм. Полученное отклики весьма близки к откликам для смещения мембраны.
136 УХО И СЛУХ 4.2.6. Моделирование движений мембраны на вычислительной машине Для моделирования движений мембраны в большом числе точек и при необходимости выполнения сложных преобразова- ний получающихся смещений весьма удобным является метод моделирования на цифро- вой вычислительной машине (ЦВМ). В одной из таких цифровых моделей пред- ставлены движения мембра- ны в 40 точках (Фланаган, Рис. 4.25. Импульсные эквиваленты для моделирования комплексно сопряжен- ных полюсов (а), полюса, лежащего на действительной осн (б), и нуля, ле- жащего на действительной оси (е) 1962, Ь). Так же как при модели- ровании аналоговой элект- рической схемы, для по- строения цифровой модели мембраны используются от- счетные значения характери- стик, соответствующих от- дельным комплексным по- люсам и отдельным дейст- вительным полюсам и ну- лям. Отсчетные значения непрерывных функций при- годны для аппроксимации этих функций в интересую- щем нас диапазоне частот. Вычислительные операции, использованные для моде- лирования соответствующих полюсов и нулей, показаны на рис. 4.25. Блоки, обозначенные буквой D, являются звеньями запаздывания на время, равное интервалу между соседними отсчетами. Частота посылок на входе — в данной модели составляла 20 кгц, входные данные квантовались одиннадцатизначным кодом. Треугольники обо- значают «усилители», в которых производится умножение вход- ных импульсов на коэффициенты, показанные рядом. Цифровые операции, обведенные пунктирной линией, рас- сматриваются как блоки, составляющие программу. Блок СР, показанный на рис. 4.25а, предназначен для моделирования со- пряженных полюсов. Передаточная функция этого блока = [ е~2а e~2sD - 2е~а cos Ф e~sD+ 1]“* (4.11) Ха (S)
МАТЕМАТИЧЕСКИЕ МОДЕЛИ УХА 137 имеет полюса при е c&+sD) = cosQ±i sinfD или s=-^~ [—Ф±ЦФ + + 2ли)], п=0, 1, 2 так что = и Ф; = Р;Д где щ и р;— действительная и мнимая части моделируемой пары полюсов. Полюсы импульсной функции повторяются через ±i2n/D (т. е. через ±i 2/гл/5 • 10~5 при частоте квантования 20 кгц). Отдельные полюса, лежащие на действительной оси, аппрок- симируются с помощью показанного на рис. 4.256 блока Р. Пе- редаточная функция этого блока = [1 — e~(»+sz»]-i (4.12) Xb (s) имеет полюса при s = -^ (——i 2пл), n=0, 1, 2... Отдельные нули моделируются с помощью изображенного на рис. 4.25в блока Z. Передаточная функция этого блока об- ратна передаточной функции блока Р и равна 2MS) = 1 _ e-(9+sD), (4.13) Хс (8) } нули передаточной функции лежат на частотах $=—(— ±12пл), n = 0, 1, 2 ... В рассматриваемом случае нуль распола гался в начале координат, так что &=0 (т. е. ег=О). Программа вычислений, схематически описанная ука- занными блоками, исполь- зовалась для моделирова- ния функции G(s) Fi(s) в 40 точках базилярной ме>м- браны. Эти точки располо- жены вдоль мембраны че- рез 0,5 мм и перекрывают диапазон от 75 до 4600 гц. Блоки соединяются вместе и образуют программу для вычислительной машины, показанную на рис. 4.26'). В блоках усилителей с'о и с' на рис. 4.26 учитываются Рис. 4.26, Функциональная блок- схема моделирования смещений базилярной мембраны на ЦВМ не только амплитудные постоянные модели со и С| и множи- тель (2000 л ф/ф+2000л) °’8, но также и амплитудные характе- ристики цифровых блоков. Например, удобно положить коэф- ') В данном случае для облегчения моделирования использовалась спе- циальная укру,ганен1ная программа (см. Келли, Высоцкий и Лохбаум).
138 УХО И СЛУХ фициент передачи на нулевой частоте блоков СР равным едини- це, для этого коэффициент усиления каждого усилителя уста- навливается с учетом члена {е-2&—2е-а соэФ+1]2. Коэффици- енты усиления Сд и с\ устанавливаются таким образом, чтобы получить амплитуды, задаваемые функцией G(s)Ft(s). Время задержки до каждой точки мембраны Зл/4р; представляется це- лым числом интервалов между отсчетами. В данной модели это время устанавливается с точностью до 50 мксек. На рис. 4.27 показаны результаты моделирования, выводи- мые вычислительной машиной автоматически в виде семейства графиков. На графиках изображены смещения во времени 40 то- 75 • 85- 100- 120- /90- /50- 190- 220- 260- 300' 330- 9/0 § 5 £ 720 800 § I Время f мсек Рис. 4.27. Данные моделирования на ЦВМ смещений ба- зилярной мембраны в 40 точках. Каждая линия представ- ляет смещения некоторой заданной точки мембраны, воз- никающие прн воздействии чередующихся положительных н отрицательных импульсов давлення. Длительность им- пульсов 100 мксек, частота повторения 200 гц. Входной сигнал воздействует на барабанную перепонку; начало сигнала соответствует нулевому моменту времени. Моде- лируемые точки мембраны располагаются через 0,5 мм. Резонансные частоты рассматриваемых точек указаны на оси ординат (Фланаган, 1962, Ъ) то иоо . 1200 g 1300 - two ' 1525 1650 ms 1900 2100 ЯЯУ» лУ ЗЮ0Ы 3350$ 3600$ 3900$ 9200$ 9600^
МАТЕМАТИЧЕСКИЕ МОДЕЛИ УХА 139 чек мембраны. Резонансные частоты соответствующих точек мембраны, отмеченные по оси ординат, начинаются с частоты 4600 гц в нижней части графика (соответствует основанию мем- браны) и доходят до 75 гц. в верхней части графика (соответ- ствует вершине мембраны). Время откладывается по оси аб- сцис. Входным сигналом p(t) служат чередующиеся положи- тельные и отрицательные импульсы длительностью 100 мксек с основной частотой 100 гц1), начинающиеся при t—Q. Сдвиг по времени между чередующимися импульсами составляет, та- ким образом, 5 мсек. У вершины мембраны (низкочастотная часть) разрешающая способность по частоте наилучшая, сме- щения мембраны имеют вид гармонических колебаний частоты основного тона. У основания мембраны (высокочастотная часть) отдельные импульсы разделяются во времени. Получен- ные отклики отражают также задержку сигнала при распро- странении вдоль мембраны. Практическая ценность математической модели определяет- ся как простотой вычислений, так и точностью аппроксимации характеристик мембраны. Модель, удовлетворяющая обоим ука- занным требованиям, может использоваться для установления связи между субъективной и физиологической сторонами слу- хового восприятия. Точнее, такая модель может оказаться по- лезной для выявления зависимости между психоакустическими реакциями и конфигурациями смещений мембраны и для вы- яснения основных способов представления слуховой информа- ции в нервной системе. 4.2.7. Моделирование улитки с помощью длинной линии В предыдущих разделах свойства среднего уха и базиляр- ной мембраны описывались уравнениями передачи со входа на выход. Однако в ряде работ внутреннее ухо рассматривается как система с распределенными параметрами и подробно изу- чается действие этой системы (Петерсон и Богерт—Peterson and Bogert; Bogert, 1951; Ранке — Ranke; 3,вислоцкий — Zwi- slocki, 1948; Этингер и Хаузер — Oetinger and Hauser). По крайней мере, в двух из этих работ предлагаются модели вну- треннего уха в виде длинной линии. Принятые в этих работах упрощающие предположения в не- которой степени сходны. В качестве примера рассмотрим пред- посылки одной из работ (Петерсон и Богерт). Идеализирован- ') На рис. 4.27 импульсы с частотой 200 имп/сек подаются поочередно с разной полярностью, так что основная частота импульсного возбуждения в эксперименте на ЦВМ составляла 100 пер/сек.
140 УХО И СЛУХ тическое представление улитки (Пе- терсон и Боугерт) ная схема улитки показана на рис. 4.28. На отмеченном буквой О, месте помещается овальное окно; положение круглого окна отмечено буквой R. Расстояние вдоль улитки отсчитывается, от основания и обозначается через х. Предполагается, что зави- симости площадей поперечного сечения преддверной и барабан- ной лестниц от расстояния описываются одной и той же функцией SQ(x). Шири- на базилярной мембраны обозначена через Ь(х), а приходящиеся на единицу поверхности масса, сопро- тивление и жесткость бази- лярной мембраны (точнее, улиткового хода, разделяю- щего каналы) представле- ны соответственно функция- ми т(х), г(х) и к(х). Использованные механические постоянные вычислены по данным физиологических измерений Бекеши. Приняты следующие упрощающие предположения. Ампли- туды всех колебаний достаточно малы, так что нелинейные эф- фекты исключаются. Движения стремечка вызывают в каналах только плоские волны сжатия. Имеют место линейные соотно- шения между перепадом давления в любой точке мембраны и смещением, скоростью движения и ускорением данной точки мембраны. Вертикальная составляющая скорости движения ча- стиц перилимфы пренебрежимо мала. Элементы мембраны ме- ханически не связаны. Для описания системы необходимо составить уравнения пло- ской волны сжатия, распространяющейся в каналах, и уравне- ние движения некоторого данного элемента мембраны. Для плоской волны в каналах звуковое давление р и скорость дви- жения частицы и связаны уравнением движения: ди др dt дх ’ (4.14) где р — средняя плотность перилимфы. Если смещения мем- браны малы, уравнения непрерывности (сохранения массы) для двух каналов запишутся в виде d(uvS) =_____S_ dpv vb дх р с2 dt = _ А дл + vb дх р с2 dt (4.15)
МАТЕМАТИЧЕСКИЕ МОДЕЛИ УХА 141 где v — скорость движения мембраны; индексы t и и обознача- ют соответственно преддверную и барабанную лестницы. Из этих соотношений следует, что скорость накопления массы в элементарном объеме канала равна производной по времени от плотности жидкости. Уравнение движения мембраны имеет вид (Pv~ Pt) = +rv + k f vdt, (4.16) ut J где разность давлений в каналах (pv—pt) представляет собой функцию возбуждения элемента мембраны. Можно найти сов- местное решение ур-ний (4.14) — (4.16) относительно давлений и скоростей. Характерное решение для мгновенной разности давлений на мембране при возбуждении частотой 1000 гц при- ведено на рис. 4.29. Разности давлений показаны через интер- Рис. 4.29. Мгновенные разности давления на стенках улиткового хода для последо- вательных значений фазы одного периода возбуждения частоты 1000 гц (Петерсон и Богерт) валы времени в 1/8 мсек (каждому интервалу соответствует из- менение фазы на л/4 рад) для одного периода. Из рисунка вид- но, что возбуждение распространяется в виде бегущей волны, причем скорость -распространения вдоль мембраны больше у основания и уменьшается при приближении к вершине (гели- котреме).
142 УХО И СЛУХ По найденным решениям для давления и скорости можно рассчитать эквивалентную схему четырехполюсника, представ- ляющего малый элемент длины улитки. Напряжение может слу- жить аналогом звукового давления, а ток—аналогом звуко- вого потока. Секция подобного четырехполюсника показана на рис. 4.30 (Богерт). Здесь выражает массу жидкости, прихо- Рис. 4.30. Секция электрического че- тырехполюсника, представляющая тырехполюоника, представляющая со- бой малый элемент длины улитки <(Богерт) Расстояние Вдоль базилярной, мембраны? отсчитываемое от стрдмечка,См Рис. 4.31. Сравнение реакции смещения для модели улитки в виде длинной линии с фи- зиологическими данными для уха (Богерт) 1 — данные Бекеши, 2 — модель в виде длинной линии дящуюся на некоторый элемент длины каналов, Ci характери- зуется сжимаемостью жидкости, а Ц, С2, Сз и С4 являются механическими постоянными мембраны. Напряжение Р(х, а>) представляет собой перепад давления на мембране в виде функ- ции расстояния и частоты, "а напряжение Y(x, а) характеризует смещение мембраны. Для моделирования улитки использовался эквивалент ли- нии, составленной из 175 подобных секций (Богерт). Реакции смещения, моделируемые с помощью длинной линии, близки по форме к реакциям смещения, измеренным Бекеши в физио- логических опытах. Характерная реакция показана на рис. 4.31. Наблюдаются некоторые различия в положениях максимумов реакции и в величине наинизшей частоты, на которой еще про- являются резонансные свойства. Возможными причинами этих расхождений являются недостоверность данных измерений про- странственных изменений механических параметров мембраны и пренебрежение взаимосвязью элементов мембраны. Несмотря на недостоверность принятых значений параметров, модель в виде длинной линии позволяет наглядно продемонстрировать характерную особенность колебаний мембраны — распростра- нение бегущей волны. '
СУБЪЕКТИВНОЕ И ФИЗИОЛОГИЧЕСКОЕ ПОВЕДЕНИЕ 143 4.3. Иллюстрация соотношений между субъективным и физиологическим поведением 4.3.1. Основные предположения Рассмотренные выше модели уха описывают лишь механи- ческие процессы, происходящие в периферическом отделе слу- хового анализатора. Любая достаточно полная гипотеза слухо- вого восприятия должна давать объяснение процессам преобра- зования механических смещений в нервную активность. Детали этого процесса изучены недостаточно, и в настоящее время можно делать лишь весьма упрощенные предположения, не про- тиворечащие, однако, известным физиологическим фактам. Согласно первому предположению локальные деформации базилярной мембраны приводят к возникновению нервной ак- тивности на окончаниях слухового нерва. Предполагается,- что отдельный нейрон является двоичным элементом, находящим- ся в возбужденном либо заторможенном состоянии. Число воз- бужденных нейронов монотонно зависит от амплитуды смеще- ний мембраны1). Нервная активность может проявляться либо в виде посылок, синхронных с акустическим воздействием, либо в виде сигналов, передающих информацию о месте смещения мембраны. При этом подразумевается, что величина смещения (или, возможно, величина пространственной производной от сме- щения) должна превысить некоторый порог, после чего проис- ходит возбуждение нерва. Согласно второму предположению генерирование нервных импульсов происходит лишь при одной «полярности» смещения мембраны либо пространственной производной от смещения. Другими словами, механические колебания подвергаются пре- образованию, подобному однополупериодному выпрямлению. Согласно третьему предположению нервное возбуждение опре- деляется, главным образом, точкой мембраны, колеблющейся с наибольшей амплитудой. Это возбуждение может подавлять или тормозить возбуждение, вызываемое соседними точками. Эти предположения вместе с результатами, полученными с помощью моделей, в ряде случаев оказались полезными при объяснении субъективных слуховых ощущений. Не вдаваясь в подробности, можно указать на ряд таких приложений. ') Психологические и физиологические данные свидетельствуют о том, что величина нервной активности связана с величиной механического смещения степенной функциональной зависимостью. Кроме того, некоторое время пос- ле возбуждения нейрон находится в состоянии нечувствительности. Следова- тельно, возможная частота возбуждений нейооиа ограничена.
144 УХО И СЛУХ 4.3.2. Восприятие высоты звука Высота звука есть субъективное свойство, которое можно охарактеризовать положением на шкале, простирающейся от низких до высоких звуков. Высота звука в значительной степе- ни определяется частотой, являющейся объективным свойством звука. Важным свойством слухового восприятия является спо- собность приписывать высоту всем периодическим звукам. Рассмотрим сначала вопросы, связанные с высотой чистых (синусоидальных) тонов. При таких воздействиях смещения базилярной мембраны синусоидальны. Частотные характери- стики, приводившиеся выше на рис. 4.22а, описывают измене- ния относительных амплитуд колебаний различных точек мем- браны при изменении частоты. На некоторой заданной частоте одна точка мембраны колеблется с большей амплитудой, чем все другие точки. Согласно приведенным выше предположе- ниям разряды возбужденных нейронов с наибольшим числом нервных импульсов происходят в точке с максимальной ампли- тудой колебаний. На достаточно низких частотах (меньше ча- стоты порядка 1000 гц) на каждом периоде в определенной фа- зе смещения мембраны генерируется один разряд. Последую- щая обработка в высших центрах, по-видимому, сводится к оп- ределению периодичности разрядов, синхронных с воздействую- щим сигналом. На частотах выше 1000—2000 гц согласно электрофизиоло- гическим данным синхронность нервных разрядов нарушается (Галамбос— Galambos). На этих частотах высота звука, по- видимому, воспринимается на основании информации о месте на мембране, в котором смещения имеют наибольшую ампли- туду. Ухудшение разрешающей способности по частоте в точ- ках, лежащих у основания базилярной мембраны, связано с из- вестным из психоакустики явлением ухудшения точности раз- личения высоты звука на высоких частотах. Предположим, что периодическое звуковое воздействие не является простым синусоидальным тоном, а представляется бо- лее сложным колебанием, например последовательностью ко- ротких импульсов. Какая высота звука слышится при этом? Пусть, например, воздействием служат чередующиеся положи- тельные и отрицательные импульсы, использовавшиеся выше для пояснения результатов моделирования на ЦВМ (см. рис. 4.27). В спектре такой последовательности импульсов со- держатся лишь нечетные гармоники. Если частота следования импульсов мала, колебания точек мембраны, возникающие под действием отдельных импульсов, не будут перекрываться во времени. Другими словами, время между соседними импульса-
СУБЪЕКТИВНОЕ И ФИЗИОЛОГИЧЕСКОЕ ПОВЕДЕНИЕ 145 ми достаточно для того, чтобы колебания, возбуждаемые от- дельными импульсами положительной или отрицательной по- лярности, затухали во всех точках мембраны. Реакции модели мембраны в подобной ситуации показаны в правом столбце рис. 4.32. Частота основного тона возбуждения составляет 25 гц (50 имп!сек). Формы колебаний измерялись на аналоговых схе- мах, подобных схеме рис. 4.23. 5000гц 1000 гц 200 гц Оабрение у барабанной перепонки Смещение стремечка время ------► Рис. 4.32. Смещения мембраны, возникающие под воздействием фильт- рованных и нефильтрованных периодических последовательностей им- пульсов. Полярность импульсов чередуется. Смещения мембраны мо- делировались с помощью электрической схемы, изображенной на рис. 4.23. Для наглядности полный размах колебаний приведен к оди- наковой величине, и поэтому соотношение амплитуд колебаний на ри- сунке не отражено Можно предположить, что при столь низкой частоте следо- вания возбуждающих импульсов по всей длине мембраны гене- рируются нервные импульсы, синхронные с возбуждающими. Можно ожидать, что воспринимаемая высота звука окажется равной частоте следования импульсов. Измерения подтвердили эти предположения (Фланаган и Гуттман — Flanagan and Gutt- man). Далее, с помощью модели установлено, что импульсный сигнал столь низкой частоты вызывает наибольшие смещения средней части мембраны, для которой частота резонанса лежит около 1500 гц. С другой стороны, если частота основного тона сигнала воз- буждения достаточно велика, например 200 гц или выше, со- ставляющая с частотой основного тона будет выделена (по ча- стоте) в той расположенной у вершины точке мембраны, резо-
146 УХО И СЛУХ нансная частота которой совпадает с частотой основного тона. | Этот случай иллюстрируется вторым столбцом рис. 4.32. Часто- та основного тона составляет 200 гц. Точка мембраны с резо- | нансной частотой 200 гц колеблется почти по синусоидальному I закону, в то время как в точках, расположенных ближе к ос- i нованию, происходит разделение 'импульсов во времени. Поэтому ‘ можно ожидать, что у вершины улитки нервные разряды гене- рируются синхронно с частотой основного тона, а вид смеще- ний мембраны у основания благоприятен для генерирования разрядов с частотой возбуждающих импульсов, т. е. с двойной частотой основного тона. Психоакустические измерения под- тверждают, что смещения мембраны у вершины, происходящие с частотой основного тона, имеют большее субъективное зна- чение, чем смещения у основания,'происходящие с частотой сле- дования импульсов возбуждения. Восприятие обычно опреде- ляется разрядами с частотой основного тона, и человек слышит звук, высота которого соответствует частоте 200 гц. Таким об- разом, на некоторой частоте происходит переход от высоты зву- ка, соответствующей частоте следования импульсов, к высоте звука, соответствующей частоте основного тона. Последовательность импульсов, использованная при модели- ровании уха на вычислительной машине (рис. 4.27), представ- ляет собой также чередование положительных и отрицательных импульсов, но с частотой основного тона 100 гц. Эта частота лежит в переходной области между диапазонами, в которых вы- сота звука определяется либо частотой следования импульсов, либо частотой компоненты основного тона. Из рис. 4.27 видно, что амплитуда первой гармоники частоты основного тона, выде- ляемой ухом, относительно мала у вершины мембраны, тогда как частота следования импульсов четко отражается смещения- ми мембраны у основания. Можно предположить, что в этом случае информация о высоте звука, заключенная в частоте сле- дования импульсов, и восприятие высоты звука неоднозначны. Это подтверждается измерениями субъективного восприятия. Если изображенный в среднем столбце рис. 4.32 сигнал с частотой основного тона 200 гц пропустить через фильтр верх- них частот с достаточно большой частотой среза, то восприятие высоты звука определится только смещениями мембраны у ос- нования. В качестве примера в третьем столбце рис. 4.32 изо- бражены смещения мембраны от сигнала, прошедшего через фильтр верхних частот (Ф|ВЧ) с частотой среза 4 кгц. Если рассматриваемые здесь соображения справедливы и в данном случае, подобная фильтрация должна привести к изменению во- сприятия высоты звука. Вместо высоты, соответствующей час- тоте основного тона, должно происходить восприятие высоты,
СУБЪЕКТИВНОЕ И ФИЗИОЛОГИЧЕСКОЕ ПОВЕДЕНИЕ 147 соответствующей частоте следования импульсов. Причиной тому служит высокая разрешающая способность по времени части мембраны, расположенной у основания, так что импульсы раз- деляются здесь вне зависимости от их полярности. Эта гипоте- за в действительности подтверждается результатами психоаку- стических измерений (Фланаган и Гуттман). Несколько более сложное явление имеет место при исполь- зовании фильтра верхних частот, подавляющего небольшое чис- ло гармоник, например только первую гармонику с частотой ос- новного тона. При некоторых условиях мембрана может коле- баться с разностной частотой. Если воздействующий сигнал со- держит четные и нечетные гармоники, возможно восприятие зву- ка, высота которого соответствует частоте основного тона, да- же если гармоника с частотой основного тона в принимаемом сигнале отсутствует. 4.3.3. Бинауральная локализация Другим аспектом восприятия является бинауральная лока- лизация звука. Этот эффект заключается в способности при прослушивании через наушники локализовать звуковой образ в некоторой определенной точке внутри головы. Если идентич- ные щелчки (импульсы звукового давления) создаются одновре- менно у каждого уха, слушатель обычно воспринимает звуко- вой образ, который локализован точно в центре его головы. Если щелчок у одного уха создается несколько раньше или не- сколько большей интенсивности, то звуковой образ сдвигается к этому уху. Сдвиг увеличивается при увеличении разности вре- мен прихода или различий интенсивностей до тех пор, пока об- раз не сдвинется полностью на одну сторону. В конечном счете наступает разделение образа. У .каждого уха слышатся свои щелчки. Напрашивается предположение, что субъективно восприни- маемое положение образа определяется путем расчета совпаде- ний нервных возбуждений, которые создаются в перифериче- ской части слуховой системы и передаются по синапсам к выс- шим центрам. Сигнал от самого раннего возбуждения продви- гается и достигает некоторой точки нервной системы, в кото- рой происходит совпадение с сигналом более позднего возбуж- дения. Создается субъективный образ с соответствующим сме- щением от центра. Поскольку различия интенсивности могут приводить к сдвигу положения образа, должно иметь место пре- образование, по крайней мере частичное, интенсивности во вре- менные характеристики возбуждения. Как и в случае восприя- тия высоты звука, при исследовании бинаурального эффекта
148 УХО И СЛУХ встречается ряд проблем, для решения которых полезно исполь- зовать описанную в разделе 4.2 модель, дающую количествен- ное описание физиологических реакций и связывающую их с субъективным ощущением. Одна из таких проблем заключается в исследовании влияния фазовых соотношений и маскировки на бинауральную локализацию щелчков. Если у барабанной перепонки создается импульс разреже- ния давления, барабанная перепонка сначала смещается нару- жу. Стремечко в первый момент также выдвигается наружу, а мембрана поднимается. Смещения стремечка и мембраны (по данным, полученным на модели), возникающие при воздействии импульса разрежения длительностью 100 мксек, изображены в виде функций .времени в правой части рис. 4.33. Здесь пока- Рис. 4.33. Реакции базилярной мембраны в точках с резонансными частотами 2400, 1200 и 600 гц на импульс разрежения давления длительностью 100 мксек. Реакции измерялись на электрической мо- дели, представленной на рис. 4.23. Соотношение амплитуд сохранено заны импульсные реакции трех различных точек мембраны, ре- зонансные частоты которых составляют 2400, 1200 и 600 гц соответственно. Функция смещения стремечка получается ус- реднением входного сигнала за небольшое время. В реакциях мембраны отражены колебательные свойства соответствующих
СУБЪЕКТИВНОЕ И ФИЗИОЛОГИЧЕСКОЕ ПОВЕДЕНИЕ 149 точек, а также время распространения бегущей волны до этих точек. Согласно модели широкополосные импульсы создают наи- большие смещения у середины мембраны, около точки с резо- нансной частотой 1500 гц. При переходе ближе к основанию или к вершине амплитуды колебания соответствующих точек умень- шаются. Выдвинута гипотеза, что наиболее существенно нерв- ное возбуждение создается у точки мембраны, колеблющейся с наибольшей амплитудой. Электрофизиологические данные сви- детельствуют, что нервные импульсы генерируются только при односторонних движениях мембраны, превышающих некоторый порог (для наружных волосковых клеток возбуждающими яв- ляются движения базилярной мембраны к покровной мембра- не). Колебательный характер импульсной реакции дает возмож- ность предположить, что один импульс воздействия может вы- звать множество нервных импульсов. Если импульсы подаются на оба уха, звуковой образ ка- жется расположенным в центре лишь в том случае, когда нерв- ное. возбуждение достаточной силы создается одновременно. Предположим, что входными импульсами служат одинаковые импульсы разрежения. Максимальные смещения в этом случае происходят у середины мембраны. Для простоты представим себе, что нервные импульсы генерируются около положитель- ных гребней волн смещения. В этом случае воспринимаемый звуковой образ кажется находящимся в центре, если входные импульсы создаются одновременно, т. е. если разность времен прихода импульсов к каждому уху равна нулю. Теперь предпо- ложим, что на одно ухо подается импульс противоположной фа- зы и давление в момент прихода импульса повышается. При этом знак реакций мембраны данного уха изменяется на проти- воположный; изображенные на рис. 4.33 положительные откло- нения мембраны превращаются в отрицательные и наоборот. Первые положительные гребни волны смещения мембраны при- ходят теперь позднее примерно на полпериода колебания каж- дой точки. В средней части мембраны эти полпериода состав- ляют примерно 300—400 мксек. Таким образом, можно ожи- дать, что для создания центрированного образа при противо- фазном возбуждении импульс сжатия придется подавать рань- ше на указанное время. На точку мембраны, совершающую когерентные колебания наибольшей амплитуды, можно воздействовать добавлением маскирующего шума с соответствующим спектром. В этом слу- чае участок мембраны, на котором в нормальных условиях ам- плитуда реакции максимальна, можно замаскировать шумом и переместить место возникновения существенных для восприя-
150 УХО И СЛУХ тия колебаний на менее чувствительный участок мембраны,' Предположим, что расположенная у основания часть мембраны одного уха маскируется шумом, содержащим высокочастотные составляющие, а расположенная у вершины часть мембраны другого уха маскируется шумом с иизкочастотными составляю- щими. Пусть аудитории задано установить параметры воздей- ствующих импульсов так, чтобы Рис. 4.34. Экспериментальная установка для измерения значений времени сдви- га между сигналами иа правом и ле- яом ухе, при которых создается цен- трированный звуковой образ (Флана- ган, Дэвид и Уотсон) создать центрированный 016- раз. Это означает, что надо получить эффект слияния, используя информацию, до- ставляемую одним ухом из области вершины мем- браны, а другим — из об- ласти основания мембраны. В получающемся сдвиге по времени между импульсами, возбуждающими правое и левое ухо, отражены как ко- лебательные свойства опре- деленных точек мембраны, так и время распростране- ния бегущей волны между этими точками. Как показывают экспери- менты, отмеченные времен- ные зависимости отражают- ся на субъективном ощуще- нии (Фланаган, Дэвид и Уотсон — David and Wat- son) . Методика измерения этих зависимостей поясняется рис. 4.34. Одинаковые импульсные генераторы создают импульсы длительностью 100 мксек и часто- той повторения 10 гц. Амплитуда импульсов на 40 дб превы- шаег амплитуду, соответствующую порогу восприятия. Испы- туемый сидит в звуконепроницаемой комнате и через конден- саторные наушники слушает импульсы (конденсаторные на- ушники используются из-за необходимости получить хорошее акустическое воспроизведение импульсов). Испытуемый с по- мощью переключателя может изменять полярность импульса, поступающего на правое ухо, так что обычный импульс разре- жения давления можно превратить в импульс сжатия. Кроме того, испытуемый может с помощью регулятора времени за- держки изменять относительные моменты прихода импульсов в диапазоне ±5 мсек. Два независимых генератора шума соз- дают маскирующий шум, передаваемый через перестраиваемые
СУБЪЕКТИВНОЕ И ФИЗИОЛОГИЧЕСКОЕ ПОВЕДЕНИЕ 151. фильтры. (Отдельный эксперимент был проведен для опреде- ления уровней отфильтрованного шума, необходимых для мас- кировки определенных участков спектра импульсных последо- вательностей.) Для заданных условий маскировки и определенной полярно- сти импульсов испытуемого просили установить такое значе- ние задержки, при котором звуковой образ кажется находя- щимся в центре его головы. Часто воспринималось несколько образов; более слабые, побочные, образы, по-видимому, вызы- вались побочными гребнями бегущей волны на мембране. На рис. 4.35 представлены результаты опытов, проведенных с целью получения эффекта слияния основного образа при раз- личных условиях маскировки. Данные получены для четырех испытуемых, каждая точка представляет среднее значение при- мерно 15 ответов. Каждые две группы точек в соответствии с их положением вдоль оси абсцисс объединены скобками. Груп- па, обозначенная буквой С, соответствует результатам, полу- ченным при синфазном возбуждении, группа, обозначенная буквой А, — результатам, полученным при противофазном воз- буждении. В случае синфазного возбуждения на каждое ухо воздействуют импульсы разрежения, в случае противофазного1 возбуждения на левое ухо действует импульс разрежения, а на правое — импульс сжатия. Каждой паре групп, объединенных скобкой, соответствуют свои условия маскировки, которые показаны с помощью поме- щенных под скобками схематических изображений улиток. Ин- дексы над каждой улиткой характеризуют условия маскировки1 для данного уха, например UN означает отсутствие маскиров- ки. Затемненные части улиток означают области мембраны, за- маскированные шумом. Двойная стрелка между каждой парой улиток указывает примерное положение незамаскированных шу- мом точек мембраны, совершающих колебания с наибольшей ам- плитудой. Например, маскировка отсутствует и колебания с наибольшей амплитудой наблюдаются около середины мембра- ны (рис. 4.35а). Отдельные стрелки около нанесенных на графики ответов- испытуемых представляют результаты расчетов временных сдвигов сигналов на левое и правое ухо. Расчеты выполнялись- с помощью модели базилярной мембраны. Предполагалось, что нервное возбуждение создается положительным гребнем волны смещения в наиболее существенном месте. Таким образом,, стрелки представляют временной сдвиг между первыми поло- жительными гребнями волн, приходящих в отмеченные на схе- мах точки мембраны. При расчете временных сдвигов учиты- валось время распространения волны до данной точки. К это-
152 ухо и слух му времени прибавлялась длительность начальной четверти пе- риода колебания импульсной реакции. Действительная величина порога нервного возбуждения не- известна; весьма вероятно, что эта величина зависит от место- положения на мембране. При симметричной маскировке не тре- буется знания действительной величины порога, так как относи- тельное время достижения порога должно быть примерно оди- Средние Зля 2рс различных испытуемых 1,6- 0,8- х BIG °GH ° ВЫ Расч.знач. бремени сдвига ° (С) Синсраз.бозбиж.(разря- >- жениенаоошхушах) (Д) Проти&ираз.Л13буж.1сжатие ни йС- правом ухе) 1* --------1----**- - /W___М вот г : —।—- \ (с) , (И), 'нр 2mPr2wu> Верш\ .6) 2fl 4» 1,6 0J8 R L R L R Средние для различных испытуемых *NG uJF ° GH - о ВЫ — Расч. знач. бремени сдвига^ (С) Синфаз.бозбцж.(разря- * жениена обоих ушах) » (R)Противофаз. ^оозбуж. /сжатие на правом ухе/« 0,6 1 & \-о,в „о «5 ’ О ‘ Оси Верш. .(С) (Д), L R L R I, R 1 § в 1,2 I 5» Ofi «1 I о L а Рис. 4.35. Экспериментально измеренные зна- чения времени сдвига сигналов на правом и левом ухе в опытах по латерализации син- фазных и противофазных щелчков при раз- личных условиях маскировки: а) маскировка отсутствует и симметричная маскировка; б) несимметричная маскировка. Стрелками отмечены значения времени за- держки, рассчитанные с помощью модели ба- зилярной мембраны
СУБЪЕКТИВНОЕ Й ФИЗИОЛОГИЧЕСКОЕ ПОВЕДЕНИЕ 15а каково в каждом ухе, вне зависимости от того, лежит ли порог у гребня волны или ниже. Следовательно, при симметричной маскировке основным фактором является длительность полови- ны периода волны смещения. Из рис. 4.35а видно, что резуль- таты измерений действительно довольно хорошо согласуются с этими простыми расчетами времени сдвига между сигналами на правом и левом ухе. Во всех опытах с синфазным возбужде- нием для получения эффекта слияния основного образа потре- бовалось устанавливать сдвиги между сигналами, близкие к ну- лю. В опытах с противофазным возбуждением возникает эффект локализации, отражающий расхождение моментов возбуждения в соответствующих точках на полпериода, причем импульс сжа- тия всегда вызывает возбуждение первым. Соответствие расчетов с экспериментами хуже в случаях несимметричной маскировки, представленных на рис. 4.356. Громкости сигналов в правом и левом ухе различны, а пороги нервного возбуждения, вероятно, зависят от местоположения. Нельзя ожидать, что по моментам прихода первых положи- тельных гребней волн удастся с большой точностью рассчитать временные сдвиги. В этих случаях гораздо важнее знать ис- тинные значения пороговых уровней и относительные амплиту- ды колебаний. И все же интересно знать, в какой мере эти простые расчеты, учитывающие лишь положения положитель- ных гребней волн, соответствуют экспериментальным данным. В первом случае левое ухо не маскируется, а на правое ухо подается маскирующий шум, пропущенный предварительно че- рез фильтр верхних частот с частотой среза 600 гц (600 HP). Рассчитанное значение времени сдвига при синфазном возбуж- дении составляет около 600 мксек; измеренное значение, по су- ществу, совпадает с рассчитанным. Ожидаемое значение вре- мени сдвига при противофазном возбуждении составляет око- ло. 1450 мксек, однако средний результат измерений несколько меньше — около 1200 мксек. В следующем эксперименте левое ухо маскируется шумом, предварительно пропущенным через фильтр нижних частот с частотой среза 2400 гц (2400 LP), правое ухо не маскируется. Основываясь на расчетах, можно ожидать, что при синфазном возбуждении время сдвига окажется несколько меньше 100 мксек, причем сигнал у левого уха должен отставать, одна- ко измерения показали, что отстает сигнал у правого уха на время около 150 мксек. Относительно большой разброс сред- них результатов для различных испытуемых при асимметрич- ной маскировке, в особенности в эксперименте с низкочастот- ным шумом в полосе до 2400 гц, свидетельствует о том, что- локализация в этом случае значительно затрудняется и харак-
154 УХО И СЛУХ теризуется большим непостоянством, чем в случае симметрич- ной маскировки. Для противофазного возбуждения при указан- ных выше условиях маскировки расчеты дают время сдвига сиг- налов около 400 мксек, однако и в этом случае ответы испытуе- мых характеризуются большим разбросом, среднее измеренное значение составляет около 100 мксек. Был даже испытуемый, у которого знак среднего значения сдвига соответствовал отста- ванию сигнала, подаваемого на правое ухо. В последнем эксперименте маскирующий шум на левое ухо подается через фильтр нижних частот с частотой среза 2400 гц, па правое ухо — через фильтр верхних частот с частотой сре- за 600 гц. На основании расчетов можно ожидать, что при син- фазном возбуждении слияние наступит при сдвиге сигналов, равном 700 мксек, примерно такое же значение и получено при измерениях. При противофазном возбуждении расчеты предпо- лагали время сдвига около 1550 мксек, однако при измерениях получили среднее значение сдвига немногим больше 1100 мксек. Очевидно, что простое предположение о возникновении нерв- ного возбуждения на положительных гребнях волны смещения мембраны (или в какой-либо другой фиксированной фазе этой волны) недостаточно для точного определения временного сдви- га между сигналами возбуждения во всех случаях. Возможно, истинные значения порогов нервного возбуждения существенно изменяются в зависимости от местоположения. Воспользовав- шись данными, подобными этим, и учитывая волновые свойства модели, можно сделать обратный вывод и получить сведения о моментах превышения порогов нервного возбуждения. Более общим результатом настоящих исследований является установ- ление тесной связи между субъективным ощущением и особен- ностями движения базилярной мембраны. 4.3.4. Пороговая чувствительность Эквивалентные частотные характеристики, показанные на рис. 4.22а, свидетельствуют, что ухо обладает повышенной ме- ханической чувствительностью к некоторым частотам и пони- женной — к другим. Подобная частотная зависимость проявляет- ся и субъективно. В какой степени изменения порога слыши- мости могут быть объяснены просто изменением механической чувствительности уха? Огибающую, построенную по максимумам частотных харак- теристик рис. 4.22а, можно сравнить с величинами минималь- ного звукового давления чистых (синусоидальных) тонов, необ- ходимыми для слухового восприятия (рис. 4.36). В общем соот- ветствие получается плохое, хотя имеется некоторое сходство в
СУБЪЕКТИВНОЕ И ФИЗИОЛОГИЧЕСКОЕ ПОВЕДЕНИЕ 155. ходе кривых. Одна из кривых рисунка построена в предположе- нии, что критическая частота среднего уха составляет 1500 гц. Выше говорилось о неточности и изменчивости этой величины.. Рис. 4.36. Соотношения между механической чувствительностью уха и минимально необходимыми для .мопаурального (Восприятия значениями звукового давления чистых токов Если в качестве критической частоты среднего уха принять ча- стоту 3000 гц, то совпадение с пороговой кривой на высоких ча- стотах улучшается *). Совпадение на низких частотах не улучшается, что не так важно по следующей причине. Несоответствие между механи- ческой чувствительностью и порогами слухового восприятия на низких частотах можно частично объяснить одной особенностью нервного возбуждения. Согласно принятым выше предположе- ниям число возбужденных нейронов связано некоторой монотон- ной зависимостью с амплитудой колебаний мембраны. Считает- ся, что восприятие громкости может включать временное и про- странственное интегрирование нервной активности. Если допу- стить, что постоянному интегральному значению нервной актив- ности эквивалентна постоянная громкость, то разницу между !) Отметим, что скорость колебаний мембраны y(f) обеспечивает лучшее соответствие с пороговой зависимостью для тональных звуков, чем величи- на смещения y(t). В у(*} входит дополнительный компонент, соответствую- щий подъему высших частот на 6 дб на октаву.
1:56 УХО И СЛУХ механической чувствительностью и порогами слухового восприя- тия можно объяснить меньшей плотностью нервных окончаний у вершины (низкочастотная область) гитки. Последнее пред- положение подтверж- дается имеющимися физиологическими дан- ными. В результате гисто- логических исследова- ний, проведенных Гил- дом и др. (Guild et al), подсчитано число ганг- лиозных клеток, прихо- дящееся на единицу длины органа Корти. Среднее число гангли- озных клеток для лиц с нормальным слухом приведено на рис. 4.37. Согласно этим данным основания улитки и су- Приблизительное расстояние от стремечка,мм Рис. 4.37. Среднее число ганглиозных кле- ток на 1 мм длины органа Корти (Гилд и др.) число клеток несколько уменьшается у щественно уменьшается у вершины. Число клеток в средней ча- сти мембраны примерно постоянно. Аналогичные ©опросы возникают при рассмотрении порогов восприятия коротких импульсов или звуковых щелчков. При достаточно низкой частоте повторения импульсов колебания с наибольшей амплитудой, как указывалось выше, происходят в средней части мембраны. Согласно модели место с макси- мальной амплитудой колебаний остается расположенным в средней части при повышении частоты следования импульсов до нескольких сотен герц. Резонансные свойства средней части мем- браны допускают разрешение отдельных импульсов возбужде- ния во временной области при частоте следования последних свыше 1000 гц. Если преимущественные смещения происходят в одной области для большого диапазона частот, их полярно- стей и длительностей, то спрашивается, как зависит субъектив- ный порог от этих факторов и как порог связан с движением мембраны. Известна одна работа, в которой рассматривался этот вопрос (Фланаган, 1961, а). Изложим кратко полученные результаты. Бинауральные пороги слышимости различных типов перио- дических импульсных последовательностей, отличающихся зако- нами изменения полярностей, частотами следования и длитель- ностями импульсов, показаны на рис. 4.38. Согласно приведен- ным данным пороги почти не зависят от законов изменения по-
СУБЪЕКТИВНОЕ И ФИЗИОЛОГИЧЕСКОЕ ПОВЕДЕНИЕ 157 лярностей. Для частот следования F<100 гц пороги почти не зависят от частоты следования и зависят только от длительности импульсов. При частотах F>I00 гц величины порогов умень- Номера сигналоО -зо Чистый тон —50 '£100 600 <§-30 § 6 —60 &-70 3,мксек 'Л 20 Сред.показ для О -х испытуемых о сигнал 1 а сигнал 2 □ сигнал О *сигнал 6 • сред зная, для - осех испыт. и сиги. 20 00 60 102 160 262 019 671 1070 Число импулызоО в сехундд Рис. 4.38. Бинауральные пороги слухового восприятия периоди- ческих импульсных последовательностей (Фланаган, 1961, а) I f(t) 50 i(j)dEQ£. -30 20^ - ‘tO <? 4® § 0 время шаются с увеличением частоты следования импульсов. Если до- пустить, что амплитуда колебаний мембраны зависит от дли- тельности импульсов, то это приведет к понижению порога с увеличением длительности импульсов. Однако на частотах вы- ше 100 гц начинают сказываться другие, немеханические, фак- торы. Характер понижения пороговой амплитуды импульсов по- зволяет высказать предположение о величине постоянной ин- тегрирования по времени порядка 10 мсек. Исходя из приведенных выше предположений о процессе преобразования механических колебаний в нервную активность, можно задать вопрос: «Какое преобразование смещения мем- браны в точке с наибольшей амплитудой колебаний позволило бы отразить явление постоянства громкости звука, интенсив- ность которого лежит у порога восприятия?» Возможным от- ветом могут служить преобразования, приведенные на рис. 4.39. Первые два блока представляют собой модели среднего уха [оп- ределяемые ур-нием (4.3)] и базилярной мембраны [опреде- ляемые ур-нием (4.1) для точек с резонансной частотой око- ло 1000 гц]. Диод осуществляет операцию однополупериодного выпрямления, соответствующую генерации нервных импульсов
158 УХО И СЛУХ только при смещениях мембраны в одну сторону. Постоянная времени интегратора 10 мсек выбрана в соответствии с данны- ми порогового восприятия. Нелинейный элемент степенной характеристикой (показатель степени равен 0,6) отражает сте- p(t) x(t! yt(t) lyL(t)l r(t) [r(t)]n Рис. 4.39. Модель порогового восприятия импульсных сигналов, показан- ных на рис. 4.38. (R,—низкое по сравнению с R сопротивление нагрузки) пенную зависимость, установленную в экспериментах по вос- приятию громкости1). Измерительный прибор показывает пи- ковое значение выходного сигнала нелинейного преобразова- ния. Если на вход схемы подать любой из рассмотренных выше импульсных сигналов с параметрами, представляемыми точка- ми на пороговых кривых рис. 4.38, то измерительный прибор покажет одно и то же значение, а именно значение порога. Можно рассмотреть также работу этой простой схемы при гармонических входных сигналах. Поскольку время интегриро- вания составляет 10 мсек, то показания прибора на частотах выше 100 гц пропорциональны среднему значению гармониче- ского колебания, пропущенного через однополупериодный вы- прямитель. В данном случае необходимо внести два изменения в схему модели. Во-первых, параметры четырехполюсника, мо- делирующего базилярную мембрану, должны соответствовать параметрам той точки мембраны, резонансная частота которой равна частоте гармонического колебания на входе схемы. Такой четырехполюсник определяется подбором. Во-вторых, учитывая !) Элемент со степенной характеристикой можно не применять в про- стых пороговых экспериментах, когда возможно лишь два ответа «слышно— не слышно» Однако этот элемент необходим для представления закона уве- личения громкости при увеличении уровня звука и для указания субъектив- но воспринимаемой громкости звуков, интенсивность которых выше поро- говой.
субъективное и физиологическое поведение 159 более редкое расположение нервных окончаний у вершины улит- ки, сигнал на выходе выпрямителя в случае применения низко- частотных четырехполюсников необходимо ослабить на величи- ну, соответствующую разности между приведенными на рис. 4.36 кривыми, характеризующими механическую чувствительность и пороги восприятия. В этом случае также используется нелиней- ный элемент со степенной характеристикой для правильного воссоздания закона роста громкости при увеличении уровня звука. 4.3.5. Обработка сложных сигналов в слуховой системе Из вышеизложенного следует вывод о том, что субъективное слуховое ощущение в значительной степени коррелируется (и даже может быть предсказано) по характеристикам физиологи- ческих процессов в ухе1). Современные электрофизиологиче- ские данные позволяют установить тесную связь между нерв- ной активностью и мельчайшими механическими движениями базилярной мембраны. Субъективные измерения, подобные опи- санным в предыдущих разделах, дают дополнительное подтвер- ждение факта наличия указанной связи. Психологические и фи- зиологические эксперименты продолжают обогащать знания о процессах преобразования механических движений, происходя- щих во внутреннем ухе, в нервную деятельность, причем смыс- ловая информация при этих преобразованиях сохраняется. Выдвинутые здесь положения о связях физиологии и психо- акустики основываются на данных, полученных лишь с сигна- лами простейшего вида; обычно эти сигналы характеризовались прерывистостью во временной области или дискретностью в спектральной области, а иногда и тем и другим. При установле- нии указанных связей рассматривались лишь самые общие ха- рактеристики Используемых сигналов, такие, как периодичность или время появления. Главная цель исследования состояла в том, чтобы описать в общих чертах периферический отдел слу- хового анализатора и связать это описание с некоторыми осо- ') Автор предполагает, что при окончательной обработке слуховых сиг- налов в высших Нервных центрах (при превращении этих сигналов в ощу- щение звука) никаких дополнительных линейных или нелинейных искаже- ний их не происходит и все ощущения при восприятии целиком определяются характеристиками уха и происходящими в нем процессами; однако возможна и другая точка зрения, согласно которой выявленные расхождения между характеристиками звуковых сигналов после их обработки в ухе и характе- ристиками наших ощущений являются следствием дальнейшей обработки звуковых сигналов в высших нервных центрах. Это замечание отнюдь ие умаляет значения очень интересных и в любом случае полезных результатов исследований, излагаемых автором (прим. редЛ.
160 УСТРОЙСТВО ДЛЯ АНАЛИЗА РЕЧИ бенностями восприятия. Мало сведений опубликовано о клас- сической психоакустике и о восприятии речи. Кажется очевид- ным, что по мере усложнения сигнала при переходе в пределе к речевым сигналам все более сложные механизмы переработки информации становятся существенными для восприятия. Вероят- но, эта дополнительная обработка производится большей ча- стью в центральной нервной системе. В настоящее время иссле- дования связей между особенностями восприятия сложных сиг- налов и физиологическими процессами, происходящими при этом восприятии, находятся в начальной стадии. В ходе иссле- дований эти связи будут выясняться. В литературе, посвященной проблеме слуха, имеется боль- шое количество данных о субъективном восприятии речевых и речеподобных сигналов, например, данные о способности слу- ха различать частоту основного тона гласных звуков, частоты формант, нерегулярности спектра и тому подобные характер- ные свойства. Такие данные особенно важны для выбора кри- терия при построении систем передачи речи, а также при рас- чете пропускной способности канала, необходимой для пере- дачи речевой информации. V. УСТРОЙСТВО ДЛЯ АНАЛИЗА РЕЧИ Кодирование речевой информации можно рассматривать в различных звеньях цепи связи: на стороне передатчика, где конфигурация голосового гранта и способ его возбуждения составляют один вид информации; в кана- ле передачи, где преобразованная акустическая волна представляет собой наиболее часто встречающийся способ представления сигнала; в приемнике, где механические перемещения базилярной мембраны представляют собой еще одно, совершенно отличное от предыдущих, отображение информации. Некоторые из этих способов описания обладают такими особенностями, ко- торые можно использовать для построения системы связи. Усилия в области анализа и синтеза речи направлены в основном на по- вышение эффективности передачи речевой информации1). Иначе говоря, основная цель состоит в передаче речевой информации по каналу, обладаю- щему минимально возможной пропускной способностью, при условии удов- летворения определенному критерию верности восприятия. Анализ механизма речеобразования, выполненный на акустическом и физиологическом уровнях, позволяет выявить некоторые возможности для эффективного описания сиг- нала. Психологические и физиологические эксперименты по слуховому вос- приятию также помогают установить общие границы восприятия. Хотя по- добные исследования не могут привести к нахождению оптимальных методов для кодирования и передачи, они позволяют обнаружить важные физические закономерности. Дальнейшие возможности повышения эффективности пере- дачи речи связаны с использованием лингвистических и семантических зако- номерностей. ’) Вероятно, одинаково важным следует считать как изучение основ че- ловеческого общения, так и проблему управления машинами с помощью го- лоса.
СПЕКТРАЛЬНЫЙ АНАЛИЗ РЕЧИ 161 В гл. II и III рассматривались некоторые фундаментальные характери- стики механизма речеобразования. В процессе анализа предполагалось нали- чие подробных 'физических сведений о тракте. Однако в условиях практиче- ского осуществления связи обычно имеются сведения только об одном варианте преобразованного акустического сигнала (т. е. говорящий ие пре- доставляет свой голосовой тракт на измерение). Таким образом, если в си- стеме -используются акустические и а-ртикулярные парам-е-пры, рассмотрен- ные в предшествующих главах, то они должны быть определены непосредст- венно из речевого сигнала. В настоящей главе предполагается рассмотреть способы анализа речи, которые считаются полезными для выявления некоторых так называемых «смыслоразличительных элементов» речи. В последующих главах будут рас- смотрены синтез речи с помощью этих -медленно -меняющихся параметров, кри- терий восприятия, соответствующий способу приема таких параметров, н применение способов анализа и синтеза, а также результатов восприятия к созданию систем передачи. 5.1. Спектральный анализ речи 5.1.1. Кратковременный частотный анализ Представление речевой информации в частотной области об- ладает преимуществами. Во-первых, акустический анализ ме- ханизма речеобразования показывает, что распределение нулей и полюсов коэффициента передачи дает достаточно четкое опи- сание звуков речи. Во-вторых, совершенно очевидно, что в на- чальной стадии процесса восприятия ухо производит некоторый грубый частотный анализ. Таким образом, характерные особен- ности, которые проявляются -в результате частотного анализа, по-видимому, играют важную роль в процессах восприятия и воспроизведения и, следовательно, содержат в себе возможности для эффективного кодирования. Это замечание подтверждается многочисленными экспериментами. Установлено также, что механизм (речеобразования является квазистационарным источником звуков с изменяющимися во времени характером возбуждения и частотной характеристи- кой. Поэтому любая спектральная характеристика, пригодная для речевого сигнала, должна отражать не только спектраль- ные особенности воспринимаемых значений, но и временные осо- бенности. Обычная математическая связь между апериодической функ- цией времени f(t) и ее комплексным спектром плотности ам- плитуд F(a>) выражается парой преобразований Фурье: СО £(«)= J f(t)e~Mdt f(o=~ JF(w) eWrffi> —oo J 6—71
162 УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ Чтобы преобразование существовало, выражение J |/(i) \dt должно иметь конечную величину. Непрерывный речевой сигнал не удовлетворяет ни условию существования, ни условию опре- деленности на бесконечном интервале времени. Следовательно, сигнал должен быть преобразован таким образом, чтобы его преобразование.существовало для случая, когда интегрирование производится в интервале известных прошедших величин. Кро- ме того, чтобы отразить важнейшие временные изменения, ин- тегрирование следует производить только за такой отрезок вре- мени, который соответствует длительности квазиустановивших- ся элементов речевого сигнала. По существу, желательно иметь не что иное, как текущий спектр с реальным временем в каче- стве независимой переменной, где для вычисления спектра ис- пользуются взвешенные предшествующие значения сигнала. Такого рода результат можно получить посредством анали- за некоторой части сигнала, «просматриваемой» через особое временное окно, или весовую функцию. Весовая функция вы- бирается таким образом, чтобы ее произведение с сигналом да- вало функцию, обеспечивающую условие существования преоб- разования Фурье1). Для практических приложений весовая функция h(t) обычно представляет собой импульсный отклик физически реализуемой линейной системы. В таком случае для «О, h(t) = O. Обычно предпочитают, чтобы h(t) была униполяр- ной и представляла собой, по-существу, отклик фильтра ниж- них частот. Следовательно, преобразование Фурье (5.1) можно видоизменить так, чтобы преобразованию подвергалась та часть сигнала, которая в данный момент времени просматривается че- рез окно. Аналитически желаемый процесс можно выразить как t F(a, t) = J /(X)/i(^-X)e-i“xdk, — 00 ИЛИ 00 F(g>, t) = e~iMf J f (t — ).)h (k) eimX d К (5.2) о По определению, имеет место также обратное соотношение: оо [/(k)A(^ — К)] = — f Г(со, 2л —оо ’) Определенный таким образам текущий спектр называется мгновенным спектром, см. [1*]. Здесь и далее звездочкой обозначена литература в спис- ке, добавленном редактором (прим. ред.).
СПЕКТРАЛЬНЫЙ АНАЛИЗ РЕЧИ 163 Сигнал с его предшествующими значениями, взвешенными посредством h(t), для данного момента t показан на рис. 5.1. Преобразование за короткий промежуток времени, определен- ное таким образом, представляет собой свертку h(t)] или, по выбору, е"1 ш/* h(t)e~iml ]. Если положить, что весовая функция h(t) имеет размерность сек~1 ( т. е. считать преобразование Фурье от h(t) безразмерным), то |F(<b, 01 бу- дет представлять собой мгновенный спектр амплитуд с той же Прошедшие Вренн,1,~‘пстоя- иудущие значения ищи нон.-''n значения । Рис. 5.1. Взвешивание непрерывного сигнала f(t) по- средством физически реализуемого временного окна h(t). X—переменная интегрирования, временно вве- денная для выполнения преобразования Фурье в произвольный момент времени t Л Л Л Л размерностью, которую имеет сигнал. Так же, как и обычное преобразование Фурье, 77(со, t) является в общем случае комплексной величиной с амплитудой и фазой, а именно | | eie<m,<), где i9'(co, t) есть мгновенный спектр фаз. 6*
164 УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ 5.1.2. Измерение мгновенного спектра Заметим, что выражение (5.2) можно переписать в виде t t t) — J / (X) cos ®k ft (/— X)rfX— i J f (k) sin &kh(t— k)dk = = [a(®, /) — ift(®, fl] (5.3) Кроме того, i i I/7 (®, fl| = [F (co, fl F* (co, fl]2 = (a2 + ft2)2 (5.4) и 9 (®,/)=arctg — , a где F*(®, t) — величина, комплексно сопряженная c F(®, fl. Заменим, что IF (со, t) | является скалярной величиной, тогда как Ff®, t)F*(a>, t) — формально величина комплексная, а | F(®, t) |2 представляет собой мгновенный спектр мощности Следовательно, измерение | F(®, fl | может быть выполнено с помощью функциональной схемы, показанной на рис. 5.2. sintvt Рис. 5.2. Измерение мгновенного амплитудного спектра [F(co, t) | Частотная интерпретация этих операций не вызывает за- труднений. Смещенный посредством гетеродинирования (или умножения на cos®/ и sin®/) спектр функции f(t) попадает в полосу прозрачности фильтра h(t), который обычно является фильтром нижних частот. Частотные составляющие функции f(i), лежащие в непосредственной близости от частоты ®, в ре- зультате биений с этой частотой образуют разностные компо- ненты, которые и производят основной вклад в величину сиг-
СПЕКТРАЛЬНЫЙ АНАЛИЗ РЕЧИ 165 нала на выходе фильтра h.(t). Оба смещенных посредством ге- теродинирования сигнала, находящихся в квадратурном соот- ношении, возводятся далее в квадрат и суммируются, в резуль- тате чего образуется мгновенный спектр мощности | £)|2. Выражение (5.2) можно также записать в виде Л®, 1)=е~м —x)A(X)cos о i J f(t—k)/z(k) sin о = [a' (®, t) + i b' (®, 01 e~imt (5.5) Соответствующий этой записи способ измерения \F(a>, t)\ = =[а 2 + b 2 ]1/2 можно осуществить при помощи функциональ- ной схемы, показанной на рис. 5.3. Рис. 5.3. Другой способ измерения мгновенного амплитудно- го спектра I В этом способе измерения применяется фильтрация с по- мощью полосовых фильтров со взаимно сдвинутыми на л/2 фа- зовыми характеристиками и с симметричными относительно ® частотными характеристиками, имеющими вдвое большую по- лосу пропускания по сравнению с характеристикой фильтра нижних частот h(t). Поступающие с обоих фильтров сигналы возводятся в квадрат и суммируются, образуя мгновенный спектр мощности ] t) |2. Оба фильтра имеют импульсные отклики, огибающие которых представляют собой временное ок- но h(t). В общей сложности требуется столько пар фильтров, сколько отсчетов мгновенного спектра требуется определить. Следует отметить также, что для обоих способов измерения, по- казанных на рис. 5.2 и 5.3, мгновенный спектр единичного им- пульса f(t) выражается просто функцией h(t), т. е. весовой функцией. На практике по возможности упрощают аппаратуру путем приближенного выполнения измерений, приводимых на рис. 5.2 и 5.3. Искомая функция |F(a, t) | =[а'2 (а>, t) + b'2 (a, f)]1/2,no
166 УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ существу, является временной огибающей функции а'(а>, t) ли- бо Ь'(а, t). Временная огибающая функции u(t), для которой' существует преобразование Фурье, может быть определена как А 1 /2 А 1 e(t) =[u2(t) + u2(t)] , где u(t)=u(t)9— есть преобразование л/ Л Гильберта от u(t). Можно показать что u(t)v(t) = u(t)v(t)~ л = u(t)v.(t) при условии, что спектры u(t) и v(t) не перекры- ваются. Используя эти соотношения и изменяя порядок интегрирова- ния в свертке, получим a'(a, t)= [f (/)* h (f) cos co A a'(d>, t)= (5.6) = f(t) * [/z(/)sin® £] — b'(&, t) при условии, что частота со не попадает в спектр h(t). Таким образом, величина | t)\ действительно является времен- ной огибающей a'fco, t) либо b'(a, t) [а(со, t) либо b(a, f)]. Эту огибающую можно электрически аппроксимировать формой огибающей на выходе фильтра в любой из ветвей фильтра, по- казанного на рис. 5.3. Обычно она получается в результате ли- нейного детектирования с последующей фильтрацией с помощью фильтра нижних частот, как показано на рис. 5.4. При соответ- ствующем выборе импульсного отклика фильтра нижних частот выходное напряжение \f(t) *p(t) I* q(t) приближенно описы- вает |F(®, i)|. Способ измерения, показанный на рис. 5.4, является спосо- бом, используемым в широко известном звуковом спектрографе и в большинстве анализаторов спектра параллельного типа. Рис. 5.4. Блок-схема измерения мгновенного спектра |Р(со,/)] с использованием полосово- го фильтра, детектора и сглаживающей це- почки (фильтра нижних частот) Этот способ обычно используется для получения мгновенного спектра в вокодерах и в некоторых устройствах для автоматиче- ского формантного анализа. Все эти применения подробно рас- сматриваются ниже. На рис. 5.5 в качестве примера изображены следующие друг за другом графики мгновенного спектра озвученного образца
СПЕКТРАЛЬНЫЙ АНАЛИЗ РЕЧИ 167 I 1—1_________I_______1---1 О,! 0,5 !,0 2,0 ^0 0,0 Частота, кги, Рис. 5.5. Мгновенные амплитуд- ные спектры речи, измеренные гребенкой из 24 полосовых филь- тров речи, воспроизведенные гребенкой из 24 фильтров. При ширине полосы каждого фильтра примерно в 150 гц они перекрывают частотный диапазон от 150 до 4000 гц. За каждым фильтром <следует выпрямитель и RC-це- почка. Сигналы, снимаемые с выходов гребенки фильтров, по- очередно коммутируются с пе- риодом 10 мсек. Дискретные от- счеты спектра соединяются пря- мыми линиями. Изображенные здесь кривые развертки спектра были автоматически вычерчены на вычислительной машине, в ко- торую вводились данные с выхо- дов гребенки фильтров (Флана- ган, Кокер, Бёрд—Coker, Bird). Линии, соединяющие пиковые значения, представляют собой формантные частоты речи, кото- рые были определены в процессе машинной обработки мгновенно- го спектра. 5.1.3. Выбор весовой функции Для кратковременного анали- за речи обычно представляется целесообразным отдельно рас- сматривать такие свойства голо- са, как вокализованное и невока- лизованное возбуждения, часто- та основного тона и формантная структура. Выбор весовой функ- ции при анализе определяется в результате компромисса между разрешающими способностями по частоте и во времени. Корот- кая по длительности весовая функция соответствует фильтру с широкой полосой пропускания. С помощью такого фильтра мож- но произвести спектральный анализ, в процессе которого выде- ляется временная структура одного периода речевого сигнала. С другой стороны, весовая функция длительностью в несколько периодов основного тона соответствует фильтру с более узкой полосой пропускания. С помощью этого фильтра можно произ- вести анализ с разрешением по частоте каждой гармонической спектральной составляющей. Чтобы проиллюстрировать порядок практически используе- мых величин полос пропускания и длительностей весовых функ-
168 УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ ций, введем в рассмотрение идеальные анализирующие поло- совые фильтры (которые, естественно, не могут быть реализо- ваны) с прямоугольной амплитудно-частотной характеристи- кой и нулевой (либо строго линейной) фазовой характеристи- кой. Допустим, частотная характеристика фильтра имеет вид Р(®)=1; (®0 — ® < (®0 + mJ = 1; — (®о + ®i) < ® < — (®о —®i) (57) = 0 — на всем остальном диапазоне Соответствующий ей импульсный отклик запишется как /д \ / sin со, / \ , ., /, , , Pit) = — --------------7— COSCD^ = h(t)COS <d0(t), (5.8) \ Л / \ cox t j Т аблица 5.1 Вариант 1 2 3 Асо & 50 100 250 D [мсек] 40 20 8 а весовая функция для этого идеального фильтра представля- ет собой огибающую импульсного отклика вида sin х/х. Если в качестве эффективной длительности D весовой функции вы- брать интервал времени между первыми нулями огибающей, то £> = 2л/со] =4л/Асо, где Асо = 2со1 есть полоса пропускания филь- тра1). Ниже, в табл. 5.1, в качестве примера приведены вели- чины D, соответствующие нескольким значениям Асо. В варианте 1 анализирую- щий фильтр имеет такую по- лосу частот, которая позволя- ет обеспечить необходимую точность анализа при выделе- нии каждой гармонической со- ставляющей на вокализован- ном участке речи. Этой полосе частот соответствует длитель- ность временного окна, при- мерно равная четырем или пя- ти периодам основного тона мужского голоса. С другой стороны, широкополосный фильтр в варианте 3 характеризуется весовой функцией, сравнимой по длительности только с одним периодом основного тона мужского голоса. В этом случае точность анализа во времени позволяет учиты- вать амплитудные изменения, длительность которых сопостави- ') Иногда в качестве эффективной длительности весовой функции вы- бирают половину указанной величины.
СПЕКТРАЛЬНЫЙ АНАЛИЗ РЕЧИ 169 ма с одним периодом основного тона. Фильтры, аналогичные тем, которые приведены в вариантах 1 и 3, используются в ши- роко известном звуковом спектрографе, который будет рассмот- рен в следующем параграфе. Промежуточный вариант 2 является своего рода компромис- сом между требованиями, предъявленными к анализу речи с временной и частотной точек зрения. Фильтр в этом случае име- ет такую полосу пропускания, которая считается наиболее под- ходящей при определении мгновенного спектра в устройствах типа вокодера и формантного выделителя. Показанный на рис. 5.5 мгновенный спектр получен с помощью такого рода фильтров. Здесь уместно дать оценку эффективной длительности ве- совой функции для механического мгновенного анализа, про- изводимого базилярной мембраной в ухе человека. Из гл. IV 9 следует, что достаточно хорошее приближение к закону сме- щения базилярной мембраны при воздействии на нее единич- ного импульса в точке максимальной чувствительности к кру- говой частоте р дается выражением Р (0 = Ф t? sin р t = hbm (t) sin p t. (5.9) Весовая функция для базилярной мембраны, построенная по этому выражению* 2), изображена на рис. 5.6. Протяжен- ность весовой функции обратно пропорциональна круговой ча- стоте ₽. Функция имеет максимум при tMaKC==4/p. Если эффек- тивную длительность D считать в первом приближении равной 2 ^макс, то для различных точек мембраны получим (табл. 5.2): Отсюда следует, что для речевых сигналов механиче- ский анализатор уха обеспечи- вает лучшую разрешающую способность во времени, чем Рис. 5.6. Эффективное временное ок- но для кратковременного частотного анализа, производимого в ухе че- ловека базилярной мембраной. Ве- совая функция установлена из рас- смотренной в гл. IV модели уха >) См. также «третью» модель, описанную Фланаганом (11962, а). 2) Выражение (5.9) не учитывает влияния среднего уха. Подробнее см. гл. IV.
170 УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ по частоте. Единственной спектральной составляющей, разли- чаемой этим механическим анализатором, является, вообще го- воря, лишь первая гармоника основного тона. Этот вывод под- твердили результаты изучения моделей, описанных в гл. IV. 5.1.4. Звуковой спектрограф Спектральный анализ речи, образно говоря, достиг совер- шенства с разработкой звукового спектрографа (Кёниг, Данн и Леси — Koenig, Dunn and Lacy). С помощью этого устройства можно непрерывно наблюдать за мгновенным спектром сиг- нала достаточно большой длительности. Используемый здесь способ анализа в точности соответствует функциональной схе- ме, показанной на рис. 5.4. Весовая функция выбирается из ус- ловия выявления важнейших акустических характеристик и осо- бенностей восприятия, таких, как формантная структура, во- кализованность, шумность, ударение и высота основного тона. Было разработано много других приборов для спектрального анализа, однако относительное удобство и простота обращения звукового спектрографа указанного типа способствовали широ- кому его внедрению в качестве инструмента для анализа речи и фонетических исследований. Поэтому в этом разделе даны его краткое описание и принципы действия. На рис. 5.7 приведена функциональная схема звукового спектрографа, известного под названием «сонограф модели D». 6 7 гринмь Рис. 5.7. Функциональная схема звукового спектро- графа: / — микрофон, 2 — головка записи и воспроизведения, 3 — магнитный диск, 4 — барабан, 5 — электрочувствитель- ная бумага, 6 — кулачок, 7 — включатель блока сечения, 8 — наконечник, 9 — механическая связь, 10 — усилитель то- ка записи, 11 — генератор переменной частоты, 12 — блок сечення, 13 — анализирующий полосовой фильтр, 14 — мо- дулятор
СПЕКТРАЛЬНЫЙ АНАЛИЗ РЕЧИ 171 Когда микрофонный переключатель П\ находится в положе- нии «Запись», образец речи (обычно продолжительностью 2,5 сек) записывается на магнитный диск. Затем микрофонный переключатель переводится в положение «Анализ», и записан- ный образец подвергается спектральному анализу путем его многократного пропускания через полосовой фильтр. Этот фильтр в процессе ряда последовательных воспроизведений об- разца речи медленно перемещается по частотной полосе сиг- нала. Таким образом, в результате получается устройство, эк- вивалентное по действию анализатору с многими фильтрами. По техническим причинам более удобно использовать фильтр с фиксированной полосой прозрачности при наличии «сколь- зящего» спектра сигнала, пропускаемого через этот фильтр. Требуемое скольжение осуществляется перемещением по оси частот боковой полосы сигнала, полученного в результате мо- дуляции речевым образцом высокочастотной несущей. В свою очередь, боковая полоса перемещается благодаря изменению частоты несущей. Управляемый генератор несущей частоты ме- ханически связан с магнитным диском так, что последователь- ный анализ спектра записанного сигнала производится в про- цессе повторных оборотов этого диска. Когда переключатель 772 находится в положении «Спектро- грамма», ток на выходе полосового фильтра усиливается и под- водится к наконечнику, положение которого в вертикальной плоскости определяется количеством оборотов магнитного дис- ка и значением несущей частоты (т. е. однозначно соответствует настройке полосового фильтра относительно анализируемого спектра). Наконечник соприкасается с электрочувствительной бумагой, которая закреплена на барабане, расположенном на одном валу с магнитным диском. Электрический ток, проте- кающий через наконечник, прожигает бумагу, и по степени ее почернения определяют величины тока. Бумага играет роль двухполупериодного детектора, изображенного на рис. 5.4, а конечные размеры и расплывчатость следов от прожогов харак- теризуют процесс низкочастотной фильтрации. Плотность сле- да от прожога приблизительно пропорциональна логарифму ве- личины тока. Механически связанные друг с другом наконеч- ник и несущая при вращении магнитного диска медленно пе- ремещаются по частотному диапазону сигнала, в результате чего на бумаге «вырисовывается» изображение этого сигнала в измерениях время — интенсивность — частота. Обычно в спектрографе используются два типа полосовых фильтров с полосами прозрачности 300 и 45 гц. Ширина полос этих фильтров, по существу, определяет разрешающую спо- собность анализа во времени и по частоте. Известно, что филь-
172 УСТР0ИС1ВА ДЛЯ АНАЛИЗА РЕЧИ Рис. 5.8. Звуковая спектрограмма фразы «That you may see», полученная с помощью широкополосных фильтров (я), и графики распределения ампли- туд по частоте (амплитудные сечения), полученные для гласного звука в слове «that» и фрикативного звука в слове «see» (б) (Барни и Данн). Звез- дочкой обозначено расстояние между соседними гармониками колебаний голосовых связок тры с широкой полосой пропускания позволяют осуществить более точный анализ речевых образцов во времени, а узкопо- лосные фильтры обеспечивают более высокую разрешающую способность спектрального анализа вокализованных участков речи, позволяющую выделить каждую гармоническую состав- ляющую. В верхней части рис. 5.8 показана типичная спектро- грамма, полученная при помощи анализирующего фильтра с полосой пропускания в 300 гц. Стрелками указаны некоторые характерные признаки речи. Разрешающую способность во вре- мени наглядно характеризуют вертикальные полоски на уча- стках звонких звуков, показывающие основной период колеба- ний голосовых связок. Электрочувствительная бумага позволяет воспроизвести диа- пазон интенсивностей (от бледно-серого до самого черного) в пределах не более 12 дб (Престиджиакомо — Prestigiacomo, 1957). Однако во многих случаях требуется провести исследо- вания амплитудного спектра для значительно большего дина-
СПЕКТРАЛЬНЫЙ АНАЛИЗ РЕЧИ 173 мического диапазона. Поэтому в спектрографе предусмотрена возможность получения в любой заданный момент по шкале времени графиков зависимости амплитуды от частоты. Для этой цели переключатель 772 (рис. 5.7) переводится в положе- ние «Сечение». На окружности барабана в точке, соответствую- щей времени воспроизведения того звука, для которого нужно получить амплитудное сечение, закрепляется кулачок. Функ- ции несущей и наконечника остаются прежними. Блок формирования амплитудного сечения состоит из двух- полупериодного детектора, интегрирующей ДС-цепочки и за- пертого мультивибратора. При вращении магнитного диска и барабана кулачок в нужный момент замыкает контакты вклю- чателя блока формирования сечения. Происходит «считывание» величины мгновенного спектра и запоминание ее посредством заряда конденсатора в сеточной цепи запертого мультивибра- тора. Напряжение на зажимах конденсатора уменьшает сме- щение на сетке, и мультивибратор начинает генерировать им- пульсы до тех пор, пока заряд на конденсаторе не упадет до некоторой пороговой величины. После этого генерация прекра- щается. Во время работы мультивибратора к наконечнику под- водится ток, и вследствие экспоненциального закона спадания за- ряда на конденсаторе длина следа на бумаге оказывается про- порциональной логарифму величины сглаженного напряжения на выходе анализирующего фильтра. Так как наконечник пере- мещается по шкале частот вместе с фильтром, на бумаге вы- черчивается график зависимости амплитуды (в децибелах) от частоты для выбранного момента времени. Амплитудные сечения обычно выполняются посредством уз- кополосного фильтра с шириной полосы в 45 гц. В нижней ча- сти рис. 5.8 показаны типичные сечения для гласного и фрика- тивного звуков. Поскольку в процессе перемещения анализирующего фильтра вдоль полосы частот речевого образца последний нуж- но воспроизводить многократно, на изготовление полной спек- трограммы затрачивается довольно значительное время. На практике обычно сокращают время анализа путем увеличения в несколько раз скорости воспроизведения, например в три раза. Записанная полоса частот от 100 до 4000 гц в этом случае расширяется в пределах от 300 до 12 000 гц. Если середина полосы пропускания анализирующего фильтра расположена на частоте 15000 гц, то частота несущей изменяется от 15 000 до 27 000 гц. Для анализа речевого образца продолжительно- стью 2,5 сек. требуется от одной до нескольких минут в зави-
174 УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ Рис. 5.9. Диаграммы положений артикуля- торных органов и соответствующие им спектрограммы, полученные с помощью широкополосных фильтров для гласных /1, ае, а, и/, произнесенных взрослыми- дик- торами мужского и женского пола (Пот- тер, Копп и Грин) симости от ширины ча- стотного диапазона и используемых техниче- ских приемов. В про- цессе анализа записан- ный образец воспроизво- дится несколько сотен раз. Скорость перемеще- ния фильтра составляет обычно величину порядка 20 гц на один оборот маг- нитного диска. Рисунок 5.9 позволяет установить, каким обра- зом на спектрограмме, изготовленной с исполь- зованием широкополосно- го фильтра, проявляются резонансные области го- лосового тракта или фор- манты для (различных по- ложений артикуляцион- ного аппарата. Для четы- рех гласных звуков /i, а, эг,,и/ приведены диаграм- мы положений артикуля- торных органов и соот- ветствующие им спектро- граммы, полученные с помощью фильтра с по- лосой пропускания 300 гц. Темные полосы обознача- ют участки концентрации спектральной энергии и характеризуют положение резонансных областей для данной конфигурации ар- тикуляционного аппарата (эти спектрограммы мож- но сопоставить с образ- цами рассчитанных для тех же гласных звуков (резонансных об- ластей, приведенных на рис. 3.28 и 3.29). Типичной областью применения таких спектрограмм в иссле- довательских целях является изучение в больших масштабах частот, амплитуд и положений фронтов формант гласных зву-
СПЕКТРАЛЬНЫЙ АНАЛИЗ РЕЧИ 175 ков для большого числа различных дикторов (Петерсон и Бар- ни — Peterson and Barney). Значения формантных частот глас- ных звуков английского языка, произнесенных 33 дикторами- мужчинами, приведены на рис. 5.10. Эти гласные произноси- лись между двумя согласными в составе слога /Ь—d/. i 3600 3000 - 2400 1800 1200 600 гц Об 3010-22 ттягтъ- гц дб' 2550-2, Z-2290.2, - 22Й2 1990-23 гц дб 2480-2, гц дб 241О.2г гч дб 2410-3, гч дб гч дб 270-ь 2^ 390-3 1840-,, 77777775- 17S0-/2 гч дб 2940-2» 1090-5 8W-1 v/mwerA гч дб 224^ 224i,3\J^ 530-2 \wmowA 660., 777Ш.. 730 УЮй»/а\ а. 570 е 440 1020-J2 вЯ-к \7/7//////А гц дб 1S90-2I, ПЭО-п 870.№ 300 -з \7SS/////s\ 640., 490-5 \г/уш/у\ Vtf/мууА W//////A \гМ/////\ \/70И77А О I I г X э V и л Рис. 5.10. Средние формантные частоты и относительные амплитуды для гласных звуков английского языка, произнесенных 33 дикто- рами мужского пола в составе слога /h—d/. Относительные ампли- туды формант приведены в дб по отношению к первой форманте гласного звука (о) (Петерсон и Барни); взято из материалов Хае- киноких лабораторий Было сконструировано и применено на практике большое число приборов типа звукового спектрографа как его прототи- пов, так и модификаций, причем обычно каждый из них пред- назначался для вполне определенной цели. В этих устройствах использовались самые различные способы анализа от гре- бенки фильтров со сканированием до корреляторов. Ог- раниченный объем настоящего издания не позволяет даже упомянуть о многих из них. Одним из видов спектрографа является так называемый «резонограф» (Хаггинс — Huggins, 1952). Этот прибор предназначен для подчеркивания формант- ных частот и подавления межформантной энергии. Другой вид прибора выявляет не просто амплитудный спектр, а его про- изводную по времени (Мейер-Эпплер — Meyer-Eppler, 1951; Кок и Миллер — Kock and Miller). Желаемый эффект состоит в том, чтобы подчеркнуть в спектре динамику временных изме- нений и не реагировать на его квазистационарные участки. При этом наиболее ярко выявляются такие особенности речи, как наличие взрывных согласных или формантных переходов.
176 УСТРОЙСТВА для АНАЛИЗА РЕЧИ Ближайшим «родственником» этих приборов является так называемое устройство «видимой речи» (Дадли и Грюенц — Dudley and Gruenz; Райз и Шотт — Riesz and Schott), в кото- ром обычная звуковая спектрограмма электронным способом вырисовывается в реальном масштабе времени либо на люми- несцентном покрытии непрерывно движущейся ленты, либо на экране вращающейся электронно-лучевой трубки. Еще одним видом прибора служит коррелограф (Беннет — Bennett, 1953; Биддалф — Biddulph), который воспроизводит изображение кратковременной функции корреляции сигнала в виде следов различной плотности; при этом по оси ординат откладывает- ся время задержки, а по оси абсцисс — текущее время. Было также описано несколько схем, позволяющих осуще- ствить квантование в измерении интенсивности для обычных спектрограмм (Керсга — Kersta, 1948; Престиджиакомо — Prestigiacomo, 1957). В результате вычерчивается «топологиче- ская карта» сигнала, в которой градиент интенсивности прояв- ляется в виде сгущения или разрежения контурных линий. 5.1.5. Кратковременная функция корреляции и мгновенный спектр мощности Если x(t) есть стационарный случайный процесс, то его ав- токорреляционная функция ср(т) и спектр мощности Ф(ы) свя- заны преобразованием Фурье (Винер, Ли — Wiener, Lee): +Т оэ ср (т) = lim — f х (t) х (t + x) dt = — f Ф (co) e’“T d co т-too 2T J 2л J —T —oo и oo Ф (co) = cp (x) e-“°T d т —oo (5.Ю) [заметим, что ср (0) представляет собой среднее значение квад- рата, или среднюю мощность сигнала]. Для апериодического детерминированного сигнала y(t), для которого существует преобразование Фурье, связь между авто- корреляционной функцией ф(т) и энергетическим спектром Д(со) выражается аналогичными соотношениями: ОО оо Ф (т) = J у (0 у (t + т) dt = — J V (®) е‘“т d со — оо —оо , (5.И) V (®) = J ф (т) е ,mdx
спектральный анализ речи 177 где Т (со) = У (со) У* (со), а У(со) = ^y(t)e 'mt dt. (Заметим, что ---------------------------------00 00 ф(0) = представляет собой полную энергию сиг- нала.) В обоих случаях функция корреляции является действитель- ной и четной функцией параметра задержки т, а спектр —дей- ствительной и четной функцией частоты ы. Таким образом, все преобразования можно записать как косинус-преобразования. Эти пары преобразований указывают на возможность определе- ния информации о мгновенном спектре с помощью корреляци- онных методов при условии, что последние распространяются на случай, соответствующий кратковременному анализу. При рассмотрении кратковременного спектрального анализа к поставленной задаче подходили с точки зрения необходимо- сти анализировать преобразуемые по Фурье «кусочки» сигна- ла, полученные подходящим взвешиванием его прошедших значений. Корреляционные соотношения для апериодических функций можно также распространить на описание речевого сигнала. Согласно ранее сделанным выводам полагаем, что в любой момент времени t для речевого сигнала f(t) справедливы следующие преобразования: оо К (со, t)= J f (X) ft (* — X) е~1шХ d X —co (5.12) — A)] = 0eil“Xd© —оо где h(t) есть весовая функция. Отсюда формально имеем t ф (т, t) — j f (У) h(t — ^) f Q' + T) h (t — — xjdl —co co ф (t, t) = — f ¥ (®, t) e‘“T d io 2л J —co 00 ¥ (co, t) = [F(co, t)P* (®, £)] = f Ф(т, i)e~lmx dx —co (5.13)
178 УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ Практически при измерениях в реальном масштабе времени t значение функции для т>0 неизвестно. (Для фиксиро- ванной величины общей задержки, сравнимой с длительностью весовой функции, т можно рассматривать как дифференциаль- ное время задержки.) Однако ф(т, t) формально есть четная функция т. Поэтому она может быть определена посредством только отрицательных значений т, так что (ю, /) = J ф (т, t) е~1<от d т = 2 J ф (г, /) cos сот d т, (5.14) авто- мощ- были 5.1.3. для Рис. 5.11. Способ измерения кратковре- менной функции корреляции ф(т, t) где ЧД®, t) есть также четная функция со. Таким образом, может быть найдена кратковременная корреляционная мера, связанная с мгновенным спектром ности IT'fco, t) |2. Способы измерения | F(&, £)|2 уже описаны в разделе Измерение ф(т, t) отрицательных значений т может быть выполнено с помощью устройства, показанного на рис. 5.11. Сигналы, снимаемые с отводов линии задержки, взвешиваются в соответ- ствии со значениями функции h(t) в точках отводов. Соответствую- щие отсчеты (текущей переменной X) перемно- жаются, а операция ин- тегрирования заменяется суммированием конечно- го числа отсчетов1). Таким образом, ф(т, t) есть текущая корреляция, которая связана с F(®, f)|3 или ЧД®, /) преобразованием Фурье. Можно также определить кратковременную функцию кор- реляции как результат взвешенного произведения исходного и задержанного сигналов (Фано—Fano). Для этого случая имеем ’) Приведенная на рис. 5.11 схема моделирует вычисление функции для отрицательных значений т в соответствии с выражением Дт, t) =y(t—Х)й(Х)х о X f (t— X — т) h (X т)Л, а не в том виде, как ова записана в выражении (5.13).
СПЕКТРАЛЬНЫЙ АНАЛИЗ РЕЧИ 179 t ш/)= pew+'W-w, (5.15) —00 где K.(t)=0 при £<0 есть весовая функция. Измерение можно осуществить для т<0 с помощью устройства, схема которого по- казана на рис. 5.Г2. Этот способ был реализован на практике для измерения функции корреляции звуков речи (Стивенс — Stevens, 1950; Крафт, Биддалф—Kraft, Biddulph). Задержка Рис. 5.12. Схема для измерения текущих значений кратковременной функции кор- реляции ф(т, t) В общем случае не существует простого соотношения между ф(т, 0 и мгновенным спектром мощности, получаемым на вы- ходе измерительного прибора. Однако в особом 'случае k (t) = = 2ае-2“( =(/i(t)]2 функция <р(т, t) может быть связана с Т(со, t) =|F(®, t)|a: ф(т, i)= J f(X)h(i-k)f(X + x)h(t-k-T)dX = —oo = e“x J 2a f (k) f (k + t) e~2a (i-X) dk = eax <p (t, t); т < 0. (5.16) —oo Выше было показано, что ф(т, t) есть четная функция т, и если <р(т, t) также определена как четная функция, то 'ф(т,^)=е-а|х|(р(т^ для всех т, или I 30 Ф (т, t) — ea |х| ф (т, t) = ------------ ( (®> t) е’"х d со и 00 00 W (со, t) = У е~“|х| ф(т, dx = J е~а|х|ф(т, t) cos сотdт. —оо —оо (5.17а)
180 УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ Отсюда также следует, что t) = [з { е~“|т|} * 3{ср(т, /)}] = 1 2л (—-----1* Ф(®, = ~t|tf(“)l2 \ a2 + w2 / ' 2л 1 *Ф(й, £)], (5.176) где 3 обозначает преобразование Фурье. Таким образом, мгновенный спектр мощности 4r(m, t) пред- ставляет собой результат свертки спектра мощности Ф(ы, t) с квадратом коэффициента передачи фильтра нижних частот [2а/(а2+©2)]. Следовательно, Чг(ы, t) имеет более низкую разре- шающую способность по частоте, чем преобразование Фурье от <р(т, t) [т. е. Ф(и, /)]. Заметим также, что для h(t) = = (2а)1/г е~а< | F(a, t) | по существу, является результатом из- мерения посредством одиночных резонансных контуров с импуль- сными откликами вида [(2а) 1/2 е—“*cos ы/] и [(2а)1/2 е—a/sinco^J (см. рис. 5.3). Весовые функции, отличающиеся от только что рассмотрен- ной экспоненциальной, не приводят к простым соотношениям между ср(т, t) и спектром мощности. Однако для корреляцион- ных функций, получаемых на выходе измерительного прибора, и мгновенных спектров мощности можно дать другие определе- ния, которые позволяют связать эти функции преобразованиями особого вида (Шредер и Этол—Schroeder and Atal). Например, мгновенный спектр можно определить как 00 Q(co, t) = J ср (т, t)m(\x\)cosaxdx, (5.18а) —оо в котором ср(т, t), как и в выражении (5.15), определена как чет- ная функция т (но измеренная только для запаздывающей ча- сти), так что t ф(т, о= J ИХШХ~ |т|)п(/ — X)dx, (5.186) где т(1) и n(t) суть физически реализуемые и равные нулю для t<0 весовые функции1). Таким образом, Q(co, t) и ср(т, t) ока- зываются связанными посредством определений (5.18). Функцию ) Чтобы Q(w, t) была положительной величиной, на n(t) необходимо на- ложить дополнительные ограничения.
СПЕКТРАЛЬНЫЙ АНАЛИЗ РЕЧИ 18Г <р(х, t) можно измерить в соответствии с рис. 5.12. Измерение Й(со, t) также можно выполнить непосредственно. Подставив значения ср (х, t) из (5.186) в (5.18а), получаем t ОО Q(®, 0 = 2 J/(k)nfr-X)dkp(k-T) tn (x) cos cot d x = —co 0 = 2{n(t) <(/)[/(!)* m(t) cosm/]}. (5.19) Рис. 5.13. Устройство для измерения крат- ковременного спектра Q(co, t) (Шредер н Этол) Таким образом, как видно из выражения (5.19), чтобы по- лучить мгновенный спектр Q (©, t), необходимо профильтровать сигнал f(t) полосовым фильтром, имеющим импульсную реак- цию вида [m(/)cos<pO, умножить выходное на- пряжение этого фильт- ра на исходный сигнал и результат профильт- ровать фильтром ниж- них частот, имеющим импульсную реакцию n(t). Устройство для измерения сигнала Q(co t) представлено на рис. 5.13. При m(t) =n(t)=e at й(со, t\ превращается в Ч*"(со, t). Из определения для й(со, t) .вытекает обратное соотношение: ОО ср(-т, t) = ———-J Q(со, /)cosmxdo). (5.20) Определяющие соотношения (5.18) также означают, что Й (со, = Ф (со, t), (5.21) где Л4 (со) = J т (| т |) е-1шх dx и Ф(со, t) — J ср (х, ^)e-1“xdx. Этот результат может быть сопоставлен с выражением (5.17), где \Н(а)\2= J е~“|х| e-imx d х, — оо Н (со) = J (2а)1/2 е-ах e~imx d х = [ h (х) е~!шх d х. о о Поскольку Й(со, t) получена из Ф(со, t) посредством свертывания с коэффициентом передачи М(&) (фильтра нижних частот), она имеет более низкую спектральную четкость по сравнению с. Ф(со, /).
182 устройства для анализа речи 5.1.6. Средний спектр мощности В рассмотренных выше схемах для измерения спектров взве- шивание прошедших значений сигнала производится с помощью •функций относительно короткой длительности. В результате по- лучаются спектры, которые отражают достаточно быстрые вре- менные 'изменения. Если важны не кратковременные изменения, а -среднее спектральное распределение, представляет интерес также значение спектра, усредненное за длительный промежу- ток времени, скажем вида ]Е(со, /)|2. Такое усреднение может •быть записано как т lim A- f F (<о, t) F* (®, t) dt = |Ё((о, ;) |2 = V (ш, t) = Т-*сс J —Т Т t t = lim i f dt f C/(-»])— eimi] d 7]. T^ T -T Д Joo (5.22) Заменяя переменные и переставляя члены, имеем оо оо Т |F(<o, fl|2 = JdU(X)e““xp7iA(7i)e-““’1 lim 0 о — т -Wt—tidt. (5.23) В соответствии с (5.10) последний интеграл есть просто функция q>(X—т]), которая представляет собой преобразование Фурье от Ф(со). Таким образом, <р(к — -л) = — [ Ф (8) е'8 (Х~’1) d 8 = — С Ф (8) e~ls (Х_71) d 8, 2л J 2л J --00 —оо поскольку Ф(со)—функция действительная и четная. Значит, = J Ф (8) d 6 J h (k) eiX (“-s) d к J h ft) е-1'71 (““S) d т] = — 8 0 О = J_ Jo (8) я (и — 8) я* (со — 8)d8= (5‘24) моо = lF(<0, rtl2 = [Ф (ю) * I н (со) I2].
спектральный анализ речи 18S Следовательно, усредненное за длительный промежуток вре- мени значение спектра мощности |Д(со, 012 представляет собой свертку спектра мощности Ф(со) с квадратом преобразования Фурье от весовой функции h(t). Чем уже спектр |Я(со)|2, тем точнее приближается [/•’(со, £)|2 к спектру мощности Ф(со). Узкий Н(to) соответствует фильтрам (рис. 5.3 и 5.4) с широким вре- менным окном и узкой полосой пропускания. В пределе Н(со) вырождается в единичный импульс при со='0, весовая функция— в единичную функцию, a |.F(co, £)|2 приобретает те же спек- тральные характеристики, которыми обладает Ф(со). Для лю- бого со | F(a, /)|2 представляет собой интеграл энергетического спектра, «увиденный» сквозь расположенную у со апертуру |/7(со ) ]2. Таким образом, | /Дсо, ^)[2 есть средняя мощность сиг- нала в частотной полосе фильтра, приведенного на рис. 5.4. Выше было показано [выражение (5.176)], что при h (t) = = [(2а)1/2 е“а<] Т(со, £)=— [|Я(со)|2 * Ф(со, ()]. В этом случае усреднение за длительный промежуток времени будет иметь вид Т оо T (со, t) = lim — ( С е-“'х'ср(т, t) cos сотdтdt = T-wo 2T J J —T— oo OO = J e_“1x1 ср(т,ж£) cos cordt. (5.25) — 00 Подставляя вместо <р(т, t) его значение из (5.15) и заменяя переменные, придем к 4е (со, t) = J е_“ |х1 ср (т) cos cordт ^A(|J)d|J. (5.26) о 6 Поскольку f/c(/) df= fh\f)df = 1, то Т(со, [|Д(со)|2 * Ф(со)]> о о 2~ что соответствует результату, полученному в (5.24). 5.1.7. Измерение среднего спектра мощности речи Имеются многочисленные данные по экспериментальным из- мерениям среднего спектра мощности речи (например, Сайвай-
184 УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ ен, Данн и Уайт—Sivian, Dunn and White). В большинстве ме- тодов, по существу, используется устройство с полосовым Рис. 5.14. Схема для измерения усредненного за длительное вре- мя спектра мощности сигнала фильтром, показанное на рис. 5.4, дополненное квадратичным детектором и интегратором с большой постоянной времени (усреднителем). Такое устройство показано на рис. 5.14. Если переключатель Пер замкнуть в момент t=0 и оставить замкну- тым в течение Т сек, накопленное емкостью напряжение прибли- зительно будет равно |F(a», t)\2 и может быть записано как I j-----1_(Г_Х) Fc(7)=^(ffl,k)^e № d\. b (5.27) Если RC^>T, то экспонента в выражении (5.27) для ОсХсТ мало отличается от единицы и т VC(T) (5.28) о Описываемый выражением (5.28) способ измерения был ис- пользован в одном из исследований речевого спектра. В частот- ном диапазоне ниже 500 гц применялись полуоктавные полосо- вые фильтры, а выше 500 гц—октавные. Время интегрирования равнялось 1/8 сек (Данн и Уайт). Распределение абсолютной среднеквадратичной величины речевого давления в этих поло- сах, измеренное на расстоянии 30 см от рта диктора, непрерыв- но произносившего разговорный текст, показано на рис. 5.15. Результаты получены путем усреднения данных для шести муж- чин. Отметками на левой оси ординат показано аналогичное распределение для нефильтрованной речи.
спектральный анализ речи 185. Рис. 5.15. Среднеквадратичная величина зву- кового давления, измеренная с интервалами длительностью в '/в сек на расстоянии 30 см от рта диктора. В качестве параметра выбра- но процентное количество интервалов, имею- щих уровни, которые превышают данное зна- чение по ординате Если время интегрирования взять достаточно большим, ска- жем не менее минуты для связной речи (включая все естествен- ные паузы между слогами и предложениями), либо если усред- нить большое число из- меренных кратковре- менных спектральных распределений, то по- лучим спектр мощно- сти, усредненный за длительный промежу- ток времени, в котором будут полностью сгла- жены все изменения, соизмеримые с дли- тельностью слогов. Ре- зультаты измерений спектра мощности (ре- чи Ф(со), усредненного за длительный проме- жуток времени, кото- рые получены в пред- положении, что мощ- ность речи в полосах 62,5 125 250 500 1000 2000 W00 8000 Частота., гц Рис. 5.16. Усредненный за длительный про- межуток времени спектр мощности слит- ной речи, измеренной на расстоянии 30 см от рта диктора: сплошная кривая—среднее для шести муж- чин; пунктирная кривая—среднее для ше- сти женщин
486 устройства для анализа речи пропускания октавных и полуоктавных фильтров распределена равномерно, приведены на рис. 5.16. Здесь по оси ординат от- ложена среднеквадратичная величина звукового давления, при- ходящегося на 1 гц полосы частот. Усреднение позволило не показывать на рис. 5.15 и 5.16 подробную формантную струк- туру отдельных звуков. 5.2. Формантный анализ речи 5.2.1. О формантной структуре речи Формантный анализ речи можно рассматривать как особый вид спектрального анализа. Задача состоит в определении комп- лексных частот формант речеобразующего механизма в про- цессе их изменения во времени. Эти изменения, очевидно, обус- ловлены перестройкой артикуляционных органов голосового тракта. Один из возможных подходов к такого рода анализу состоит в выяснении того, в каком виде проявляются в мгновен- ном спектре сигнала резонансные максимумы системы речево- го тракта. В качестве предварительной иллюстрации на спектро- грамме рис. 5.17 показаны в идеализированной форме траекто- Рис. 5.17. Звуковая спектрограмма с нанесенными на нее идеализированны- ми траекториями первых трех формант речи рии временных изменений первых трех формант речи. Во мно- гих случаях, в частности для систем компрессии речевого спект- ра, эти данные необходимо получать автоматически в реальном масштабе времени. Из гл. III следует, что потери в голосовом тракте относитель- но постоянны, особенно в пределах частотного диапазона дан- ной форманты, и могут быть вычислены заранее. Ввиду этого
ФОРМАНТНЫЙ АНАЛИЗ РЕЧИ 187 обычно больший интерес представляют временные изменения не действительных, а мнимых частей комплексных формантных частот. Тем не менее для оценок процессов восприятия и для спектрального анализа важны соответствующие сведения так- же и о действительных частях или полосах частот формантных областей. Описанный в гл. III подход к анализу речи с позиций рассмотрения «функционирования системы» позволяет предста- вить речевой сигнал в виде передаточной функции тракта и .функции возбуждения. Если конфигурация голосового тракта известна, то можно рассчитать соответствующие ей спектраль- ные максимумы и получить выходной отклик на заданное воз- буждение. В случае автоматического анализа, проводимого в- целях кодирования и передачи речи, обычно имеет место обрат- ная ситуация. В распоряжении имеется только акустический сигнал, по результатам анализа которого требуется выявить, свойства источника и резонансы речеобразующей системы. Ос- новная трудность при этом состоит в 'незнании того, как одно- значно разделить свойства источника и системы. Резонансные максимумы речеобразующей системы с течени- ем времени постоянно перемещаются, но они не всегда могут быть легко обнаружены, например, по мгновенному спектру сиг- нала. Отдельные полюсы могут на короткие промежутки време- ни оказаться скрытыми, а также подавленными нулями источ- ника или нулями системы, образующимися из-за элементов бо- ковых ответвлений (таких, как носовая полость). В мгновенном спектре достаточно хорошо проявляются высокие резонансные максимумы, но иногда все же трудно с уверенностью определить местоположение полюсов с малой амплитудой или существен- ных пар полюсов—нулей. Дальнейшее усложнение ситуации состоит в том, что сиг- нал на выходе речевого тракта, как правило, не представляет собой минимально фазовую функцию (т. е. не все его нули мо- гут находиться в левой полуплоскости комплексных частот). Если функция была бы минимально фазовой, то ее фазовый спектр полностью определялся бы ее амплитудным спектром. Передаточная функция речевого тракта будет минимально фазо- вой в тех случаях, когда излучение происходит только из одной точки, т. е. изо рта либо из ноздрей. Это условие не выполняется при одновременном излучении из обеих точек. Можно показать, что если в некоторые моменты времени за период колебания го- лосовых связок величина потока, создаваемого источником, рав- на нулю, то последний не имеет полюсов и характеризуется только нулями с конечными значениями своих частот (Мэтьюс, Миллер и Дэвид—Mathews, Miller and David, 1961, b). Кроме того, можно показать, что эти нули могут находиться как в пра-
188 устройства для анализа речи вой, так и левой полуплоскостях или одновременно в обеих •(Данн, Фланаган и Гестрин—-Gestrin). Вследствие указанных здесь трудностей многочисленные усилия, направленные на соз- дание точно работающего автоматического формантного анали- затора, не достигли цели. 5.2.2. Выделение формантных частот В первом приближении вокализованное возбуждение резо- нансной области речевого тракта можно свести к возбуждению короткими, периодически повторяющимися импульсами одиноч- ного резонансного контура. Выходной сигнал в этом случае по- лучает форму затухающих гармонических колебаний, следую- щих с частотой повторения импульсов. На частоте, равной мни- мой составляющей комплексной частоты полюса, огибающая .амплитудного спектра имеет максимум. Эту формантную часто- ту можно найти измерением либо частоты переходов через нуль временного сигнала, либо частоты максимума огибающей спек- тра. Если ширина резонансной области сравнительно невелика, то мнимую составляющую частоты полюса можно оценить по V- ^fA(f)df моменту первого порядка амплитудного спектра: у = — — . Й(Л df Речевой тракт представляет собой многорезонансную сис- тему. Поэтому временной сигнал на его выходе есть результат наложения большого числа затухающих гармонических колеба- ний, а спектр амплитуд характеризуется множеством максиму- мов. Результаты измерения частоты переходов через нуль, мак- симумов спектра и 'моментов дозволяют определить частоту форманты только в том случае, если каждая резонансная об- ласть может быть исследована в изолированном, например пу- тем соответствующей фильтрации, виде. Если нужно выявить более тонкие свойства источника и системы (скажем, нули, со- здаваемые голосовыми связками или резонатором бокового от- ветвления в спектре), необходимо использовать соответствен- но более сложные способы измерения спектральных максиму- мов. Один из таких способов заключается в точной подгонке гипотетической модели спектра к реальному речевому спектру, для чего выгодно использовать быстродействующие вычисли- тельные машины с большим объемом памяти. Измерение частоты форманты по частоте переходов через нуль. Одна из первых попыток автоматического слежения за частотами формант состояла в подсчете среднего числа перехо- дов через нуль (Петерсон Е. — Peterson Е.). В качестве частот первой и второй формант принимались величины, пропорцио-
формантный анализ речи 189 нальные средним плотностям переходов через нуль речевого сигнала и его производной во времени соответственно. Способ основывался на том факте, что на вокализованных участках не- фильтрованной речи первая форманта является наиболее четко выступающей спектральной составляющей. Поэтому ожида- лось, что она будет оказывать наибольшее влияние на величину частоты переходов через нуль. С другой стороны, в дифференци- рованном сигнале первая форманта оказывается подавленной и доминирующую роль приобретает вторая форманта. Однако полученные результаты экспериментов оказались недостаточно хорошими, и был сделан вывод, что такой способ не обеспечи- вает приемлемой точности измерения. Предлагались усовершенствования метода, основанного на измерении частоты переходов через нуль. Одно из них (Ман- сон и Монтгомери—Munson and Montgomery; Дэвис, Биддалф и Балашек—Davis, Biddulph and Balashek) состояло в том, что речевой сигнал предварительно расфильтровывался на ряд ча- стотных диапазонов, соответствующих отдельным формантам. В каждом из этих диапазонов измерялись частота переходов сигнала через нуль и его амплитуда. Однако и здесь имеют ме- сто ошибки, возникающие вследствие взаимного перекрытия диапазонов формантных частот. Та же идея была реализована более тщательно с некоторыми особенностями, позволившими свести к минимуму нежелательные взаимные перекрытия (Чанг—Chang). Принцип действия устройства состоял в приме- нении повторного измерения средней скорости переходов сиг- нала через нуль в данном частотном диапазоне и в существенном сужении этого частотного диапа- зона на основе измерен- ной частоты переходов. При этом ставка делает- ся на быстрое приближе- ние измеряемой частоты к ее истинному значению. Описанный способ иллю- стрируется рис. 5.18. С помощью фильтров с фик- Рис. 5.18. Автоматическое измерение формант методом подсчета числа пере- ходов сигнала через нуль с предва- рительно подстраиваемыми фильтрами (Чанг) сированными полосами пропускания сигнал предварительно разбивается на два диапа- зона, примерно соответствующих первым двум формантам. В низкочастотном диапазоне измеряется частота переходов че- рез нуль ро, и ее величина используется доя автоподстройки более узкополосного фильтра с перестраиваемой полосой про-
190 устройства для анализа речи пускания. Частота переходов через нуль, измеренная на выходе узкополосного фильтра, принимается, в свою очередь, за часто-' ту первой форманты (Л)- Ее величина используется для уста- новления частоты среза фильтра верхних частот с переменной полосой пропускания. Среднее значение частоты переходов через нуль на выходе последнего берется в качестве оценки частоты второй форманты (Д2). Если спектральное распределениесигнала имеет непрерывный характер, как в случае невокализованных звуков, средняя ча- стота переходов через нуль для данного спектрального элемента равна приблизительно удвоенному моменту первого порядка для этого участка спектра (Чанг, Пил и Эссигман—Chang, Pihl and Essigman). Спектральные моменты. Моментом n-го порядка амплитуд- ного спектра Л (со) является величина Мп = j" 4>nA(a)d ы, где а» есть круговая частота. При условии соответствующей предварительной фильтрации или разбиения спектра на отдель- ные участки формантная частота приближенно может быть най- — Мг i дена как . Было исследовано большое ко- i личество способов измерения формантных частот, основанных на этом принципе (Поттер и Стейнберг — Potter and Steinberg; Габор, Шредер — Gabor, Shroeder, 1956; Кампанелла — Campa- nella). Но при этом по-прежнему оставалась нерешенной важная проблема разделения спектра на отдельные участки, в значи- тельной степени влияющая на точность измерений. Были уста- новлены, правда, некоторые соотношения между моментами, оказавшиеся полезными при выделении частотных диапазонов, занимаемых формантами (Сузуки, Кадокава и Наката—Suzuki, Kadokawa and Nakata). Другая трудность метода моментов заключается в асимметрии спектральных характеристик резо- нансов. Измеренная частота форманты может соответствовать не середине спектрального максимума, а значению, сдвинутому к более «крутой» стороне. Методы развертывания спектра во времени и отбора по пи- ковым значениям. Другой метод автоматического слежения за частотами формант в реальном масштабе времени состоит про- сто в определении и измерении горбов мгновенного амплитуд- ного спектра. Было предложено и реализовано, по крайней мере, два таких метода (Фланаган, 1956, а). Один из них осно- ван на определении положения точек спектральной огибающей
ФОРМАНТНЫЙ АНАЛИЗ РЕЧИ 191 с нулевым наклоном, а другой—на определении местных спект- ральных максимумов путем сравнения амплитудных величин. В первом методе (рис. 5.19) сначала посредством набора полосовых фильтров, детекторов и интеграторов получают дан- ные о мгновенном амплитудном спектре. При этом точность анализа должна соответствовать описанной выше в разд. 5.1.3. Сигналы, получаемые на выходах фильтровых каналов, доволь- но быстро (со скоростью порядка 100 раз в секунду) разверты- ваются во времени с помощью схемы считывания, с последую- щим удержанием считанного значения. В результате получает- ся функция времени, которая представляет мгновенный спектр с достаточно большим количеством (в данном случае 36) зна- чений по оси частот в виде ступенчатой кривой. Для каждого периода развертки временная функция дифференцируется и преобразуется в двоичную последовательность для получения импульсов, отмечающих спектральные максимумы. Эти марки- рующие импульсы посредством счетчика направляются в от- дельные каналы, где они считывают соответствующие значения линейно нарастающего напряжения, генерируемого с частотой развертки. Считанные напряжения, пропорциональные часто- там соответствующих спектральных максимумов, удерживаются до конца периода развертки. Полученные напряжения ступен- чатой формы сглаживаются впоследствии с помощью фильтров нижних частот. Во втором методе мгновенный спектр подразделяется на ча- стотные диапазоны, которые в идеальном случае содержат толь- ко одну форманту. После этого в пределах каждого сегмента измеряется частота спектрального максимума. Работа устрой- ства иллюстрируется рис. 5.20. В простейшем варианте границы сегментов фиксированы. При этом может быть использована дополнительная цепь управления, которая автоматически регу- лирует эти границы так, что частотный диапазон данного сег- мента оказывается зависимым от частоты соседней низшей фор- манты. Энергия сигналов в спектральных сегментах нормируется с помощью схемы нормализации на основе оценки либо пико- вых, либо средних значений сигналов. Произведенная этой схе- мой норм,иров1ка дает возможность следующей схеме селекции по пикам работать в широком диапазоне амплитуд. Максимумы каждого сегмента выделяются с высокой скоростью, например 100 раз в секунду, и к выходу подводится напряжение, пропор- циональное частоте выделенного канала. Выборки могут быть сфазированы во времени так, чтобы границы спектральных сег- ментов регулировались последовательно и расставлялись в со- ответствии с измеренным местоположением соседней низшей форманты. Описанный метод подвергался многочисленным усо-
Рис. 5.19. Метод развертывания спектра выделения формантных частот во времени для автоматического (Фланаган, 1956, а) устройства для анализа речи ша
формантный анализ речи 193 вершенствованиям посредством «ведения частотной интерпо- ляции (Ширм—Shearme, 1959), более утонченной логики регу- лирования границ сегментов (Холмс и Келли-—Holmes and Kel- ly) и большего динамического диапазона для селекторов пико- вых значений (Стад и Джонс — Stead and Jones). При изготов- лении всех этих устройств стремились создать работающий в реальном масштабе времени практически пригодный прибор для непосредственного применения в системе передачи. Рис. 5.20. Метод отбора по пиковым значениям для автоматиче- ского выделения формантных частот (Фланаган, 1956, а) Типичные сигналы на выходе устройства, показанного на рис. 5.20, с фиксированными границами сегментов даны на рис. 5.21. Как видно, устройство работает с ошибками. На спек- трограмме имеются значительные искажения при выделении третьей форманты звука /г/ в слове «rain», которые устраивают- ся при автоматическом управлении границей F2—F3. Для срав- нительно грубой оценки работы устройства можно привести следующие данные: установлено, что на выходе устройства для первой форманты Fi гласных звуков, лежащей в пределах ±150 гц, правильные результаты получаются более чем в 93% времени, а для второй форманты F2, лежащей в пределах ±200 гц,— более чем в 91% времени (Фланаган, 1956, а). Хотя обычно требуется большая точность, этот метод (вследствие его простоты и удобства осуществления анализа в реальном мас- штабе времени) оказался пригодным для исследования некото- рых систем формантного вокодера (Фланаган и Хаус—House; Стэд и Джонс — Stead and Jones; Ширм, Смит и Келли — Shearme, Smith and Kelly). 7—71
194 устройства для анализа речи Рис. 5.21. Сигналы на выходе формантного выделителя, показанного на рис. 5.20 при передаче фразы «Beat, beat, i can't stand in the Rain» («Идет, идет, я не могу стоять под дождем») Методы выделения формант с помощью вычислительных машин. Создание больших быстродействующих вычислительных машин позволило использовать более сложные программы об- работки речи, в частности, благодаря способности машин запо- минать и обрабатывать с большой скоростью значительный объем данных. Данные о некотором исследуемом образце мо- гут удерживаться в машине в течение всего комплекса испыта- ний и измерений его характерных особенностей, вплоть до при- нятия решения. Эти преимущества распространяются не только на процесс обнаружения формант, но и на все другие фазы об- работки речи. Определенные связи между системами с дискрет- ным действием и аналоговыми системами (см., например, Ра- газзини и Франклин—Ragazzini and Franklin) позволяют моде- лировать на вычислительной машине всю систему передачи в це- лом. Однако этот вопрос имеет самостоятельное значение, и мы вернемся к нему в одной из следующих глав. Анализ речевых формант в цифровом виде первоначально вы- полнялся посредством обработки спектральных распределений. Информация о спектре либо вводилась в машину в дискретизи- рованном виде от внешней гребенки фильтров, либо определя- лась путем вычисления в машине из предварительно квантового по уровню и дискретизированного во времени речевого сигнала. Один подход в соответствии с последним из упомянутых вари- антов состоит в синхронном с основным тоном анализе вокали- зованных звуков (Мэтьюс, Миллер и Дэвид — Mathews, Miller and David, 1961, b). Отдельные периоды основного тона выде- ляются путем визуальной обработки осциллограммы речи. За- тем каждый период с помощью вычислительной машины раз-
формантный анализ речи 195 латается в ряд Фурье, как если бы он был одним из периодов строго периодической функции. Под огибающую вычисленного таким образом спектра подгоняется методом последовательных приближений и в соот- ветствии с критерием взвешенной среднеквад- ратичной ошибки син- тезированный спектр. В свою очередь, синте- зированный спектр по- лучается с помощью модели распределения полюсов и нулей, осно- ванной на акустиче- ских соотношениях для речевого тракта и ис- точника колебаний (см. гл. III). Процесс подгонки начинается с выбора некоторого распределе- ния полюсов и нулей, приближенно соответ- ствующего вычисленно- ному реальному спект- ру. Затем с целью минимизации взвешен- ной среднеквадратич- ной ошибки (в лога- рифмическом масшта- бе амплитуд) с помо- щью вычислительной машины последователь- но даются приращения Рнс. 5.22. Образцы спектров для одного периода основного тона вокализаваиного звука, полученные методом подгонки на ЭВМ: а) гласный звук /1/ при частоте основного тона 132 гц; б) гласный звук /Л/ при часто- те основного тоиа 114 гц; сплошная кри- вая — измеренное значение, пунктирная кривая — вычисленное значение (Мэтьюс, Миллер и Дэвид, 119&1, Ь) вел ичинам частоты и затухания для каждо- го отдельного полюса и нуля. После 10—12 полных циклов может быть получено достаточно близкое при- ближение к спектру речи. Типичная величина среднеквадратич- ной ошибки в логарифмическом масштабе амплитуд лежит в пределах примерно от 1,5 до 2,5 дб. Обычная степень прибли- жения, полученная в результате подгонки, иллюстрируется рис. 5.22., Измеренные формантные частоты и полосы прини- маются затем в качестве частот и полос для спектральной мо- 7*
196 УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ дели, обеспечивающей наилучшее совпадение с огибающей ре- ального спектра. Приведем также общие характеристики системы несинхрон- ного с основным тоном анализа, построенной на использовании цифровых вычислительных машин при вводе извне данных о спектре речи (Хьюз—Hughes; Форджи и Хьюз—Forgie and Hug- hes). Текущее значение мгновенного спектра речи получается посредством гребенки из 35 смежных полосовых фильтров с де- текторами и интеграторами. Выходные сигналы считываются с достаточно большой скоростью (180 сек-1), в результате чего образуется функция времени, которая отображает последова- тельность спектральных сечений (по сути дела так же, как и на рис. 5.5). Из этой функции через каждые 154 мксек выбира- ются дискретные значения, которые в аналого-цифровом преоб- разователе квантуются с помощью 11-разрядного кода. Для дальнейшей обработки определенное количество полученных та- ким образом данных удерживается в машинной памяти. Один вид анализа, для которого была составлена программа машинной обработки, включал в себя: 1) определение место- положения фрикативных звуков в слове и классификацию их; 2) определение местоположения первой и второй формант в во- кализованных сегментах и 3) вычисление общего уровня зву- кового сигнала. Процедура определения формант в основном построена по схеме отбора пиковых значений, примерно сов- падающей с приведенной на рис. 5.20. Однако в целях наилуч- шего использования всех свойств речевого тракта в программу были включены многочисленные дополнительные условия. В принципе, процесс обработки одного периода развертки спек- тра состоял в следующем. В частотном диапазоне, соответст- вующем первой форманте, находился фильтр с максимальным значением выходного сигнала. Для этого канала запоминались величины частоты и амплитуды. На основании местоположе- ния Fx устанавливался частотный диапазон для F2. В установ- ленном для F2 диапазоне определялся фильтр с максимальным значением выходного сигнала и запоминались соответствующие ему величины частоты и амплитуды. Наконец, испытывался сле- дующий период развертки спектра и находились величины Fx и F2 при соблюдении условия непрерывности с ранее найденны- ми величинами. Большие резкие изменения величин Fj и F2 за малый промежуток (времени исключались. На рис. 5.23 приве- дены типичные результаты описанной процедуры, оцененные как «хорошо» и «удовлетворительно». Способ подгонки спектральных образцов для нахождения формант был использован также в приложении к обработке спектра, вводимого в вычислительную машину в реальном мае-
формантный анализ речи 197 Рис. 5.23. Следы частот первой и второй формант, полученные в ре- зультате анализа спектра на ЭВМ в реальном масштабе времени. Спек- трограммы соответствуют словам «Hawaii» (а) и «Yowie» (б), произне- сенным диктором-мужчиной (Хьюз) штабе времени (Белл и др.— Bell at al). Этот ionoico6, названный авторами «анализ через синтез», осуществляется при помощи устройства, блок-схема которого показана на рис. 5.24. Как и в предыдущем случае, мгновенный спектр получается посредст- вычислительная машина. Распределение полюсов и пулей — спектры источника Рис. 5.24. Процедура определения форманты на ЭВМ путем подгон- ки кратковременных спектров (Белл и др.) вом гребенки полосовых фильтров и через аналого-цифровой преобразователь вводится в вычислительную машину. Синтези- рованные спектры речевого типа производятся вычислительной машиной с помощью модели распределения полюсов и нулей речевого тракта и возбуждающего его сигнала. (При генериро- вании синтезированных спектров учитываются также свойства
198 устройства для анализа речи гребенки фильтров.) Как и в синхронном с основным тоном ана- лизе, эта модель основана на акустических соотношениях, рас- смотренных в гл. Ш. Действительный и синтезированный спек- тры для каждого момента вре- мени сравниваются между со- бой, с последующим вычисле- нием взвешенной квадратиче- ской ошибки. Способ сравне- ния спектров иллюстрируется Частота —*- Рис. 5.26. Идеализированная ил- люстрация процедуры подгонки спектров, приведенной на рис. 5.24. Результат ошибки при вычислении: а) частоты форманты; б) шири- ны полосы форманты: I — расе читанный спектр, 2 — входной спектр, 3 — разностная кривая ровку и подгонку синтезированных спектров; рис. 5.25. По результатам вычисле- ния ошибки между данным и смежным спектральными об- разцами предварительно со- ставленная программа управ- ления определяет процедуру регулирования местоположе- ния полюсов и нулей для под- гоняемого синтезированного спектра. Когда ошибка под- гонки достигнет минимального значения, машина запоминает расположение полюсов и ну- лей модели голосового тракта и характер сигнала возбужде- ния, выбранного для этого спектра. При этом машина вы- полняет пять операций: 1) хра- нение в памяти поступивших извне реальных речевых спект- ров; 2) генерирование синтези- рованных спектров; 3) регули- 4) вычисление разницы между спектрами в соответствии с заранее введенным критерием ошибки и 5) выделение и хранение параметров, ко- торые обеспечивают минимальную ошибку. При желании срав- нение и регулировка могут производиться человеком. В принципе, процедура подгонки применима к спектрам как гласных, так и согласных звуков, однако подбираемая модель для согласных звуков, как правило, является более сложной. Типичный результат такой процедуры показан на рис. 5.26. На. рис. 5.26а показана звуковая спектрограмма произнесенного зву- косочетания /Ь э b I Ь/ с отложенными вверху по оси времени ин- тервалами дискретизации. На рис. 5.266 изображены найденные машиной следы формант для гласного участка второго слога
формантный анализ речи 199 (т. е. для /I/). Масштабные отметки по оси абсцисс на рис. 5.266 соответствуют масштабу шкалы, изображенной в верхней ча- сти рис. 5.26а. Верхняя диаграмма рис. 5.266 представляет со- бой квадратичную ошибку спектральной подгонки. Рис. 5.26. Следы формант, полученные по методу подгонки кратковременных спектров речи на ЭВМ: а) спектрограмма исходной речи; б) следы выделенных формант и квадра- тичная ошибка измерения (Белл и др.) Отсчеты спектра, (через интервалы 8,3 мсек) Аналогичный принцип положен в основу работы другого промоделированного на вычислительной машине формантного искателя (Кокер — Coker). Его способ анализа сочетает в себе метод отбора по пиковым значениям и метод подгонки спект- ров. Мгновенный спектр получается с помощью гребенки фильт- ров, соединенной с детекторами и фильтрами нижних частот. Выходные напряжения развертываются с помощью электрон- ного коммутатора, в результате чего образуется функция вре- мени, отображающая спектральные сечения, которая вводится затем в аналого-цифровой преобразователь. Полученный в циф- ровой форме выходной сигнал, описывающий последователь- ность спектральных распределений, записывается на магнитную ленту, совместимую с устройством записи вычислительной ма- шины. Затем эта лента последовательно вводится в машину,
200 УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ благодаря чему и достигается хранение в памяти машины ин-1 формации о мгновенных спектрах. I В соответствии с программой анализа сначала определяется! местоположение абсолютного максимума каждого спектрального! сечения. Затем к найденному максимуму подгоняется единичный! формантный резонанс, который располагается на частоте, соот-1 ветствующей моменту первого порядка для спектральной полосы! и лежащей, скажем, на уровне от 0 до 6 дб ниже значения мак-! симума, по обе его стороны. Далее путем вычитания функций,! представляющих в логарифмическом масштабе анализируемое! спектральное сечение и подобранную резонансную кривую, еди-1 ничный формантный резонанс инверсно выфильтровывается из! реального спектра речи, и в спектральном сечении выявляется) другой максимум. Описанный процесс повторяется до тех пор,| пока не определят местонахождения требуемого числа формант.? Проблема формантной сегментации устраняется, поскольку от-; бор по пиковым значениям выполняется всегда в пределах всего; спектра. Форманты, находящиеся в непосредственной близости,, также можно выделить с высокой степенью точности и при не- прерывном речевом сигнале. Результаты выделения формант, показывают на спектральных сечениях так, как это сделано на рис. 5.5. Способность машины удерживать в памяти большое количество данных и выполнять с высокой скоростью сравни- тельно сложные операции позволяет и в этом случае осущест- вить достаточно точную подгонку спектра. Дальнейшее усложнение программы машинной обработки со- стоит в анализе реального речевого спектра с использованием параметров модели артикуляции (Гейнц — Heinz, 1962,а, Ь). Этот подход отличается от предыдущих в основном программой управления и способом генерирования спектров. Полюсы и нули речевого тракта получаются из характеризующей его артику- ляторной функции или функции площади поперечного сечения в результате решения уравнения Вебстера для рупора (см. гл. III). Спектр, соответствующий рассчитанным полюсам и нулям, генерируется и сравнивается с реальным речевым спек- тром. Ошибка, получаемая в результате сопоставления, в ре- зультате используется для изменения синтезированного спектра путем перестройки на артикуляционном уровне функции пло- щади речевого тракта. Эта функция площади выведена на ос- нове модификации трехпараметрического описания конфигура- ции тракта (Данн, 1950; Стивенс и Хаус, 1955; Фант, 1960). Указанный подход позволяет получить значительные преиму- щества перед предыдущими моделями распределения полюсов и нулей для речеобразующей системы. Предыдущие модели ис- пользуют в качестве входных параметров расположение полю-
формантный анализ речи 201 сов и нулей на комплексной плоскости для всего речевого трак- та передачи в целом, включая источник возбуждения. Полюсы системы не зависят от расположения источника и определяются только ее конфигурацией (см. гл. III). В процессе образования слитной речи они перемещаются непрерывно даже в том слу- чае, когда изменяются характер и местоположение источника. Нули зависят от расположения источника и от конфигурации тракта. В процессе перемещения они могут внезапно появляться и исчезать. Такое скачкообразное поведение нулей (и связан- ные с ним резкие изменения в речевом спектре) затрудняет слежение за спектральными максимумами. Артикуляторное описание сигнала в значительной степени устраняет эти трудности. На артикуляционные органы можно наложить более реалистичные ограничения, связанные с непре- рывным характером их перемещений. Местоположение невока- лизованного источника, как правило, полностью определяется конфигурацией артикуляционного аппарата, а нули речевого сигнала получаются автоматически как побочный продукт де- тального изучения конфигурации и возбуждения. Посредством использования артикуляторных параметров можно подобрать спектры для переходов между двумя согласными и между сог- ласным и гласным лишь с незначительно большими усилиями, чем для гласных. Типичный результат процедуры артикуляци- онной подгонки представлен на рис. 5.27. На левой диаграмме показано изменение полюсов и нулей во времени для звукосочетания / / е/ двусложного слова /ho'f е J/ (по шкале времени отложены номера дискретных отсчетов, взятые с интервалом 8,3 мсек). Вертикальная линия, у которой исчезают траектории нулей, представляет собой границу между согласным и гласным (для гласной части звукосочетания вычис- лены только три первые форманты). На диаграмме справа пока- заны траектории соответствующих четырех артикуляторных па- раметров, которые были подстроены в процессе подгонки спек- тров. Эти параметры следующие: г0 — эффективный радиус языкового сужения, d0 — местоположение языкового сужения, измеренное от голо- совой щели, ао — площадь поперечного сечения ротового отверстия, /0 — длина образованной губами трубы. За время, когда звукосочетание переходит через границу между согласным и гласным, траектории этих параметров оста- ются непрерывными. В процессе перехода от фрикативного зву- ка / j / к гласному /е/ длина образованной губами трубы стано- вится короче, а ротовое отверстие увеличивается. Местоположе- ние языкового сужения перемещается в сторону голосовой щели,
202 УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ Дискретные отсчеты Времени (8,3мсек) Рис. 5.27. Анализ образца речи по методу вычисления на ЭВМ по- люсов и нулей, использующий для процедуры спектральной подгон- ки модель артикуляционного аппарата. На диаграммах показано: а) расположение полюсов и нулей; б) артикуляторные параметры (Гейнц, 1962, а) и радиус сужения становится больше. Вю время фрикативного звука невокализованный источник занимает место, расположен- ное на 2,5 см перед сужением (т. е. d0 + 2,5). Применение цифровых вычислительных машин в сочетании с нашими непрерывно обогащающимися знаниями динамики речеобразования и семантических особенностей речи позволит еще глубже понять процессы кодирования речи и ее эффектив- ной передачи. Вполне возможно, что устройства для обнаруже- ния формант, которые окажутся наиболее пригодными на прак- тике, например формантные или артикуляторные вокодеры, можно будет реализовать в виде специализированных цифровых машин, способных выполнять рассмотренные выше виды ана- лиза. 5.2.3. Измерение ширины формантных полос Полосы формантных резонансов (или действительные части комплексных полюсов) отражают величину потерь в речевом аппарате. Для правильного синтеза речи важны не только ко-
формантный анализ речи 203 личественные данные о ширине формантных полос, ценные с точки зрения проверки правильности расчетов речевого тракта, например, таких, которые выполнены в гл. III для излучения, вязкости, теплопроводности, потерь в стенках резонансных по- лостей и голосовой щели, но и сведения о величинах затухания. Было произведено большое количество измерений величин затуханий и формантных полос голосового тракта1). Все изме- рения можно (разделить в основном на два вида: находились либо ширина резонанса в частотной области, либо постоян- ная затухания (или декремент) соответствующей отфильт- рованной части речевого сигнала во временной обла- а) сти. В первом случае фор- манта рассматривается как простой резонанс и опреде- * ляются частоты, на которых f мощность спектральной оги- § бающей снижается вдвое. Во втором случае форманта рассматривается как зату- § хающее гармоническое ко- |> лебание, имеющее в момен- ты времени и t2 амплиту- б) ды и А2. Постоянная за- с тухания а временной волны s и ее полоса частот А/, изме- | ренная на уровне половин- ной мощности, связаны меж- В. ду собой простым соотноше- § л , ^2 § 1ПГ § нием: а = it&f = ——< —4) х Результаты одного из наи- более полных исследований формантных полос пред- ставлены на рис. 5.28 (Данн, 1961). На рис. 5.28а показа- ны формантные полосы, из- меренные путем подгонки простой резонансной кривой к сечению амплитудного Рис. 5.28. Формантные полосы, получен- ные в результате измерений голосов 20 (взрослых мужчин (Данн, 1961): а) измеренные путем подгонки резонан- сной кривой к сечению амплитудного спектра гласного звука; б) те же дан- ные, показанные в виде частотной за- висимости величины Q ’) Достаточно хорошее краткое изложение и библиография большинства из этих исследований приведены в работе Данна (Dunn, 1961). [См. также Фант — Fant, 1958, 1959, а, Ь].
204 устройства для анализа речи спектра гласного звука, произнесенного .в слоге /Ь—d/1). Эти данные получены усреднением результатов от 20 мужских голосов для каждой гласной. На рис. 5.286 кривая представляет собой те же данные, изображенные в виде частотной зависимо- сти величины Q=fl\f. Из графиков следует, что в пределах ча- стотных диапазонов первой и второй формант номинальные ве- личины полос, как правило, невелики—порядка 40--70 гц. Выше 2000 гц полосы заметно увеличиваются. На основании проведен- ных в гл. III расчетов были указаны основные причины, вызы- вающие затухание в речевом тракте,—это потери в голосовой щели и стенках резонансных полостей для низших формант и потери на излучение, вязкое трение и теплопроводность для выс- ших формант. Кривая зависимости добротности формант от частоты показывает, что эта добротность имеет максимальное значение в частотном диапазоне около 2000 гц. 5.3. Анализ основного тона голоса Анализ основной частоты—или «выделение основного тона»— представляет собой такую же давнюю проблему, как и анализ самой речи. Это та проблема, для которой все еще не найдено окончательного решения. Основная трудность заключается в от- сутствии точного определения основного тона. Качественно ос- новной тон есть субъективное свойство, которое позволяет рас- положить по шкале частот весь диапазон изменений голоса от низкого до самого высокого. Вокализованное возбуждение голо- сового тракта носит исключительно квазипериодический харак- тер. Сигнал, создаваемый колебаниями голосовых связок, из- меняется не только по амплитуде и длительности периода, но также и по форме. Точно указать, какие интервалы речевого сигнала или даже сигнала возбуждения от голосовых связок должны быть выбраны в качестве измеряемых периодов, не представляется возможным. Не установлена также достаточно четкая связь между измеренными интервалами и воспринимае- мым основным тоном. В большинстве методов выделения основного тона в каче- стве объекта измерения используются интервалы между сосед- ними импульсами, появляющимися с частотой колебания голо- совых связок. Однако по-прежнему заслуживает особого внима- ния вопрос о связи этих интервалов с воспринимаемым основ- ’) Указанные на рнс. 5.28а гласные стоят в этом слоге вместо черточки (прим. ред.).
АНАЛИЗ ОСНОВНОГО ТОНА ГОЛОСА 205 ным тоном, который подвержен случайным скачкам и измене- ниям. Посредством автоматических выделителей основного тона в большинстве случаев пытаются либо описать периодичность ко- лебаний (Грютцмахер и Лоттермозер — Griitzmacher and Lottermozer; Грюенц и Шотт—Gruenz and Schott; Доланский— Dolansky, 1955; Гил—Gill), либо измерить частоту основной составляющей, если она присутствует в сигнале (Дадли — Dudly, 1939, b). Выделение основного тона с помощью вычис- лительных машин основано на тех же принципах, но с исполь- зованием более тщательно разработанной программы измере- ний (Иномата—Inomata; Голд—Gold; Сугимото и Хашимото — Sugimoto and Hashimoto). Один из наиболее многообещающих методов выделения ос- новного тона с помощью вычислительной машины заключается в использовании так называемого «сепстрального» метода (Нолл — Noll, 1964, а). Сепструм определен как квадрат преоб- разования Фурье от логарифма амплитудного спектра сигнала. Поскольку он представляет собой результат преобразования специального вида, выполненного над другим преобразованием, и поскольку полученная новая независимая переменная есть ве- личина, обратная частоте, или время, то для обозначения этого преобразования и его независимой переменной были созданы термины «сепструм» и «квифренси»'). Введение операции логарифмирования позволяет осущест- вить нужное нам разделение свойств источника и системы (по крайней мере, установить, что в спектральной области они про- являются как результат перемножения). Если речевой сигнал f(t) записать в виде свертки импульсной реакции голосового тракта о(0 и сигнала от источника возбуждения s(t), то пре- образованные по Фурье указанные величины будут связаны между собой, как |Д(®) | = |V((o)]]'S(®)|, где все амплитудные спектры суть четные функции. Логарифмирование обеих частей дает lnlF(co)|=ln | Г(и)|+ 1п|5(и) |. Выполнив далее над обеими частями преобразование Фурье, получим 3 ln]F((o) [=3 1п|У(и) 1 + +$ In) S(co) ]. Для вокализованных звуков, S(со) (является почти линейчатым спектром, составляющие которого расставлены с промежутками, равными частоте основного тона — . Следовательно, функция ’) Термины «сепструм» и «квифренси» представляют собой буквалиный перевод соответствующих английских терминов «cepstrum» и «quefrency», образованных путем частичной инверсии слов «spectrum» (спектр) и «frequency» (частота) (прим. пер.).
206 устройства для анализа речи Sln| S(<o) будет иметь ярко выраженную составляющую на «квифренси» Т. С другой стороны, | V(«) | характеризуется от- носительно «медленными» формантными максимумами. Это зна- чит, что наиболее мощная составляющая функции 31n|V(<o) ] соответствует очень низкой квифренси. Так как преобразования над логарифмами амплитудных спектров обладают свойством аддитивности, то в сепстральной области характерные особенности источника и системы могут быть разделены с достаточной степенью точности. Применяя тот или иной метод разделения составляющих функции Sln]S(<o)| по оси квифренси, можно определить частоту основ- ного тона и моменты перехода от вокализованного к невокали- зованному возбуждению. Ввиду того что этот метод не требует присутствия основной составляющей и имеет место относитель- ная нечувствительность к фазовым и амплитудным масштабным коэффициентам (благодаря операции логарифмирования), он оказывается наиболее перспективным для применения в вокоде- рах. При испытаниях в системе полосного вокодера сепстраль- ный метод выделения основного тона и управляющих сигналов «тон-шум» позволил получить достаточно высокие результаты (Нолл, 1964, Ь). В отношении вокализованного возбуждения, по-видимому, наиболее правильным следует считать измерение воздушного по- тока от голосовой щели (Миллер—R. L. Miller, 1959; Фант, 1959, Ь; Мэтьюс, Миллер и Дэвид—Mathews, Miller and David, 1961, а; Холмс—Holmes, 1962). Приближенное описание этой функции может быть получено так называемым методом обрат- ной фильтрации. Идея состоит в пропускании речевого сигнала через четырехполюсник, передаточная функция которого есть функция, обратная передаточной функции голосового тракта для данного звука. Нули этого четырехполюсника установлены таким образом, чтобы аннулировать полюсы голосового тракта, в результате чего выходной сигнал приблизительно соответст- вует потоку от голосовой щели (см. рис. З.Г6). Поэтому можно сделать предположение, что источник голоса и система не взаи- модействуют друг с другом и могут быть проанализированы от- дельно. В связи с этим возникает вопрос, в какой части периода ос- новного тона действует возбуждение. Если бы этот участок был обнаружен, то путем его имитации в вокализованном возбужде- нии синтезатора, по-видимому, можно было бы сохранить есте- ственные нерегулярности в периодах основного тона. Однако такую информацию вследствие частого изменения формы коле- баний от голосовой щели довольно трудно описать. Миллер счи- тает, что этот участок, как правило, начинается в момент смычки
артикуляторный анализ механизма речеобразования 207 голосовых связок (Миллер, 1954), а другие авторы (Холмс, 1962) утверждают, что он соответствует другим точкам ко- лебания. В первом приближении этот участок, по-видимому, совпадает с моментом наибольшего изменения производной сигнала от голосовых связок. В общем случае такой момент может находиться в любой точке периода. Например, для ко- лебаний треугольной формы он будет соответствовать вершине треугольника. Следует, однако, иметь в виду, что свойства источника и си- стемы с точки зрения механизма речеобразования не могут быть однозначно разделены. В реальном голосовом тракте между ни- ми наблюдается некоторое взаимодействие (особенно на частоте первой форманты). Другая трудность состоит в том, что не всегда ясно, приписывать ли определенные свойства (прежде всего, нули) тракту или источнику. Оценка, полученная для ко- лебаний от голосовой щели, очевидно, зависит от модели голо- сового тракта, выбранной для обратного фильтра. На эту оцен- ку влияет также выбор критерия регулирования обратного фильтра. Например, при определенных условиях пульсации сиг- нала на выходе обратного фильтра, которые можно принять за колебания формантной природы, в действительности могут быть настоящими колебаниями от голосовой щели. 5.4. Артикуляторный анализ механизма речеобразования Из гл. III следует, что импульсная реакция системы и струк- тура ее резонансных максимумов могут быть найдены, если из- вестна конфигурация речевого тракта. Требуемый в этом слу- чае анализ основывается на соответствующих артикуляторных данных. Ввиду того что речеобразующий механизм представ- ляет собой сравнительно малодоступную систему, возникают очевидные трудности при проведении необходимых его измере- ний. Даже с привлечением новейших современных способов из- мерений не удается получить точные данные всех размеров тракта и полное описание его динамики. Требуемую артикуляторную информацию о статических со- стояниях и динамике тракта в наиболее полном объеме можно получить путем рентгеновского исследования. Рентгенографиче- ские данные обычно дополняются результатами измерений иного рода. Может быть сделана обычная киносъемка наружных орга- нов речеобразующей системы. Для «полноты картины» опреде- ленный интерес представляют также палатограммы, слепки с полостей голосового тракта и электромиографические записи.
208 УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ Большое внимание в рентгенографическом анализе направлено йа решение терапевтических задач, таких, как лечение волчьей пасти и болезней горла. Поэтому полученные результаты часто бывают представлены только в качественном виде. Тем не менее в двух исследованиях ставилась задача получения точных раз- меров (Фант, 1960; Чиба и Каджияма). Основной проблемой при получении такого рода данных яв- ляется поддержание дозы рентгеновского облучения говоряще- го в установленных пределах. Обычно это означает, что от од- ного индивидума может быть взято только очень ограниченное количество данных. Другая проблема связана с возможностью получения достаточно подробных рентгенограмм. Особенно труд- но изготовить рентгенограмму в процессе движений артикуля- торных органов даже при использовании лучших трубок с усилением изображения. Подробность, которая выглядит обман- чиво хорошо в (зрительно-усредняемой) картине движений, про- падает, как только пленку останавливают для изучения единст- венного кадра. Обычно для последующего анализа одновременно со съемкой записывается и звук, но запись часто получается плохого качества из-за шума, производимого работающей рядом камерой. На снимках статического положения артикуляторных орга- нов подробности получаются несколько лучше, но тем не менее их недостаточно. Пример типичной медицинской рентгенограм- мы показан на рис. 5.29. Для облегчения наблюдения язык и гу- бы испытуемого покрыты барие- Р,нс. 5.29. Сагиттальная рентгено- грамма голосового тракта взрослого мужчины вой смесью. Положение речевого тракта соответствует моменту произнесения высокоподъемного гласного, близкого к /i/. Рассмотрим типичную проце- дуру получения функции площа- ди по рентгенограмме. Сначала (рис. 5.30а) (Фант, 1960) через центры тяжести областей попе- речного сечения проводится осе- вая линия. Затем для различ- ных участков находятся форма и площадь поперечного сечения (рис. 5.306). Формы поперечных сечений определяются на осно- ве всех данных, которые можно использовать, включая слепки ротовых и носовых полостей, обычные фотографии и снятые анфас рентгенограммы. Получен^
АРТИКУЛЯТОРНЫЙ АНАЛИЗ МЕХАНИЗМА РЕЧЕОБРАЗОВАНИЯ 209 ные для каждого сечения результаты являются опорными точ- ками при построении всей кривой функции площади. Промежу- точные значения устанавливаются по сагиттальной рентгено- Расстояние,см Рис. 5.30. Метод определения функции площади голосового тракта по рентге- нографическим данным (Фант, 1960) грамме с учетом условия непрерывности функции (рис. 5.30в). Типичные результаты для некоторых звуков, произнесенных од- ним диктором-мужчиной, представлены на рис. 5.31. В процессе естественного речеобразования даже при самых хороших условиях не представляется возможным получить не- которые из измерений речевого тракта. Часто можно сделать лишь грубую оценку для истинной формы и боковых размеров фарингальной полости. Довольно неопределенно устанавлива- ются также истинные размеры сужений для фрикативов и аф- фрикат и для боковых путей в /1/. Точно так же прямыми методами не удается изучить источ- ники возбуждения голоса. Однако работа голосовых связок при произнесении долгих открытых гласных может быть исследова- на с помощью скоростной съемки. Можно также измерить под- связочное давление и тем самым проникнуть в сущность работы голосовых связок. С другой стороны, свойства невокализованных источников, т. е. их местоположение, характерные особенности и внутренний импеданс, удобнее установить из физиологических
210 устройства для анализа речи данных, результатов измерения воздушного потока и спектраль- ного анализа произносимых звуков. Для исследовательских целей большое значение имеет поиск наилучших методов проведения физиологических измерений. Од- Рис. б.ЗГ. Типичные функции площади голосового аппарата, уста- новленные для нескольких звуков, произнесенных одним диктором- мужчиной (Фант, 1960) на из наиболее активных областей исследования концентриру- ется на возможности установления зависимости между электро- миографическими записями мускульных потенциалов и наблю- даемыми на рентгенограммах артикуляторными движениями. Для измерения параметров голосового тракта были также пред- ложены несколько забавные «экзотические» схемы, которые впрочем, обладают определенными достоинствами. Если бы, например, на внутреннюю стенку какого-либо участка голосово- го тракта можно было нанести проводящее покрытие из аква- дага и к полученной таким образом петле прикрепить элек- трический провод, то, поместив испытуемого в магнитное поле, направленное нормально к исследуемому сечению, и измерив величину пронизывающего петлю потока, можно было бы опре-
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ 211 делить площадь поперечного сечения в данной точке тракта. Другая возможность может быть реализована закреплением в важнейших точках тракта миниатюрных измерителей дефор- мации либо помещением на определенных его участках надувае- мых кольцевых манжет или катетеров. Рассмотренные ранее электрические аналоги голосового тракта и их анализ оказались чрезвычайно полезными при обработке артикуляционных данных и динамических харак- теристик тракта, которые были получены с помощью скудных рентгеноскопических данных и спектрального анализа звуко- вого сигнала. Методы построения аналогов позволяют также оп- ределить совокупность физических ограничений, налагаемых на конфигурацию голосового тракта, и пути эффективного артику- ляторного описания речевых сигналов. Анализ на основе этих методов предположительно может быть сделан эквивалентным такому анализу, при котором говорящий диктор стоит лицом к рентгеновской трубке с абстрагированной (подобно тому, как это делают на карикатурах) конфигурацией речевого тракта для количественного определения характеристик яоследнего с целью передачи по каналу связи. Полученные результаты мож- но затем использовать на приемном конце для управления арти- куляторным синтезатором. 5.5. Автоматическое распознавание речи Любой человек может слушать осмысленную речь на знако- мом ему языке и фиксировать некоторый письменный эквива- лент того, что он услышал. При этом он выполняет преобразо- вание входного акустического сигнала, распознавая в нем раз- личные лингвистические элементы (фонемы) и перекодируя их в последовательность буквенных символов. Распознавание линг- вистических элементов основано на знании контекстуальных, грамматических и семантических закономерностей данного язы- ка1). Достаточно изучить сравнительно небольшое количество звуковых спектрограмм, чтобы убедиться, что в общем случае в акустическом сигнале не существует очевидных фонетических границ. Под автоматическим распознаванием речи понимается вы- полняемый машиной фонемный анализ. Имеется возможность *) Существует также другая точка зрения, заключающаяся в том, что анализ контекстуальных, грамматических и семантических элементов и зако- номерностей при восприятии речи основан на распознавании фонетических и лингвистических элементов речи. Ставя далее задачу распознавания фонети- ческих элементов речи, автор, по существу, склоняется именно к такому под- ходу при анализе речи (см. * А. А. Пирогов, прим. ред.).
212 устройства для анализа речи моделирования, причем в довольно грубой форме, только пред- варительных стадий обработки акустического сигнала в‘слуховой системе человека (см. разделы 4.1.4, 4.1.5 и 4.2.4). До настояще- го времени даже в наиболее совершенные механические рас- познающие устройства невозможно заложить такие лингвистиче- ские закономерности, которые позволили бы приблизить их к человеку по эффективности. Последняя область представляет собой объект интенсивных исследований в теории грамматиче- ского, механического и семантического переводов. Существует большая разница между распознаванием фонем для данного языка и непосредственным кодированием акустиче- ского сигнала, скажем, путем анализа спектральных характери- стик и характеристик возбуждения речевого тракта. Первое предполагает наличие полного объема лингвистических сведе- ний, последнее—только то, что данный сигнал произведен рече- образующим механизмом человека. Непосредственное кодиро- вание находится в пределах возможности существующих мето- дов анализа речи, а распознавание фонем для данного языка все еще вне этих пределов. Если распознавание фонем все же окажется возможным, то тем самым будет сделан, конечно, ог- ромный вклад в повышение эффективности передачи. (Напом- ним, что согласно разд. 1.2 скорость передачи речевой инфор- мации, связанная с произношением независимых равновероят- ных фонем, примерно равна 50 дв. ed.fceK. Передаваемую с та- кой скоростью информацию можно со сколь угодно малыми ошибками пропустить через канал с шириной полосы частот в 5 гц и отношением сигнал/шум 30 дб). В большинстве проведенных исследований испытанию под- вергались машины, которые способны распознавать ограничен- ный набор звуков речи, произносимых ограниченным числом дикторов (чаще только одним). Как правило, в этих устройствах решение принимается на основе результатов анализа мгновен- ных спектров акустического сигнала. Используемые в них осо- бенности (акустического характера) соответствуют больше ме- ханизму речеобразования, чем лингвистической структуре. Не пытаясь исчерпать предмет в целом, обрисуем положение дел на нескольких примерах. Одна из попыток распознавания ограниченного набора зву- ков привела к изготовлению прибора для распознавания произ- носимых однозначных чисел, названного «Одри» (Дэвис, Бид- далф и Балашек). Принцип работы прибора заключается в до- статочно грубом измерении частот первой и второй формант, ко- торые фиксируются в виде функции времени, и в последующем сравнении измеренных образцов (в плоскости Fi—F2) с набо- ром имеющихся эталонных образцов. Эталонный образец, даю-
автоматическое распознавание речи 213 щий наилучшую корреляцию с измеренным, принимается за произнесенную цифру. Устройство прибора показано на рис. 5.32. Речевой сигнал расфильтровывается на два диапазона, занимающих полосы ча- стот до 900 гц и выше 1000 гц. В обоих каналах с помощью усилителей-ограничителей сигналы подвергаются предельному ограничению. Значения частот первой и второй формант в ви- де функции времени по- лучаются в результате измерения плотностей пе- реходов сигналов через нуль. Частотный диапа- зон первой форманты (от 200 до 800 гц) подразде- ляется на шесть полос по 100 гц\ диапазон второй форманты (от 500 до 2500 гц) — на пять по- лос по 500 гц. Таким об- разом, образуется плос- кость Fr—F2 с 30 матрич- ными элементами. Для данного произнесенного числа определяется вре- мя, в течение которого траектория кривой в плос- кости Fi—F2 занимает площадку каждого эле- Усшштель - Рис. 5.32. Принцип действия устройства для распознавания произнесенных одно- значных чисел (Дэвис, Бвддалф и Вала- шек) Измеряется время занятия каждой пло- щадки; вычисляется корреляция с време- нем занятия, соответствующим каждому числу; выбирается образец, дающий мак- симальную корреляцию мента. Для каждого числа в машине хранится эталонный образец «времени занятия». Запоминающий механизм состоит из 10 со- противлений, одновременно присоединяемых к каждой площад- ке и выполняющих функции весовых коэффициентов. В течение времени занятия данной площадки через эти сопротивления заряжаются 10 различных конденсаторов. Взаимная корреляция между эталонными и измеренными образцами определяется по- средством 10 связанных с каждой площадкой проводимостей, взвешенных в соответствии со средним временем занятия этой площадки данным произносимым числом. Иначе говоря, для каждой /из 30 площадок имеются 10 реле, которые замыкают цепи заряда 10 конденсаторов, общих для всей схемы. Прово- димость данной цепи взвешена пропорционально времени заня-
214 УСТРОЙСТВА для анализа речи тия этой площадки данным произнесенным числом. Конденса- тор, получающий к концу произнесенного числа наибольший заряд, определяет собой образец, дающий наибольшую корре- ляцию, а следовательно,и само число. Машина не обеспечивает автоматической подстройки храни- мых ею образцов под голоса различных дикторов. Такую опе- рацию необходимо производить вручную. Однако и при выпол- нении этих условий точность распознавания цифр, переданных по телефону, находится в пределах между 97 и 99% правиль- ных ответов. Этот способ был распространен на определение степени кор- реляции (от одного момента времени к другому) между изме- ренными мгновенными спектрами амплитуд и эталонными спек- тральными образцами (Дадли и Валашек—Dudley and Bala- shek). Для получения мгновенного спектра вместо формантных выделителей был использован набор полосовых фильтров (в ча- стном случае 10 фильтров с полосой пропускания по 300 гц каждый). Эталонные спектральные образцы (в количестве 10 штук) для определения взаимной корреляции непрерывно сравнивались с производимыми фильтрами мгновенными спект- рами. Максимальное значение корреляции принималось в качест- ве указателя произнесенного звука речи. Схема для автоматиче- ского распознавания спектральных образцов показана на рис. 5.33. Если Е0(йп) есть мгновенный спектр амплитуд вход- ного речевого сигнала, производимый n-м количеством фильтро- вых каналов, и Fj(an)—есть /-Й эталонный образец, то величи- на корреляции приближенно определяется схемой в виде <Ро; (0) 2- Fo (о„) Fj (©„), /=1,2,3... п с последующим выделением того j, которое соответствует макси- мальной величине <poj(O)- Все 10 эталонных образцов звуков в данной разработке представляют собой длительные звуки, а именно /i, I, е, а, о, и, п, г, f, s/. Описанный способ распознавания спектральных образцов ис- пользуется в приборе, распознающем 10 однозначных чисел. По аналогии с устройством типа «Одрм» каждый выделенный спектральный образец взвешивается в соответствии со временем его пребывания в данном слове (см. нижнюю часть рис. 5.33).
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ 215 И снова для распознавания произнесенного числа выбирается максимальное значение. Окончательно слово определяют сле- дующим образом. Когда появляется очередной спектральный Рис. 5.33. Схема для автоматического распозна- вания спектральных образцов и произнесенных однозначных чисел (Дадли и Балашек) образец, включаются 10 цепей заряда десяти конденсаторов, об- щих для всей схемы. Проводимость данной цепи пропорциональ- на среднему времени пребывания каждого спектрального об- разца в данном слове. Таким образом, 10 конденсаторов накап- ливают заряды, величина которых пропорциональна величине корреляции между 10 эталонными образцами и измеренным об-
216 устройства для анализа речи разцом. Наиболее подходящее слово определяется по макси- мальной величине заряда в конце произнесенного слова. Это устройство, которое было задумано как более совершенный ва- риант предыдущего, производит распознавание чисел при под- стройке под данный голос с достаточно высокой точностью. В обоих приборах последовательность спектральных образцов и опознанных чисел фиксируется на световом табло. Другое устройство для распознавания речи также основано на сравнении спектральных образцов с эталонными образцами, представляющими собой отдельные фонемы речи (Фрай и Де- Речь Рис. 5.34. Блок-схема устройства для рас- познавания звуков речи, в котором исполь- зуются элементарные лингвистические за- кономерности (Фрай и Денис) нис — Fry and Denes). Однако сравнение здесь производится иным пу- тем, а результат иденти- фикации выдается в виде специальных символов. Образец для сравнения выбирается асинхронно, на основе скорости изме- нения спектральных рас- пределений. Однако бо- лее важным является по- пытка использования эле- ментарных лингвистиче- ских закономерностей. Блок-схема такого уст- ройства показана на оис. 5.34. Информация о мгно- венных амплитудных спек- трах получается с помощью параллельного (20-канального) ана- лизатора. Спектральные образцы, соответствующие данному зву- ку, вырабатываются путем перемножения выходных сигналов от двух каналов. Полученные произведения развертываются во вре- мени и поступают на селектор, где производится выбор макси- мального значения. Выбранное значение выводится с помощью печатающего устройства и удерживается в системе памяти. На основании выбранного значения набор эталонных образцов сме- щается в соответствии со статистикой языка, учитывающей ве- роятностную зависимость между двумя соседними звуками. Таким образом, следующая фонема выбирается в условиях, ког- ка некоторое преимущество отдается той фонеме, которая имеет наибольшую вероятность следовать за ранее выбранной. Описываемая машина предназначена для распознавания 14 фонем: 4 гласных, 9 согласных и пауза. Новый выбор повто-
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ 217 ряется всякий раз, когда напряжения, пропорциональные произ- ведениям сигналов на выходах умножителей, имеют скорость изменения большую, чем заданная пороговая величина. Тексты, отпечатанные на входе и выходе машины, сопоставлялись после подстройки машины под голос диктора. В том случае, когда двухбуквенные вероятностные зависимости не используются, процентное содержание правильно опознанных отдельных зву- ков и слов составляет 60 и 24% соответственно. При введении этих зависимостей указанные оценки для одного диктора возра- стают до 72 и 44 % • Для второго и третьего дикторов без подст- ройки машины под их голоса оценки артикуляции звуков па- дают примерно от 70 до 45%. Лингвистическая информация заметно улучшает распознава- ние, когда всем фонемам дается преимущество с равным весом. Однако если это преимущество распределяется с учетом вели- чины информации, приходящейся на одну фонему, то при опре- деленных условиях двухбуквенные вероятностные зависимости могут оказаться вредными. Наибольшее предпочтение отдается наивероятнейшим фонемам, которые в то же время переносят наименьшую информацию. Использование вероятностных зави- симостей влечет за собой возникновение и распространение ряда последовательных ошибок. Если использование лингвистических закономерностей приводит не к уменьшению числа ошибок, а к его увеличению, то в этом случае необходимо добиваться более высокого уровня точности афотического распознавания. Ряды последовательных ошибок допускаются, конечно, и человеком. Слушатель, перепутав однажды определенный ряд зависимостей в некоторой последовательности, может добавлять одну ошибку к другой в течение довольно длительного промежутка времени. Если лингвистические закономерности, которые должны уча- ствовать в процессе распознавания, полностью отражают дей- ствительное положение вещей, то операции хранения и обработ- ки в этом случае оказываются значительно более сложными. Аналогично, если усложнить обработку акустического сигнала, то потребуются значительно большие объем памяти и быстро- действие. Решение такого рода задач под силу только вычисли- тельной машине, и было приложено немало усилий, чтобы как можно полнее использовать ее возможности. Одна из работ в этой области посвящена выработке программы для распозна- вания однозначных чисел (Денис и Мэтьюс—Denes and Mat- hews). Мгновенные амплитудные спектры получаются посредст- вом гребенки полосовых фильтров. Сведения об этих спектрах вводятся в машину в виде последовательно развернутых во вре- мени сигналов на выходах гребенки. В запоминающем устрой- стве удерживаются спектрограммы речи, квантованные по ча-
218 устройства для анализа речи стоте, интенсивности и во времени. Амплитудные значения нор- мируются так, чтобы сумма их квадратов для всего частотно- временного блока равнялась единице. Измеренный образец с координатами время—частота—интенсивность для определения взаимной корреляции сравнивается с образцами, хранящимися в запоминающем устройстве. Эта корреляция находится путем перемножения амплитудных значений соответствующих элемен- тов в частотно-временной плоскости с последующим суммирова- нием результатов перемножения для всех элементов этой пло- скости. Из устройства памяти выбирается тот образец, который оказывается максимально коррелированным с измеренным. При желании можно осуществить нормализацию данных во времени. Для этого определяются местоположения начала и кон- ца произнесенного числа и полученные данные растягиваются во времени для подгонки под стандартную длительность (фак- тически она составляет 60 периодов развертки сигналов гре- бенки фильтров, образуемых со скоростью 70 сек~1 ). Без нор- мализации определяется только начало каждого произнесен- ного числа и используются лишь первые 60 периодов развертки. Эталонный образец для каждого числа получается путем усреднения спектральных данных для трех образцов этого числа, произнесенных каждым из пяти дикторов-мужчин. Эти эталон- ные образцы используются для распознавания чисел, произно- симых теми же и другими дикторами. В том случае, когда раз- личные цифры произносились теми же пятью дикторами, было найдено, что величина ошибки составляет 6% при наличии нор- мализации во времени и 13% при ее отсутствии. Когда эталон- ный образец подбирался только под одного диктора, произноси- мые этим диктором числа распознавались, по существу, безо- шибочно. Рассмотрение приведенных выше примеров представляет со- бой попытку проследить пути развития автоматического рас- познавания речи. При этом не было упомянуто большое число относящихся к этому вопросу работ (например, Смит—Smith, 1951; Бауман—Baumann; Ликлайдер и Хьюленд—Licklider and Howland; Олсон и Белар—Olson and Belar; Форджи и Форджи— Forgie I. W. and Forgie С. D.; Фрик—Frick; Дрейфус-Граф — Dreyfus-Graf). Большинство исследователей признают, что в ка- честве отправной точки должен служить мгновенный спектр. Из рассмотренного выше ясно, что предложенные схемы не позво- ляют сделать выводов ни о том, как человек обрабатывает ре- чевую информацию, ни о том, как он распознает лингвистиче- ские элементы. Ни одна из этих схем не может удовлетвори- тельно работать ни с большим числом голосов, ни с большим словарем. Человек в обоих случаях имеет преимущество. Тем
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ 219 не менее исследования устанавливают определенные возможно- сти, которые могут быть реализованы в управляемых голосом устройствах, предназначенных для специальных целей, особен- но когда словарный запас и число голосов могут быть сильно ограничены. Осуществление автоматического анализа речи (так, как мо- жет делать мозг человека), вероятно, станет возможным только через соответствующий анализ с применением грамматических, контекстуальных и семантических закономерностей. Такой под- ход предполагает также наличие определенного акустического анализа, который сохраняет ту же информацию, что и ухо че- ловека. В то же время очевидно, что для заданной точности рас- познавания может быть установлено компромиссное решение между необходимым объемом лингвистических взаимосвязей, сложностью словаря и числом дикторов. 5.6. Автоматическое распознавание диктора Выше было установлено, что образцы спектров, полученные от одного диктора, не всегда подходят для распознавания речи другого. Этот факт указывает на возможность использования спектральных данных для распознавания различных дикторов. Было приложено много усилий в этом направлении, особенно с использованием вычислительных машин. Для иллюстрации рассмотрим один из способов, в котором квантованные образцы (спектрограммы) в измерениях время—частота—интенсивность получаются посредством развертки во времени со скоростью 100 сек~х сигналов от 17-канального параллельного анализато- ра (Пружанский — Pruzansky). Для 10 различных дикторов (трех женщин, семи мужчин) из контекста было выбрано 10 ключевых слов. Чтобы установить для каждого испытуемого эталонные образцы, был произведен отбор из группы образцов, полученных трехкратным повторением каждого из 10 ключе- вых слов. Для опознания говорящего образцы спектрограмм различ- ных ключевых слов, произнесенных неизвестным диктором из группы испытуемых, сравниваются с эталонными образцами. В результате сравнения определяется их взаимная корреляция (как и прежде, путем перемножения амплитудных значений каждого элемента частотно-временной плоскости спектрограм- мы) с последующим выбором максимального значения корре- ляции. Поскольку произнесенные образцы различаются по дли- тельности, они выравниваются путем совмещения всех макси- мальных значений. Испытания показали, что из 10 дикторов,
220 УСТРОЙСТВА для анализа речи для которых были подобраны эталонные образцы, правильное опознание было сделано в 89% случаев. В ходе этого исследования трехмерные образцы с коорди- натами время—частота—интенсивность были сведены к дву- мерным путем суммирования последовательных значений сигна- лов от каждого фильтрового канала в течение всей длительно- сти произносимого слова. В результате такого суммирования для каждого образца получается интегральная кривая зависи- мости интенсивности от частоты. Было найдено, что эта опера- ция также обеспечивает 89% точности распознавания. Из подобных экспериментов трудно сделать заключение о том, каким образом сам человек опознает говорящего. Однако для сравнительно небольшого числа специальных приложений, где количество дикторов и их словарь могут быть ограничены, такие способы могут найти успешное применение. Предпринималось также исследование возможности распоз- навания дикторов человеком по визуальной оценке речевых спектрограмм (Керста—Kersta, 1948, 1962, а). Группу дикторов в количестве 5, 9 или 12 человек просили произносить 10 ключевых слов с четырехкратным повторением. По полученным данным изготавливались с помощью полосного анализатора обычные спектрограммы и контурные спектрограм- мы (см. раздел 5.1.5). Для каждого слова демонстрировалась произвольно составленная матрица спектрограмм, содержащая по четыре образца для каждого диктора. Испытуемых просили опознать слова, произнесенные каждым диктором в отдельности. Ошибка при определении группы отпечатков, соответствующих одному диктору, лежала в пределах от 0,35 до 1,0% для спек- трограмм, сделанных с помощью полосного анализатора и от 0,37 и 1,5% для контурных спектрограмм. Когда испытываемые слова выбирались из контекста, величина ошибки также оста- валась примерно в прежних пределах. В основу второго эксперимента был положен дактилоско- пический способ опознавания. Для 12 дикторов была составлена картотека отпечатков голосов при произношении ими пяти клю- чевых слов. Затем испытуемым предлагалось опознать различ- ные наборы слов, произнесенных неизвестными членами груп- пы, путем сопоставления их с эталонными наборами. При ис- пользовании групп из 5 ключевых слов количество ошибочных опознаний составило менее 1%. Идентификация, 'основанная на последовательном использовании двух таких групп, дает ошибку менее 0,5%. Были проведены предварительные исследования по установлению возможности распознавания измененных голосов. На основании полученных результатов было установлено, что у взрослых имеются определенные неизменные лингвистические
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ ДИКТОРА 221 и физиологические характеристики, которые могут быть обнару- жены с помощью спектрографа даже в том случае, когда де- лаются попытки изменить голос. Дикторы отличаются друг от друга множеством признаков. У людей наблюдается большое разнообразие размеров и форм голосового тракта; отличия в характеристиках затухания, раз- мерах рта и голосовой щели. Сюда же относятся особенности связи носового тракта, его размеры и характеристики затуха- ния. Можно указать также на временные характеристики ин- тенсивности (ударения) и основного тона (интонации). Кроме того, заметные отличия вносят различного рода препятствия в голосовом тракте и вариации в работе зубного аппарата. Ре- зультаты воздействия многих из этих факторов сохраняются в звуковых спектрограммах. Однако процесс визуального отож- дествления спектрограмм полностью отличается от процесса слухового распознавания дикторов. И все же сохранившиеся на спектрограмме признаки сигнала, очевидно, аналогичны тем, которые использует ухо. Описанные эксперименты по разпознаванию речи и иденти- фикации дикторов мало что говорят нам о той процедуре, ко- торую использует для этого сам человек. Они не позволяют ус- тановить, например, длительность используемой человеком еди- ницы распознавания. Они не указывают также субъективных методов измерения, которые позволили бы установить, что нуж- но принять в качестве единицы: фонему, слово, фразу или неч- то еще большее. Применявшиеся в экспериментах схемы имели в основном цель осуществлять искусственную обработку собст- венно акустического сигнала, а не разрабатывать методику вос- приятия. Механизм восприятия речи трудно поддается анализу, и мы имеем о нем очень ограниченные сведения. В гл. IV показа- но, что для сигналов с простой временной и спектральной структурами может быть установлена достаточно тесная связь в периферическом отделе слухового аппарата между субъектив- ным поведением и известной физиологией этой части слухового аппарата. До некоторой степени аналогичные соотношения мо- гут быть установлены и для речевых сигналов (например, такие их характерные особенности, как основной тон, формантная ча- стота и характер возбуждения, можно тождественно описать посредством законов перемещения базилярной мембраны). Од- нако вопрос о хранении и обрабатывании данных, поступающих из периферийного отдела по нервным каналам, до сих пор ос- тается открытым. Можно надеяться, что непрерывные исследо- вания электрофизиологии слухового тракта и реакции человека на речевые сигналы приведут хотя бы к частичному решению этого вопроса.
222 СИНТЕЗ РЕЧИ VI. СИНТЕЗ РЕЧИ В древности люди часто считали свое умение пользоваться речью неким признаком божественного начала. Естественно, что такую же способность они иногда приписывали и богам. Языческие жрецы, стремящиеся укрепить веру в богов, часто пытались заставить своих идолов непосредственно гово- рить с людьми. Говорящие статуи, таинственные голоса и предсказания были хорошо известны в греческой и римской циливизациях; обычно голос прихо- дил к искусственному рту с помощью хитроумно спрятанных труб. Восторг и изумление охватывали слушателей такой «искусственной речи». Подобные устройства были весьма эффективными и распространенными. Когда циливизованный мир вступил в эпоху Возрождения, стал расши- ряться и интерес к развивающейся науке. Человек начал более серьезно вдумываться в природу вещей. Прекрасными объектами исследований оказа- лись жизнь человека и его физиологические функции, в том числе и физио- логическая 'Сторона речи. Не удивительно, что сравнительно сложный меха- низм голоса часто рассматривался с помощью моделей, более легких для изучения. Первые модели были исключительно механическими; некоторые из них по замыслу чрезвычайно остроумны. 6.1. Механические говорящие машины; исторический обзор Одна из первых зафиксированных попыток синтеза речи ^ыла сделана Кратценштейном в 1779 г. Императорская Академия в Петербурге объявила, что ежегодная премия будет присуждена за объяснение разницы между пятью гласными звуками с точки зрения физиологии и за изготовление уст- ройства для получения их искусственным путем. Лучшим оказалось реше- ние, предложенное Кратценштейном, который сконструировал акустические резонаторы, по форме аналогичные голосовому тракту человека. Резонато- ры возбуждались вибрирующими язычками, которые подобно голосовым связкам человека прерывали воздушный поток. Через несколько лет (в 1791 г.) Кемпелен создал и продемонстрировал более сложную машину для получения образцов связной речи (по-видимому, Кемпелен опередил Кратценштейна, так как он предположительно начал работу над своим устройством в 1769 г.) (Кемпелен—von Kempelen; Дадли и Тарножи—Dudley and Tarnazy). Хотя машина Кемпелена получила значи- тельную известность, к ней отнеслись менее серьезно, чем следовало бы. Это было вызвано тем, что ранее, при создании машины, играющей в шахматы, Кемпелен был уличен в обмане. Главным «механизмом» машины был спрятан- ный в ней хороший шахматист карликового роста. Однако в говорящей ма- шине не было ничего противозаконного. В ней имелись меха для подачи воздуха на язычок, который, в свою очередь, возбуждал управляемый рукой одиночный резонатор, издававший звуки, похожие на звуки голоса человека. Согласные, включая носовые, получались с помощью четырех каналов, сжи- маемых пальцами. На основе сделанного Кемпеленом описания своей маши- ны Чарльз Уитстон (предложивший мостик Уитстона и считающийся в Англии изобретателем телеграфа) построил усовершенствованную модель (рис. 6.1). Устройство работало следующим образом. Правая рука помещалась на главных мехах, направляя поток воздуха в вибрирующий язычок для полу- чения вокализованных звуков (см. нижнюю часть рис. 6.1). Пальцы правой руки управляли воздушными каналами фрикативных звуков /J/ и /s/, а также отверстиями «ноздрей» и включением и выключением язычка. Язычок вклю-
МЕХАНИЧЕСКИЕ ГОВОРЯЩИЕ МАШИНЫ 223 чался при синтезе гласных звуков одновременно с выключением всех осталь- ных каналов. Требуемые резонансы при гласных звуках получались соответствующей деформацией левой рукой кожаного резонатора, находящегося в передней Рис. 6.1. Сконструированная Уитстоном «говорящая» ма- шина Кемпелена: 1 — кожаный резонатор, 2 — выход звуков речи, 3 — ноздри, 4— свисток «Sh>, 5 — рычаг «Sh », 6 — отключение язычка, 7—рычаг «S>, 8— меха, 9— свисток «S>, 10 — язычок, // — вспо- могательные меха части устройства. Глухие звуки вырабатывались при отключенном язычке с помощью вихревого потока воздуха, проходящего через узкий проход. Кем- пелен в своем описании утверждал, что можно было вполне сносно разобрать около 19 согласных звуков. Работы Кемпелена, по-видимому, сыграли большую роль, чем принято считать. Александр Грэхэм Белл, проживавший в юности в Эдинбурге, в Шотландии, имел возможность познакомиться с копией машины Кемпелена, сконструированной Уитстоном. Устройство произвело на Белла большое впе- чатление, и он, поощряемый своим отцом (Александром Мелвиллом Беллом, преподававшим, как и его отец, ораторское искусство), начал вместе со своим братом Мелвиллом конструировать собственный говорящий автомат. По совету отца, мальчики попытались скопировать органы речи, изгото- вив слепок человеческого черепа и отлив из гуттаперчи части голосового ап- парата: губы, язык, небо, зубы, глотку и мягкое небо. Губы представляли собой проволочный каркас, покрытый резиной и набитый хлопковым (вати- ном. Полость рта ограничивалась резиновыми щеками, а язык был сделан из деревянных частей, покрытых резиновым чехлом, набитым ватином. Все эти элементы с помощью рычагов соединялась с клавиатурой управления. От жестяной «гортани» отходила гибкая трубка — аналог дыхательного горла. Роль отверстия голосовых связок играла натянутая на жестяной опоре рези- новая пленка с прорезанной щелью. Белл впоследствии говорил, что это устройство можно было заставить произносить гласные и носовые звуки, а также связные звукосочетания (по- видпмому, достаточно хорошо, чтобы привлечь внимание соседей). Интересно поразмышлять о том, насколько это юношеское увлечение /повлияло на иояв- ление патента США № 174.465 от 14 февраля 1876 г.—вероятно, одного из самых замечательных в истории.
224 СИНТЕЗ РЕЧИ Мальчишеский интерес Белла к речеобразованию посудил его к опытам с собакой—терьером Скай. Белл приучил ее сидеть на задних лапах и не- прерывно рычать, а сам в это время манипулировал ее голосовым трактом рукой. Окончательный звуковой репертуар собаки состоял из гласных /а/ и /и/, дифтонга /ои/ и слогов /та/ и /ga/. Вершиной ее лингвистического обра- зования была фраза «How аге you, Grandmamma?» («Как поживаешь, бабушка?»). Собаке, по-видимому, очень нравилось вкусное угощение, пола- гавшееся при опытах, и она пыталась «говорить» без посторонней помощи. Однако ей никогда не удавалось произнести что-нибудь отличное от обыкно- венного рычания. Как утверждал Белл, эта история является единственным оправданием слуха о том, что он однажды научил говорить собаку. Интерес к механическим моделям голосовой системы сохранился и в двадцатом веке. Среди исследователей, добившихся глубокого понимания при- роды человеческой речи, был Ричард Пейджет (Richard Paget). Он не только создал из гипсовых труб точные модели голосового тракта, но и достиг высокого мастерства в умении руками создавать конфигурации речевого тракта. Пейджет мог буквально «говорить руками», складывая кисти рук так, что образовывалась полость, которую он возбуждал либо с помощью язычка, либо губами, вибрирующими, как при игре на трубе. Примерно в это же время исследователи Гельмгольц, Д. С. Миллер, Штумпф и Кёниг (Helmholz, D. С. Miller, Stumpf and Koenig) занялись ис- кусственной речью с иных позиций, положив в основу своей работы не столь- ко процесс образования речи, сколько процесс ее восприятия. Гельмгольц синтезировал гласные звуки, заставив набор камертонов, настроенных на оп- ределенные частоты, вибрировать с заданными амплитудами. Миллер и Штумпф получили тот же результат с помощью органных труб. Кёниг син- тезировал гласные еще одним методом: на вращающиеся зубчатые колеса направлялись струи воздуха. Рис. 6.2. Механический речевой тракт Риша: 1 — губы, 2~ иоздря, 3 — зубы, 4— рот, 5 — мягкое небо. 6 — глотка В последние годы была предложена еще одна конструкция механическо- го говорящего устройства (рис. 6.2) (Риш—Riesz, 1937, публикации не бы- ло). Сжатый воздух поступает справа из резервуара. Потоком воздуха управ- ляют два клапана — К] и Кг- Клапан Ki пропускает воздух в камеру Li,
МЕХАНИЧЕСКИЕ ГОВОРЯЩИЕ МАШИНЫ 225 в которой закреплен язычок, при вибрации которого прерывается воздушный поток так же, как это происходит при вибрации голосовых связок. Эффек- тивная длина язычка, а значит, и основная частота его вибраций изменяются скользящим прижимным устройством. Неозвученные звуки получаются при пропускании воздуха через клапан К2. Конфигурация голосового тракта изменяется перемещающимися элементами: губами, зубами, языком, глот- кой и клапаном мягкого неба. Для упрощения управления конфигурацией голосового тракта Риш снаб- дил свою говорящую машину клавишами, а для губ и зубов сделал только по одному органу управления (элементы 1, 3 работали парами). Такое упро- щенное устройство вместе с клавишами показано на рис. 6.3. Зачерненные Г К5 12 3*567 8 Рис. 6.3. Клавиатура управления механическим говорящим уст- ройством Риша участки означают мягкие резиновые покрытия, нанесенные для получения смыканий и затухания, близких к реальным. Клавиши 4 и 5 управляют кла- панами .возбуждения К4 и Кь, устроенными несколько по-иному, чем кла- паны Ki и К2 на рис. 6.2. При получении глухих звуков воздух пропускают через клапан К4 и отверстие в передней части тракта (под элементом б). Клапан Къ направляет воздух в язычковую камеру озвученного возбуждения. В этом случае основной тон управляется воздухом, проходящим через кла- пан Ki- Опытный оператор мог заставить эту машину имитировать связную речь. Согласно частному сообщению Р. Р. Риша, одним нз наиболее удачных «высказываний» машины было слово «cigarette». Интерес к механическим моделям сохраняется и в наше время. Основной причиной этого является необходимость имитации и измерения нелинейных эффектов в голосе, которые с трудом поддаются расчетам и не могут быть моделированы с помощью линейных устройств. К числу параметров, при измерении которых в реальном голосовом тракте встречаются большие труд- ности, относятся положение, интенсивность, спектральный состав и в'нутрен- 8—71
226 СИНТЕЗ РЕЧИ ний импеданс источника возбуждения для глухих звуков. Один из способов получения данных об этом источнике связан с использованием механических моделей. На рис. 6.4 а показано устройство для проведения подобных измере- ний по Гейнцу (Heinz, 1'958). б) Рис. 6.4. Механическая модель речевого тракта для имитации фрикативных согласных (а) и измеренный по Гейнцу спектр протяжного звука, похожего на /S/ (б): / — твердая деревянная сфера, радиусом 9 см, 2 — труба с твердыми стенками, 3 — скользящий поршень, 4 — микрофон, 5 — анализатор спектра В этом устройстве сфера соответствующего размера является эквивален- том головы человека. Имеющаяся в сфере труба с сужением представляет голосовой тракт. Пропускаемый через суженную часть поток воздуха измеря- ется спектральным анализатором. На рис. 6.46 изображен типичный спектр для случая, когда сужение находится в трубе на расстоянии 4 см от «рта». Соответствующий звук отдаленно напоминает фрикативный /J"/. Поскольку размер суженной части при произнесении фрикативных согласных обычно мал, спектральные резонансы определяются в первую очередь полостями, расположенными спереди от сужения. Антирезанансы происходят на часто- тах, при которых импеданс трубы со стороны рта бесконечен (см. раздел 3.6). Расчет показывает, что спектр самого источника возбуждения сравни- тельно равномерен. Установлено, что его общая мощность пропорциональна приблизительно пятой степени скорости потока.
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 227 При исследованиях нелинейных свойств потока в голосовом тракте (ван ден Берг, Зантема и Дурненбол—van den Berg, Zantema and Doornenbal; Мейер-Эпплер—Meyer-Eppler, 1953; Вегел—Wegel), проводимых в последние годы, использовался также ряд других механических моделей. По крайней мере, две из них имитировали поведение потока воздуха в голосовой щели. 6.2. Электрические методы синтеза речи 6.2.1. Методы восстановления сигналов с заданным спектром С развитием электротехники интерес к синтезу речи получил более широкую основу. Академический интерес к физиологии и акустике речеобразующего механизма был дополнен возмож- ностью использовать полученные данные для связи на расстоя- ние. Хотя первым успешно примененным на практике был метод передачи целиком всего речевого колебания, многие изобрета- тели того времени отмечали резонансную природу голосового механизма и важность сохранения мгновенного спектра ампли- туд для разборчивости речи'). Однако до аналитической формулировки и практического воплощения этих идей люди дошли очень нескоро. ') Выдающуюся роль среди изобретателей играл Александр Грэхэм Белл. События в связи с его опытами с «гармоническим телеграфом», которые на- толкнули Белла, в марте 1876 г. на мысль использовать метод передачи пол- ного речевого колебания, известны большинству студентов-связистов. По- вндимому, менее известной является идея Белла о спектральной передаче речи, которая очень похожа на идею полоснаго вокодера (Уотсон—Watson). Белл назвал эту идею «арфным телефоном» (harp telephone). Согласно этой идее телефон представлял собой длинный электромагнит, в магнитопровод которого включен ряд стальных язычков, настроенных на различные частоты н колеблющихся вблизи полюсов электромагнита. По мысли Белла, «язычки можно считать эквивалентами резонансных элементов органа Корти в челове- ческом ухе». Произнесенный около устройства звук должен вызвать колеба- ние язычков в соответствии со спектральным составом звука. В результате индукции в обмотке магнита возникнет ток, сложная форма колебания ко- торого определяется суммой колебаний всех язычков. Белл думал, что если этот ток подать на аналогичное устройство, то на приемной стороне соот- ветствующие язычки начнут колебаться и воспроизведут исходный звук. Это устройство, по славам Уотсона, не было создано из-за денежных за- труднений. Кроме того, не имея возможности усиливать сигналы, Белл ду- мал, что ток иа выходе такого устройства окажется слишком слабым для того, чтобы его можно было использовать. (Однако Белл, работая со своим гармоническим телеграфом, обнаружил, что магнитный преобразователь с диафрагмой, соединенный с приемной частью устройства, позволял получить слышимые звуки и от таких слабых токов). Основой «арфного телефона» является идея о том, что разборчивость речи определяется ее мгновенным амплитудным спектром. Каждый язычок уст- ройства можно считать одновременно и электроакустическим преобразовате- лем, и полосовым фильтром. Если не считать смешивания отфильтрованных сигналов в общем проводе и отсутствия детектирующих и сглаживающих уст- ройств, примененный принцип восстановления спектра поразительно похож на принцип полосного вокодера. 8*
228 СИНТЕЗ РЕЧИ Гельмгольц, Д. С. Миллер, Р. Кёниг и Штумпф (Helmholz, D. С. Miller, R. Koenig and Stumpf) в начальной стадии своих опытов заметили, что акустические сигналы с правильно выбран- ными основной частотой и относительными амплитудами ее гар- моник очень похожи на звуки речи. Другими словами, для син- теза звуков не обязательно пытаться скопировать голосовой ме- ханизм человека—необходимо иметь в виду лишь конечную цель, т. е. синтез звуков с такими характеристиками, которые обеспе- чивают их правильное восприятие. Одним из первых, кто с по- мощью электрического устройства продемонстрировал право- мерность такого подхода, был Стюарт (Stewart). Он возбуждал систему из двух пар связанных контуров током, прерываемым со скоростью, равной основной частоте голоса. Настраивая долж- ным образом эту систему, можно было имитировать протяж- ные гласные звуки. Недостаточная отработка устройства не по- зволяла получать связные звукосочетания. Несколько позже Вагнер (Wagner) предложил аналогичную систему, состоящую из четырех соединенных параллельно электрических резонато- ров, возбуждаемых прерывателем тока. Выходные сигналы резо- наторов складывались в определенных соотношениях для полу- чения гласных звуков. По-видимому, первым электрическим синтезатором, с помо- щью которого была сделана попытка синтезировать связную речь, был «водер», разработанный Дадли, Ришем и Уоткин- сом (Dudley, Riesz, Watkins). В основном это было устройство, синтезирующее сигналы с заданным спектром и работающее от ручной клавиатуры. Кроме того, в нем была учтена важная физиологическая характеристика голосового механизма—нали- чие двух видов возбуждения: голосового и шумового. Схема уст- ройства водера приведена на рис. 6.5. Блок «управления резонансами» этого устройства состоит из 10 параллельно соединенных фильтров, полосы пропускания ко- торых соприкасаются и перекрывают частотный диапазон речи. Сигнал возбуждения на все фильтры поступает либо от шумо- вого, либо от импульсного релаксационного генератора. Пере- ключение источника возбуждения осуществляется браслетом на запястье, а управление частотой импульсов — ножной пе- далью. Напряжения с выходов полосовых фильтров регулиру- ются потенциометрами, управляемыми с помощью клавиш 10 пальцами, а величины их складываются. Переходная харак- теристика фильтров, имитирующих взрывные согласные, управ- ляется тремя дополнительными клавишами. Эта говорящая машина демонстрировалась тренированными операторами на Всемирных выставках 1939 г. (Нью-Йорк) и 1940 г. (Сан-Франциско). Хотя для обучения операторов требо-
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 229 ШуноВое Громкогово- Рис. 6.5. Схема синтезатора «водер» (Дадли, Риш и Уоткинс) валось длительное время (год и более), они могли «играть» на машине (буквально как на органе или рояле) и генерировать разборчивую речь1) - Впоследствии принцип водера использовал- ся в исследовательской работе Оизуми и Кубо (Oizumi, Kubo). ') В октябре 1961 г. Г. У. Дадли (Н. W. Dudley) закончил свою работу в Лабораториях Белла и вышел на пенсию. В честь окончания его более чем сорокалетней деятельности в области исследования речи из хранилища был извлечен и приведен в рабочее состояние экземпляр водера. Кроме того, была приглашена женщина—один из первых операторов ®одера. Замечатель- но, что после двадцатилетие™ перерыва она смогла управлять машиной и заставила ее говорить.
230 СИНТЕЗ РЕЧИ В гл. V достаточно подробно был описан анализ речи с по- мощью звукового спектрографа. Поскольку по данным Гельм- гольца и других разборчивость определяется, главным образом, мгновенным спектром амплитуд, возникает мысль об использо- вании спектрограмм для синтеза речи. С этой мыслью связан и вопрос о том, в какой степени спектрограммы реальной речи могут быть схематизированы или «нарисованы» без нарушения разборчивости. Для автоматического «проигрывания» звуковых спектрограмм было создано несколько различных устройств. В одном из них используется линейный источник света, распо- ложенный вдоль оси частот спектрограммы и просвечивающий участки изображения с различной степенью прозрачности (Шотт — Schott). Фотоэлементы, расположенные в ряд вплот- ную друг к другу по другую сторону спектрограммы, являются источниками управляющих сигналов для набора полосовых фильтров (таких же, как в водере). Дополнительные дорожки на спектрограмме управляют переключением «тон—шум» и не- сут информацию о частоте основного тона. Подобная же схема использована в устройстве, названном «вобэк» (Борст и Купер— Borst and Cooper), для управления синтезатором, подобным во- деру. Несколько иной метод «проигрывания» спектрограмм был использован Купером, Либерманом и Борстом при проведенном ими тщательном изучении синтеза речи. Речевое колебание до- статочно полно представляется рядом Фурье 2Дпсоз(пио^+Фп) • п Коэффициенты Ап изменяются во времени и определяются плот- ностью спектрограммы на заданном интервале. Звук по тако- му методу получается с помощью устройства, показанного на рис. 6.6а. На образец обычной трехмерной (время — частота — интен- сивность) спектрограммы проектируется 50 световых точек, рас- положенных в ряд вплотную друг к другу. Интенсивность света в каждой точке модулируется по гармоническому закону час- тотами, находящимися в гармоническом соотношении. Эти точки получаются при освещении «фонического колеса» линейным ис- точником. В фоническом 'колесе имеется 50 концентрических по- лос с переменной прозрачностью. Ближайшая к центру полоса имеет четыре периода синусоиды, следующая полоса — 8, за- тем — 12 и так далее до 200 у 50-й полосы. Колесо вращается со скоростью 1800 об/мин, так что основная частота составляет 120 гц. Свет от него отражается либо от спектрограммы, либо просвечивает ее. Прошедшие через спектрограммы (или же при другом устройстве—отраженные) лучи попадают на специаль- ные коллектор и фотоэлемент, в которых складываются 50 чле-
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 231 нов ряда Фурье. Суммарный сигнал усиливается и воспроизво- дится громкоговорителем. Постоянная скорость вращения фонического колеса опреде- ляет монотонность синтезированной речи. Турбулентные звуки имитируются путем модуляции фаз и амплитуд составляющих по случайному закону подобно тому, как производится спек- тральное представление всплеска шума. На этой машине могут проигрываться как спектрограммы настоящей речи, так и схе- Рис. 6.6. Схема устройства для проигрывания спектрограмм (а) (по Куперу) и спектрограммы реальной речи и схематизированной нари- сованной от руки (6). Обе картинки могут быть синтезированы с по- мощью проигрывающего устройства (по Борсту): 1 — источник света, 2 — цилиндрическая линза, 3—фоническое колесо, 4 — лниза, 5 — зеркало под углом 45°, 6 — коллектор света и фотоэлемент (отражение), 7— спектрограмма, 8—коллектор света при просвечивании, 9 — громкоговоритель, 10 — усилитель
232 СИНТЕЗ РЕЧИ матизированные рисованные картинки, примерный вид кото- рых показан на рис. 6.66. На рисованой спектрограмме, в ее нижней части, темные линии соответствуют речевым формантам, а вкрапления тонких штрихов — всплескам шума. Эта машина позволяет получить разборчивую монотонную речь и широко ис- пользуется при исследовании процессов восприятия. 6.2.2. Синтезаторы-четырехполюсники В гл. III для акустического анализа речевого тракта была применена теория линейных цепей. Полученные при этом ре- зультаты показывают, что передаточные характеристики трак- тов с простой геометрией можно описать простыми выражения- ми. Тракты сложной формы можно аппроксимировать из корот- ких отрезков цилиндрических звуковых труб. Поведение речевого тракта рассматривается либо с точки зрения сквозной характеристики передачи, либо на основе под- робного представления всех его свойств. Синтез речи может быть основан на любом из этих подходов. В первом случае де- лаются попытки построить электрическую цепь, обычно несим- метричную, с характеристикой передачи, совпадающей с харак- теристикой передачи тракта от входа до выхода. Синтезаторы такого типа получили несколько неудачное название «синте- заторы— четырехполюсники» (terminal — analogs) (Фланаган, 1957, с). Во втором случае пытаются создать полный электриче- ский аналог речевого тракта с учетом геометрии и распределен- ного характера его параметров. Электрические синтезаторы представляют собой также симметричную неоднородную ли- нию, моделирующую тракт. Оба метода синтеза требуют учета звукоизлучения и работы источников голосового возбуждения. Эти факторы, общие для обеих моделей получения речи, будут рассмотрены позднее. Сквозные характеристики голосового тракта. Возбуждаемый голосовыми связками тракт без сужений можно приближенно представить в виде прямой трубки, замкнутой у голосовых свя- зок (zg= со) и разомкнутой у рта (zr = 0). В этом случае от- ношение потоков у рта и в гортани зависит от частоты следую- щим образом: где / — длина трубки, у= (a + ip) =[(7?a + i(oLa) (Ga + icoCa)]I/2 , а Ra, La, Ga, Ca являются погонными акустическими парамет- рами трубки [см. рис. 3.22 и ур-ние (3.61)].
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 233 В дальнейшем удобно рассматривать частоту как комплекс- ное переменное. Подставим вместо ico s = o+ico, тогда y(s) = ={(Ra + sLa)(Ga+sCaj]i/2 . В случае малых потерь у($)~( а+ Ч---, где . —скорость звука [см. ур-ние (3.8)]. с / VLaCa Поскольку речевой тракт является системой с распределен- ными параметрами, его характеристики передачи содержат трансцендентные функции. Однако эквивалентная ему по внеш- ним свойствам электрическая цепь с сосредоточенными пара- метрами описывается рациональными мероморфными функция- ми. Поскольку трансцендентные передаточные функции голосо- вого тракта мероморфны, а их числитель и знаменатель обыч- но являются интегрируемыми функциями (т. е. аналитическими для всех конечных значений комплексного переменного), ха- рактеристики передачи могут быть представлены рациональны- ми функциями. В теории функций имеется соотношение (Титчмарш — Ti- tchmarsh), согласно которому функцию f(z), интегрируемую по комплексному переменному z и удовлетворяющую некоторым ограничениям, можно представить в виде произведения z f’ (0) оо г /(Z) = / (0) е /(°) Г"| fl —-5-) е , (6.2) \ ат / т=\ где ат — порядковые простые нули f(z). Для характеристики (6.1) нули знаменателя (или полюсы •самой функции) находятся в точках Y(s) = ±i-(-2fl-1)Tt-, n=l, 2...1) или Y2 $ = - (Ч7721)2Я2 = + sLa) (Ga + sCa), 4^ откуда, отбрасывая индексы а, получаем 1 = _ / R £_\ । - Г(2л — 1)2я2 _ (J*___________G_\21 2 = Sn~ \2i +2С/ —Ч 4PZ.C \2£ 2С ) = — <за + i со„, п = 1, 2 ... (6.3) (2га + 1) л ’) В гл. III этот результат был записан в виде Y = + 1--------—------, /1=0, 1, 2 ... [см ур-ние (3.62)]. В данном случае удобнее писать (2га—1), л=1, 2,... Это связано с мнемоническим удобством в том смысле, что пред- ставляет также номер форманты.
234 СИНТЕЗ РЕЧИ Для малых потерь sn^ac + i (2л-^1)яс , п=1, 2...» (6.4) что равносильно выражению (3.63) (за исключением перехода к 2п—1 и п=1, 2...). Подстановка (6.3) в (6.2) дает ch 2 = П Г1------------~-------1 > (6.5) 11 (2л — 1) л v 1 п= 1 + i---------- где z=y(s)l. [Два первых сомножителя (6.2) стремятся к еди- нице, а последний при перемножении дает единицу, так как корни f(z) — сопряженные мнимые величины]. Для малых по- терь у (X)/«Наоткуда т. е. то же самое, что и в (3.64). Из выражения (6.4) видно, что полюсы прямой трубы рав- номерно распределены вдоль оси ico через интервалы^. В этом частном случае передаточная функция реализуется с по- мощью очень простой электрической цепи — цепи с обратной связью, (показанной на (рис. 6.7. Функция передачи такой цепи равна -£1 = H(s) = J-ae-sD + a2 e~2sD - . . . = - -L-p- , (6.7) в/ 1 + а е где а — положительный действительный коэффициент усиления, меньший единицы, a D — задержка, равная удвоенной величи- не времени прохождения звука по трубе. Импульсный отклик цепи имитирует многократные отражения с некоторыми поте- рями, имеющими место на концах трубы. Полюсы H(s) нахо- дятся в точках = - —In —+ i 1)Jt , 1, 2... (6.8) Da D
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 235 ei 6.7. Схема цепи с обратной свя- имеющей коэффициент переда- Рис, зью, чи с равномерно разнесенными ком- плексными сопряженными полюсами Если D — 2— и а = е 2а/ , полюсы совпадают с (6.4). с Для неоднородной трубы функция передачи (6.6) в общем случае будет иметь полюсы, неравномерно расположенные по частоте. В подобном случае имеется простой способ пред- ставления функции передачи электрической цепью путем «наращивания» функции из пар полюсов. Цепь можно вы- полнить в виде каскадного соединения соответствующим образом настроенных одиноч- ных резонаторов. Такой метод удобен тем, что получается полное совпадение речевых формант и полюсов резонаторов и обеспечивается независимое управле- ние резонансами. Роль полюсов высших порядков. С точки зрения восприятия обычно достаточно моделировать лишь несколько первых (от трех до пяти) резонансных максимумов тракта. Остальные ре- зонансные максимумы можно учесть одним сомножителем, от- ражающим их суммарное влияние на спектр амплитуд, кото- рый по Фанту (Fant, 1960) в конечном счете является обычным амплитудно-частотным выравнивателем. Предполагая, что ре- зонансные максимумы высших порядков приблизительно такие же, как и у прямой трубки, можно непосредственно определить вид выравнивателя. Запишем выражение (6.6) в виде двух рядов произведений: k V оо • p(s) = п ——— п —SnSn -- где sn = (— оп + i сол). Для s = i co Qk (‘ ®) = где ^ = (02 + 02). оо a I—| _______®0n______ (<4-“2) + i2a«“ =/>*(№(«). (6.9) (6.10) Модуль этого выражения lQft(ico)|= П --------------------°'-------— • С6-11) [(со2, _ Ю2)2 + (2а„®)2] 2
236 СИНТЕЗ РЕЧИ Для малых потерь <ип и Пт-^г Л=Ж 1 — — \ “л . (6.12) Прологарифмировав обе части равенства, получаем Л / \ СО2 in । ww/ I----***i *--------2 i. Разложив логарифм в ряд л=А+1 \ / и оставив только первый член (рассматривая картину на часто- тах (о<соп), получаем ln| Qfe(ico)|~co2 2 Т.2,где ип= (2н—l)coi = л=Н-1 п = п=1, 2 ... (т. е. частоты резонансных максимумов длиной I). Это выражение можно записать и в 21 прямой трубки таком виде: (6.13) Л=Н-1 Но Xj (2n—I)2 Л2 —, и тогда сумма в (6.13) равна У — (2n— 1)2 л=АЦ-1 А Ь(2п-Й2 ’ (6.14) г A / О \2 Л2 Отсюда ln|QA|^— I (2п—1)2 '1 2 Um ------------ 2g=<*> Zr=0 । z^ZaCSlrrl Рис. 6.8. Возбуждение прямой тру- бы у открытого конца источником давления - (6.15) где R(k) —действительная по- ложительная функция k, выс- ший полюс, принимаемый в расчет в данном конкретном случае. Возбуждение тракта не от голосовых связок. Из гл. III сле- дует, что если голосовое возбуждение производится в какой-то точке, расположенной не в конце тракта, функция передачи на-
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 237 ряду с полюсами будет содержать и нули. Эю можно легко проиллюстрировать на примере возбуждения переднего конца прямой трубки источником давления (рис. 6.8). Отношение по- тока воздуха у рта к давлению источника есть полное входное сопротивление рта, или = _L thY i = ------!-----shY(jH. = p zф (6 j6) pz(s) Z„ ch f (s) / Zo Так как P(s) не имеет нулей, нули функции передачи являют- ся нулями Z(s), приходящимися на точки (e2lZ— 1) = 0 у = +1— . m = 0, 1, 2... [ (6.17) у2 = = [(Я+sA)(G+sC)] G \ 1 + i------ 2Z,------------------20 / fiLC / R G \2]l/2 — I —---— или, для малых потерь, + /и = 0, 1, 2... (6.18) Полюсы функции передачи те же, что и определяемые вы- ражением (6.4), и в данном примере они чередуются с нуля- ми в направлении ico. На основе формулы рядов произведений (6.2) имеем shz= со = Z ГТ (1 —\ где 1 1 \ + imtrt / m=l 2 = у I ~ I + S— . (6.19) Тогда 00 / s-f-ac + imnc = —(a c + s) I I тле c * I + i------- m=l \ I ~ (s+s°) П m—1 (s—sn)(s—s*nl) S.nSm (6.20) где s0 = — a c.
238 СИНТЕЗ РЕЧИ Роль нулей высших порядков в спектре. Ряды с нулевыми членами можно укоротить по методу, описанному выше для членов с полюсами, а для нулей высших порядков можно полу- чить некоторый коэффициент, определяющий спектральную кор- рекцию. Действуя по методу (6.9), получаем л с и где coj = у- (6.21) Суммирование может быть переписано в виде 1п|У%(i <о)| и2 ®1 k л2 т m=l или ®)1 Г (А) (6.22) где T(k) есть действительная положительная функция номера нуля k. За исключением знака экспоненты, она имеет тот же вид, что и (6.15). Это значит, что коэффициент | У/Д1со) | мо- жет быть реализован в виде частотного выравнивателя в со- четании с переменными полюсами и нулями формантного син- тезатора. Этот простой пример возбуждения переднего конца показы- вает, что функция передачи голосового тракта в общем случае содержит и полюсы [Р(У)] и нули ![Z(s)]. В данном примере ну- ли (подобно полюсам) равномерно распределены по частоте. В неоднородном речевом тракте частоты полюсов и нулей в об- щем случае будут распределены неравномерно. Помимо того, что нули в функции передачи определяются положением источ- ника, они могут также возникать при наличии побочных кана- лов, соединенных с главным трактом передачи. Здесь имеются в виду носовые согласные, назализованные гласные и, по-види- мому, плавные звуки, подобные /1/. Во всех случаях, когда звук излучается из одного отверстия (рта или ноздрей), речевой тракт является минимально фазовым. При одновременном из- лучении изо рта и ноздрей (как при назализованных звуках)
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 239 тракты передачи до каждого из отверстий являются минималь- но фазовыми, но общая характеристика в заданной точке про- странства перед говорящим будет неминимально фазовой. Влияние резонатора в ответвлении. Влияние носового или ротового ответвления можно проиллюстрировать на примере рис. 6.9. На очень низких частотах эту схему можно рассматри- вать как цепь с сосредоточенными постоянными, аппроксими- рующими главные полости и сужения (рис. 6.96). Полюсы це- Рис. 6.9. Упрощенные цепи, показывающие соединение ротовой (а) и носовой (б) полостей пи находятся на частотах, где сумма комплексных проводимо- стей в любой узловой точке равна нулю. Для примера удобно рассмотреть точку соединения носовой и ротовой полостей у мягкого неба. При малых потерях соответствующие полные про- водимости такой низкочастотной аппроксимации равны Yp = sCj. (6.23)
240 СИНТЕЗ РЕЧИ или, для действительных частот s—>ico, v _ “no - °2 * п . 9 . v Q^o-“a * т * . 9 ч 1 W£2(Wmp-W2) Ур = i “ Ci (6.24) где сопо и сото являются нулями полных проводимостей носа и рта. Полюсы этой системы приходятся на частоты, при кото- рых 2У=Уп + ^т+^Р = 0, или “п0 - М2 + юто~ю2 L3(a2np — W2) Z2(to^p-W2) (6.25) Нуль в области низких частот функции — лежит в точке До* U атр, а функции — в точке conJ>. “g Рассмотрим расположение низкочастотных нулей и полюсов для очень упрощенного случая. Предположим, что размеры по- лостей глотки, рта и носа (Сь С2, С3) поддерживаются постоян- ными, а сужения рта и мягкого неба (L2, L3, L^) — переменны- ми. Предположим также, что площади мягкого неба таковы, что (Лп + Лт) =X0=,const, т. е. что Ь2 и £3 связаны обратной зави- симостью. Пусть длины всех труб фиксированы, так что един- ственным переменным сосредоточенным элементом является изменяющаяся площадь. Посмотрим, как будут вести себя низ- кочастотные нули и полюсы при последовательности звуков: гласный — назализованный гласный — носовой, как в /ат/. Упрощенная последовательность артикуляции такова: гласный звук — рот открыт, а носовой тракт отключен и замкнут; наза- лизованный гласный — мягкое небо частично открыто, а рот еще не закрыт; носовой — мягкое небо полностью открыто, а рот закрыт. Для гласного звука связь с носовой полостью отсутствует и А3~ оо. Частоты сопо и conJ> равны (т. е. полюс и нуль совпа- дают), а Уп = 0. Полюсы передаточной функции приходятся на те частоты, где Ym—Yp. Когда гласный звук назализуется, мяг- кое небо открывается, L3 уменьшается, а Ь2 возрастает. сопО ос- тается на месте, но <оПр отделяется от ипо и движется в сторону увеличения. (onJ> становится нулем функции передачи голосовая
МЕХАНИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 241 щель — рот. Аналогичным образом сотО остается неизменной, а Wmp уменьшается. Точные пути перемещения нулей и полюсов системы зависят от относительных размеров полостей рта и но- са, но обычно исходные полюсы гласных звуков перемещаются вверх по частоте. Частоты выше частоты сопо носового полюса появляются при разделении сопо и соПр. Чтобы получить носовой звук, рот закрывается, стремит- ся к бесконечности и ноздри становятся единственным источ- ником излучения звуковой энергии. Закрытая полость рта в этом случае служит резонирующим ответвлением для тракта пере- дачи голосовая щель — ноздри, сото обращается в нуль, а вели- чина атр уменьшается. comj> является нулем функции передачи тракта голосовая щель — ноздри. Первый полюс этой системы лежит на сравнительно низкой частоте, второй помещается око- ло атр, а третий обычно несколько выше сотр. Результаты бо- лее подробных вычислений приводились выше для голосового тракта идеализированной конфигурации (см. рис. 3.37). Для такого носового звука, как /т/, характерные частоты первых че- тырех полюсов составляют примерно 250, 1100, 1350 и 2000 гц, а нуля — 1300 гц. Более глубокий анализ носовых звуков можно найти в литературе (Фуджимура — Fujimura, 1962). Пока излучение происходит из одного отверстия, коэффи- циент передачи тракта по постоянному току должен быть ра- вен единице. При излучении одновременно ртом и ноздрями звуковая энергия разделяется в соответств!ии с проводимостями полостей носа и рта, и коэффициент передачи по постоянному току к одному из отверстий определяется потерями в соответ- ствующей ветви. Каскадные синтезаторы. Приводимые ниже элементарные соображения должны показать правомочность аппроксимации функции передачи T(s) голосового тракта любой формы и при любом возбуждении несколькими первыми (низкочастотными) полюсами и нулями, т. е. несколькими первыми корнями P(s) и Z(s). В одном из простейших электрических аналогов речево- го тракта передаточная функция, равная произведению элемен- тарных функций, определенных своим нулем или полюсом, по- лучается путем последовательного соединения отдельных элек- трических резонаторов. Передаточная функция для гласного * звука может быть записана в виде Т (s) = P(s) — |Ц _SnSn п (s—Sn)(s— S*n) Такая функция может быть представлена в терминах своих полюсов каскадным соединением последовательных несвязан- ных одиночных контуров (рис. 6.10«). Передаточная функция одного контура
242 СИНТЕЗ РЕЧИ где ил = R2 4L* <4 = и R 2L = — ал + i <о„ (6.26) а) 6) для моделирования передаточной функции при гласных звуках (а) и цепей имитации полюса и нуля при наличии бокового ответвления на низких частотах (б). Каждая пара полюсов, или резонанс в тракте, представляется последовательной цепью. Пара нулей ап- проксимируется передаточмой функцией последовательного контура Частота форманты управляется при изменении емкости кон- денсатора С, а ширина форманты — изменениями /?. При пос- ледовательном соединении резонаторов задание частот полюсов sn определяет также спектральные пики или амплитуды фор- мант. Это обстоятельство подробно рассмотрено в литературе (Фант, 1956; Фланаган, 1957, с). Полученные в гл. III результаты и приведенные выше сооб- ражения позволяют высказать мысль о том, что такие звуки, как глухие согласные, носовые, назализованные гласные и, по- видимому, плавные, могут иметь, по крайней мере, один нуль
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 243 на низких частотах, который, возможно, имеет значение для вос- приятия1). Цепь резонаторов, применяемая для синтеза глас- ных звуков (рис. 6.10а), может быть легко приспособлена для проведения указанных изменений в передаточной функции. В схему синтезатора можно, как показано на верхней части рис. 6.106, включить элементы с резонансом и антирезонансом (Фланаган, Кокер, Бёрд — Coker, Bird). Пока генерируется чисто гласный звук, частоты дополни- тельных нуля и полюса совпадают и передаточная функция со- ответствующих элементов равна единице. При синтезе носово- го звука эти частоты раздвигаются и их величины устанавли- ваются в соответствии с тем влиянием, которое оказывается бо- ковым ответвлением в тракте. Практически такой комплексно сопряженный нуль может быть аппроксимирован электрической цепью, показанной в ниж- ней части рис. 6.106. Ее передаточная функция равна -M?)_ = LCfs2 + s—+ —1 (6.27) ег- (s) \ L LC) — величине, обратной передаточной функции сопряженного полюса. Как и в резонаторе, дающем пару полюсов, усиление на низкой частоте (по постоянному току) здесь принято равным единице, что точно соответствует действительности при излу- чении из одного отверстия и приблизительно — при излучении ртом назализованных гласных звуков. Своими нулями и полюсами могут быть описаны также и глухие согласные звуки с передним возбуждением. Согласно полученным в этом разделе и в гл. III результатам достаточная точность получается при такой аппроксимации: n(«-sm)(s-4) T(s)=P(s)Z(s) = Ks—---------------— , (6.28) П (s — s„) ( s— sX ) n где с точки зрения слухового восприятия часто достаточно иметь тип равными 1 или 2 (плюс коррекция полюсов и ну- лей более высокого порядка). Нуль на нулевой частоте появ- ляется из-за полного закрытия задней полости (см. рис. 3.31). Масштаб амплитуд К считается общим уровнем сигнала. ') Влияние нулей в спектре звука (как нулей в возбуждении, так и в тракте) иа его восприятие окончательно не установлено. Вопрос о том, в ка- кой степени качество синтезированной речи зависит от этих факторов,' в на- стоящее время внимательно изучается. Он будет рассмотрен в одном из по- следующих разделов.
244 СИНТЕЗ РЕЧИ Параллельные синтезаторы. Мы рассмотрели представление передаточной функции речевого тракта в виде отношения ря- дов произведений, которые при усечении образуют рациональ- ные мероморфные функции. Так как их полюсы простые, пере- даточная функция может быть разложена на элементарные дроби с членами первой степени: T(s) = P(s)Z(s) = + —= ~ (S-Sn) (s-S„) = VI 2<М + 2 (°п ап + ч>п Ъп) п = ! 2 (6 29) S2 + 2sa„ + ( + ш2 ) где sn= (—On + itOn), a ап= (s—sn)T(s) =(an + ibn) есть вы- п чет в п-м полюсе, функция всех полюсов и нулей. Обратное пре- образование дает h(t)= ^2 |ДП| е °" cos(tt>nt + cp„), где Ап — п = |Д„| е ", или, после разложения косинуса, = 3/!< [cos cos сол / — sin<p„sin со„/]. (6.30) Передаточная функция, соответствующая каждому члену по- следнего выражения, может быть реализована с помощью схе- мы, приведенной на рис. 6.11, где обозначенные квадратиками фильтры являются обыкновенными резонансными контурами.. При чисто гласных звуках Z(s)-^\ и T(s)^>P(s), в резуль- тате чего в передаточной функции остаются одни полюсы. Ее
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 246- числитель зависит только от sn и не зависит от s, т. е. II s„s* = fl —f(sn). В этом случае вычет в q-м полюсе равен Ад =------------------------. (6.31) 2i П [(’« — J?)2 + ( и* ~ ) + 2i а>? (а9 — а„) ] Если все а одинаковы (что близко к истине для низших ну- лей и полюсов голосового тракта), или ________f(Sn)______ 2i СО, П ( “л - “? ) f fa)1 n|4-“2d n+q (6.32) Получается, что вычеты являются чисто мнимыми (т. е. созфп = 0), а их знаки чередуются в соответствии с номером полюса. Обратное преобразование (импульсная реакция) такой передаточной функции равна = 1)П-12|Лп|е sincou, (6.33) п где каждому члену соответствует электрическая цепь, показан- ная на рис. 6.12. По существу, это нижняя половина предыду- Рис. 6.12 Схема моделирования импульс- ной реакции вокализованного звука [см. ур-ние (6.33)] щей схемы, в которой — sintp„ =—sin (—1)п —11 = L \ 2 / J — а /?АС-резонатор имеет импульсную реакцию (сопе (-If-1, sincon^)
246 СИНТЕЗ РЕЧИ Каждому значению п соответствует своя отдельная схема; сло- жение всех их выходных напряжений позволяет получить от- клик (6.33). Величина вычета в первом приближении очень просто свя- зана с амплитудой соответствующей форманты. Если учесть, что она равна |Д„| = (s—sn)T(s) |s , то для малого зату- хания |сг„ < <о„| получаем | (s — s„) Т (s) |5^1а,я = | (i ©я — s„) Т (1 ®„) Ап, или (6.34) Если, например, как в выражении (6.28), в передаточной функции обнаруживаются нули, вычеты принимают вид А'ч= (А — 8ч) Т («) = Z («) (s — «,) P (s) |s-s, = = Z(s,)4, = Ks, П(5,- Sm)(S,— s’J Д,= 'm — ®2)+ i2«,(a, — am)]. (6.35) m Для примерно одинаковых величин о имеем иг Знак A ' определяется соотношением между <От и со,. Выражение (6.36) можно записать и так: иг где p — номер нулей, лежащих ниже полюса и,. Подставляя Aq из ур-ния (6.32), получаем /(*„) (- 1F №,П ]«&- _____________m__________ 2i®,(- 1)9-1П|®2-®2| п=£ч (6.36) величинами (6.37) (6.38) Где результирующий знак вычета определяется разностью меж- ду числами полюсов и нулей, лежащих ниже q-ro полюса. И в этом случае вычет связан со спектром в реальных час- тотах, определенным на частоте данного полюса, простым соот-
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 247 ношением Дп= ($—sn)T(s)|s — sn . Для малых затуханий sn—“коп, т. е. А„як(1(оп — sn)T(i<i>n) Дn~ °n7* (i юД = CTn I 7* (i юп) | |т (ioj . . (6.39) А„=|А„.(е^ К настоящему времени построен и испытан ряд синтезато- ров-четырехполюсников (см., например, Фант — Fant, 1959. а; Стивенс—Stevens; Бестайд и Смит — Bastide and Smith; Лоу- ренс — Lawrence, 1953; Стед и Джонс — Stead and Jones; Кампанелла — Campanella; Чанг — Chang; Фланаган — Flana- gan, 1956, а, 1960, b). В большинстве этих устройств рассмотрен- ные выше соотношения либо непосредственно описывают их работу, либо качественно характеризуют ее. Обычно использо- вавшиеся соотношения связаны с формантной частотой и вели- чиной вычета или частотой и амплитудой форманты. Насколь- ко известно автору, (почти не использовалась комплексная ве- личина вычета, т. е. его угол или знак. Анализ мгновенного фа- зового спектра речи1) наряду с мгновенным спектром ампли- туд до сих пор, по-видимому, не производился. Однако приве- денные далее результаты наводят на мысль о том, что инфор- мация о фазе может иметь значение для натуральности и каче- ства звучания синтезированной речи. 6.2.3. Аналоги речевого тракта, построенные на основе линии передачи Другой метод моделирования функции передачи речевого аппарата основан на использовании неоднородной электриче- ской линии передачи. В гл. III показано, как неоднородные аку- стические трубы полости рта и носовой полости можно пред- ставить в виде сочленения прямых цилиндров (см. рис. 3.35). Такая аппроксимация тем точнее, чем больше цилиндрических элементов. Каждый цилиндрический отрезок длиной I может быть пред- ставлен своим Т-образным эквивалентом (рис. 6.13а, где za — = Zothy//2 и Zb=ZoCschy/). Один из возможных электрических аналогов такого Т-звена получается в результате разложения гиперболических функций в ряд и использования его первых членов. При этом получается, что za~ — (Д-НоД)/ и *) См. ур-ние (5.4), определяющее мгновенный фазовый спектр.
248 СИНТЕЗ РЕЧИ Zb~ ~ (G+~C)l ’ ГДе 6' С — погонные акустические пара- метры исходной трубы. Соответствующая схема изображена на рис. 6.136. Zg = ZgC3cfi]4- Рис. 6.13. Т-образный эквивалент однородной цилиндрической трубы длиной /: а) точная схема; б) аппроксимация элементов звена первыми чле- нами разложения При реализации устройства характеристический импеданс линии — электрического аналога — определяется изменением масштаба акустического импеданса, т. е. Z03=feZ0a (индексы э и а означают электрические и акустические величины). При ус- ловии малых потерь Zoa~ ’KLa/Ca = pc/A Так как £а = рМ, а Са=Л/рс2, имитируемая площадь поперечного сечения равна рс 1/ £д . Для определения потерь R и G необходимо знать величины периметра и площади поперечного сечения тракта [см. ур-ние (3.33)]. Эти величины также можно ввести в полу- ченный электрический аналог, а их импедансы вычислить по только что указанному методу. Если задан коэффициент фор- мы, все элементы электрического аналога можно определить или по известным парам величин А и I, или по значениям пло- щадей в заданном наборе цилиндрических секций определенной длины. Представление речевого тракта эквивалентными электриче- скими звеньями приводит к лестничным схемам (рис. 6.14). Верхняя схема относится к случаю возбуждения тракта у го- лосовой щели источником звукового потока Ug с внутренним импедансом Zg. Нижняя схема изображает переднее фрикатив- ное возбуждение источником давления Pt с внутренним импе- дансом Zt. Обе схемы могут быть рассчитаны (по крайней ме- ре, в принципе) непосредственно матричными методами. Если
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 249 уравнения для напряжений (давлений) записаны для каждого контура схемы, начиная от голосовой щели и кончая ртом и носом, то число независимых уравнений равно числу контуров. щель Возбуждение шумом Рис. 6.14. Лестничная цепь аппроксимирующая работу рече- вого тракта. Величины сопротивлений те же, что и «а рис. 6.136 (Д—определитель, Дрд—алгебраическое дополне- ние р—q, I—длина элементарного цилиндра) Передаточные функции от голосовой щели до рта, от голосо- вой щели до ноздрей и от источника шума до рта равны соот- ветственно: т Z& &1т и& л Un 7 Ain А (6.40) Urn &jm Rt Д где А — определитель импедансов (характеристическое уравне- ние) цепи, состоящей из импедансов zn, Z12 и т. д., причем 2ц — входной импеданс контура 1, Z12 — импеданс связи меж- ду контурами 1 и 2 и т. д., а &ху— алгебраическое дополнение элемента zxy в определителе Д. Все передаточные функции (6.40) являются минимально фазовыми ‘). >) Эти функции являются характеристиками пассивных лестничных це- пей. Они могут иметь нули передаточной функции только в том случае, если имеется нуль у параллельной ветви или полюс у последовательной. Все нули и полюсы должны лежать в левой полуплоскости.
250 СИНТЕЗ РЕЧИ К настоящему времени построено несколько синтезаторов— аналогов линии передачи. Первый состоял из 25 одинаковых Т-звеньев (Данн—Dunn, 1950). Каждое звено представляло от- резок тракта длиной 0,5 см и площадью сечения 6 см2. Для имитации влияния языка между любыми двумя звеньями мож- но было ввести переменную индуктивность. Другая переменная индуктивность на конце линии, соответствующем рту, отража- ла действие губ. Эффект излучения изо рта достигался под- ключением к выходу устройства малой индуктивности. При го- лосовых звуках синтезатор возбуждался пилообразным напря- жением регулируемой частоты, получаемым от генератора с высоким выходным импедансом. Спектр сигнала возбуждения устанавливался спадающим примерно —12 дб на октаву (см. рис. 3.17). Для получения глухих звуков и шепота к соответ- ствующей точке линии подключался источник белого шума. Сконструировано минимум еще два устройства, подобных синтезатору Данна (Стивенс, Касовский и Фант — Stevens, Kasowski and Fant; Fant, 1960). В этих синтезаторах имеются звенья, которыми можно управлять независимо друг от друга для более детального представления геометрии тракта. Была попытка создать синтезатор с непрерывным управ- лением параметрами линии передачи. Такое управление с по- мощью электронных методов позволяет синтезировать связную речь (Розен, Хеккер — Rosen, Hecker). В данном устройстве в качестве элементов линии используются индуктивности с на- сыщением и электронно управляемые емкости. Число звеньев Г*------ 12,5см --------*-] Рис. 6.15. Аналог голосового тракта с линией передачи, управляе- мый непрерывно (Розеи, Хеккер) устройства и точки их управления показаны на рис. 6.15. Уст- ройство может управляться или системой электронной памяти (Розен), или от большой ЭВМ (Деннис — Dennis).
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 251 Синтезаторы с линиями передачи открывают исключитель- ные возможности прямого введения сужений, характеризующих речевой механизм. Но их применимость в системах компрессии речи определяется достоверностью, с которой могут быть полу- чены данные о площадях и длинах тракта. В исследованиях артикуляторного анализа речевых сигналов, позволяющего по- лучить эти данные, достигнуты некоторые успехи1). Помимо очевидного применения в системах компрессии ре- чи, синтезаторы с линиями передачи могут, наряду с другими типами синтезаторов, использоваться и для других целей, как, например, в качестве выходного устройства ЭВМ при связи че- ловека с машиной; в качестве генератора возбуждения для пси- хоакустических и биоакустических экспериментов; как генера- тор стандартных звуков при изучении патологии и терапии ре- чи и в лингвистике. В последнем примере применения возмож- ность представления закона, по которому происходит управле- ние артикуляционным трактом, в терминах артикуляционного аппарата является, по-видимому, ценным свойством этого ме- тода синтеза. 6.2.4. Возбуждение электрических синтезаторов В предыдущих разделах рассматривалось моделирование речевого тракта передачи как с точки зрения его |передаточной функции, так и с точки зрения построения эквивалентной ли- нии передачи. Построив по тому или иному принципу синтеза- тор речи, необходимо обеспечить его возбуждение от источни- ков сигналов, аналогичных имеющимся в речевом тракте. В этом разделе предлагается рассмотреть некоторые характери- стики таких источников, которые представляются существен- ными для синтеза. Имитация колебаний голосовых связок. В гл. III показано, что голосовые связки являются генератором потока звуковых колебаний с высоким выходным импедансом. Поэтому речевой тракт и источник возбуждения связаны слабо и изменения кон- фигурации тракта мало влияют на колебания голосовых свя- зок. В пределах справедливости этого положения источник и *) Следует заметить, что в общем случае задача должна ставиться широко—создать синтезатор, пригодный для «подражания» речи любого че- ловека. Для систем синтетической телефонии высокого класса качества имен- но такая постановка задачи—требование получить при синтезе необходимое приближение к речи различных людей—является практически, по-видимому, наиболее целесообразной (прим. ред.).
252 СИНТЕЗ РЕЧИ Площадь голосовых связок — Площадь -----------Поток время, мсек Рис. 6.16. Отдельные периоды колебаний площади голосовых связок и потока у двух мужчин (Л и 5), .произносящих гласный звук/эе/ при четырех значениях основного тона и интенсивности. —частота основ- ного тона, a Ps—давление под голосовыми связками. Колебания ско- рости рассчитаны по методу, описанному в разделе 3.5.2 (Фланаган, 1958)
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 253 тракт с точки зрения анализа и построения эквивалентных схем могут рассматриваться независимо друг от друга. Форма и период колебаний голосовых связок могут суще- ственно изменяться. Частично это видно из рис. 6.16, где по- казаны отдельные периоды изменения площади голосовых свя- зок и колебаний воздушного потока. Не очень ясно, насколько изменчивость формы и периода связана с качеством и нату- ральностью речи. Недостаточно точно установлена роль в вос- приятии речи взаимодействия источник — тракт и синхронных с периодом основного тона флуктуаций колебаний голосовых связок. Во многих существующих электрических синтезаторах свой- ства голосовых связок как источника возбуждения аппрокси- мируются очень грубо. Стало привычным представлять частоту основного тона как гладкую непрерывную функцию времени и использовать некоторую стандартную форму колебаний, ими- тирующих работу голосовых связок, характеризующуюся тем, что ее амплитудный спектр спадает примерно на —12 дб на октаву. Во многих синтезаторах сигнал возбуждения генери- руется периодическим импульсным возбуждением какого-ни- будь устройства формирования спектра. Такое неадекватное копирование подлинных характеристик работы голосовых свя- зок несомненно ухудшает натуральность речи и уменьшает воз- можность имитации заданного голоса. Нерегулярные детали в колебаниях голосовых связок влия- ют на спектр источника, и сейчас также нет ясности, как это сказывается на слуховом восприятии. Однако ясно, что эти ко- лебания в общем случае являются неминимально фазовыми и имеют многочисленные нули и в правой, и в левой спектраль- ных полуплоскостях. (Хорошие примеры спектральных нерегу- лярностей с такими комплексными нулями приведены на рис. 3.17.) Спектральные свойства колебаний треугольной формы. При некоторых условиях вибрации (средние величины основного то- на и интенсивности) колебания голосовых связок имеют при- близительно треугольную форму. Поэтому по своим спектраль- ным характеристикам треугольные колебания, по-видимому, пригодны для голосового возбуждения. Они подверглись под- робному изучению для лучшего понимания связи между фор- мой колебаний и спектром реальных голосовых связок (Данн, Фланаган и Джестрин — Gestrin) '). ') Следует еще раз подчеркнуть, что смысл сказанного состоит не в том, что импульс, идущий от голосовых связок, имеет строго треугольную форму, а только в том, что это упрощение позволяет производить вычисления, на основании которых удобно сделать соответствующие выводы.
254 СИНТЕЗ РЕЧИ На рис. 6.17 показана аппроксимация колебания, создавае- мого голосовыми связками, треугольником. Время открывания связок равно n, время закрывания Т2=&Г1, общее время, когда они открыты, равно то=(1 + ^)т1. Амплитуда равна а, а пери- од— Т. Преобразование Лапласа этой функции F (з) = — S2 L Т1 L\e-ST4--J- Г2 1 Tj (6.41) Спектральные нули —это комплексные величины s, при кото- рых F(s) = 0. За исключением корня s = 0, нули являются кор- нями выражения в скобках, т. е. корнями выражения [ е” (*+1) S4 — (k + 1) e-ST* + k\ = 0. (6.42) Так как уравнение трансцендентное, его можно точно решить только для некоторых особых значений коэффициента асим- метрии k. В частности, простые решения получаются, если ве- личины k выражаются отношениями малых целых чисел. В бо- лее простых случаях корни могут быть получены путем чис- ленного решения. Пусть х = e-ST* — е~ (з+1ш) т* = е~ят* (cos cotj — i sin ему). (6.43) Тогда (6.42) принимает вид xk+'~ (&+ 1)х+ k = 0. (6.44) Если k — целое число, (6.44) даст (&+1) от величины х. Да- лее их можно подставить в (6.43) и найти oxi и шть прирав- няв отдельно действитель- ные и мнимые части. При целых значениях k вплоть до k = 5 ур-ние (6.44) мо- жет быть решено непосред- ственно алгебраическими методами. При k = 5 выра- жение (6.44) представляет собой уравнение шестой степени х, но при х= 1 име- ет двойной корень, после Рис. 6.17. Аппроксимация колебаний го- лосовых связок т|реУ|ГОЛЬН|ИКОМ — коэффициент асимметрии) удаления которого остается лишь уравнение четвертой степени. Для больших значений k корни могут быть найдены приблизительно известными ме- тодами. Однако k—не обязательно целое число. Предположим, что оно всего лишь рациональное число (а оно всегда может быть
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 255 аппроксимировано таковым). Тогда (&+1) тоже рационально. Пусть k + 1 = , (6.45) <7 где р и q—положительные целые числа и p>-q, поскольку k не может быть меньше нуля. Тогда ур-ние (6.44) можно записать так: р хч----Р-х+-^^- = 0. (6.46) <7 <7 I При у—х 4 (6.46) принимает вид ур — уч + = 0 (6.47) <7 <7 и согласно (6.43) 1 ---/ 1 1 \ у = е 4 cos — (отх — i sin — coiy ) . (6.48) \ q q I Уравнение (6.47) имеет целые показатели степени и может быть решено относительно у. Тогда (6.48) может быть решено 1 1 относительно —oxi и — со-гд, после чего их достаточно умножить q q на р, чтобы получить ото и сото. Предыдущие методы становятся неудобными при р>6. Ниже приводится способ, более подходящий для численной аппрок- симации на цифровой вычислительной машине. Приравнивая нулю отдельно действительную и мнимую части выражения (6.42), получаем уравнения: е- (М-D cos 1) Отх — (/г + 1) е-~» cos ЮТ1 + k = 0, (6.49) е- (*+1)«, sin (£ + J) + е-’д sin ЮТ1 = о. (6 50) Оба уравнения должны удовлетворять той паре значений oti и (oxi, которые определяют нуль. Уравнение (6.50) можно решить относительно оть 1 , sin (k + 1) ©Tj „ _ . от, = — log---v т д—(6.51) k (k -|- 1) sin any Ряд значений ып подставляется в (6.51) и для каждого вычис- ляется оть Каждая из полученных пар значений подставляется в ур-ние (6.49), чтобы найти те значения, которые удовлетво- ряют ему. Искомые решения можно получить с требуемой сте-
256 СИНТЕЗ РЕЧИ пенью точности выбором достаточно малой величины прираще- ния сот] и интерполяцией промежуточных значений. Большая вычислительная машина за умеренное время определяет шесть первых корней. Повторяемость и симметрия в расположении нулей. Пусть и—мнимая часть нуля, которая (вместе с его действительной частью о) удовлетворяет одновременно (6.49) и (6.50). Пусть также k связано с целыми числами р и q выражением (6.45). Рассмотрим некоторую другую часть со', входящую в соотноше- ние (у/т1 = 2дл + шТ1. Тогда <Ут0 = (k + 1) ci/ti = — rn'Ti = 2р тс -|- (& + 1) cdti. (6.52) q И синус, и косинус cb'ti и (^+1)о/т1 равны синусу и косинусу сот] и (&+ 1)шт1. Отсюда при том же значении о о/ представляет какой-то нуль. Расположение нулей ’между тто = 0 и й)То=2рл повторяется через интервал изменения сото, равный 2рл, до бес- конечности с неизменным набором величин о. Еще раз предположим, что ш—мнимая часть некоторого ну- ля, а со' связано с ним соотношением cb'Tj = 2qr. — coTj. (6.53) Тогда сУт0 = (fe + 1) св'т! = 2рт.— (&+ l)Tj. (6.54) Теперь косинусы сУт] и (fe+l)co'Ti равны косинусам coxi и (k + 1) есть тогда как оба синуса имеют противоположные знаки. Выражения (6.49) и (6.50) по-прежнему удовлетворяются, и потому со' представляет нуль, имеющий ту же о, что и со. На каждом интервале 2рл изменения величины шт0 эти нули рас- положены симметрично относительно центра интервала (нечет- ное кратное рл), причем каждая симметричная пара имеет оди- наковое значение о. Нуль в центре симметрии может быть и мо- жет не быть, в зависимости от четности или нечетности р. Нули перевернутого треугольника. Если f(i) — колебание треугольной формы, тогда f(—t) можно представить как то же колебание, но идущее во времени в противоположную сторону. Тогда E[/(/)] = F(s) и £[/(-/)] = F(-s). (6.55) Отсюда нули перевернутого треугольника равны нулям ис- ходного с обратным знаком. Поскольку последние образуют комплексно сопряженные пары, перевернутый треугольник име-
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 257 ет те же нули, что и исходный, но с обратными знаками действи- тельной части. Аналогично коэффициент асимметрии перевер- 1 , нутого треугольника равен —, где к—асимметрия исходного k треугольника. Нули прямоугольного треугольника. Для прямоугольного треугольника fe = 0, и преобразование Лапласа для него имеет вид ~ [1 - e-ST" (1 +sx0)]. (6.56) S2 т0 Нули этого выражения определяются условием (1+sT0) = eST’. (6.57) Приравниваем действительные и мнимые части: 1 -ф от0 = eGT“ cos ыт0, (6.58) ыт0 = е"' sin ит0. (6.59) [Заметим, что решение ш=0, о = 0 не дает нуля из-за наличия квадрата $ в знаменателе (6.56).] Как и выше, корни могут быть приближенно определены в численной форме на вычислительной машине. Отметим, что со- гласно (6.59), при действительном о и действительном положи- тельном ш sincere положителен. Вместе с этим, поскольку сото больше чем sinwr0, ото должна быть положительна, и действи- тельные части нулей должны быть положительны, иначе они на- ходились бы в правой полуплоскости величины s. Далее, соглас- но (6.58) coswtq также положителен: это означает, что все нули должны приходиться на значения сото, лежащие в первом квадранте. При k— со треугольник тоже прямоугольный, но переверну- тый во времени. Поэтому его нули те же, что и при fe = 0, но с обратными знаками их действительных частей. Геометрическое место комплексных нулей. В настоящее вре- мя на основе полученных выше соотношений рассчитаны поло- жения нулей в количестве, достаточном для оценки свойств тре- угольного колебания. На рис. 6.18 на плоскости, комплексных частот изображено геометрическое место нулей, нормализован- ных по значениям ит0 и стт0, с использованием коэффициента асимметрии k как параметра, лежащего в пределах Если fe>l, кривые рис. 6.18 будут иметь вид зеркального отра- жения по вертикальной оси, т. е. знак о изменится на обратный, 9—71
258 СИНТЕЗ РЕЧИ При симметричной форме колебаний (&=1) нули становятся двойными и располагаются на оси ico в точках, четно крат- ных 2л, т. е. в точках 4л, 8л, 12л и т. д. На рисунке они показа- ны концентрическими кружками. В частотном выражении двой- 2 4 ные нули лежат в точках — , — и т. д., а спектр амплитуд то 'о сигнала имеет вид sin2x/x2. Если k становится меньше единицы, Действительная часть и Рис. 6.18. Геометрическое место нулей треугольного импульса на комплексной плоскости S, нормализованной по зна- чениям сото и е>т0. Коэффициент асим- метрии k является параметром (Дани, Фланаган и Джестрин) двойные нули разделя- ются: один передвигает- ся в правую полуплос- кость, другой — в левую. Пути их перемещения показаны на рисунке. По мере вырастания порядка нуля длина его траектории на плоскости s возрастает, а форма усложняется. При умень- шении k от единицы пер- вый нуль переходит в правую полуплоскость и там остается. Такое же изменение k в нуле выс- шего порядка, например шестом, приводит к не- скольким переходам кри- вой из правой полуплос- кости в левую и наобо- рот. Величины k от 1,0 до 0,0 для первого, вто- рого и третьего нулей от- ложены вдоль путей их перемещения. При fe = 0 (треугольник прямоугольный с нулевым временем спада) все нули лежат в правой полуплоскости в конечных точках своих траекторий. Отметим, что в окрестности оси ico малое измене- ние симметрии приводит к относительно большому изменению Затухания нулей. Все нули, лежащие на мнимой оси, являются двойными и имеют степень не выше второй. Это обстоятельство более под- черкнуто на графике геометрического места точек мнимых со- ставляющих нулей, являющихся функциями коэффициента асимметрии k. Пример такого графика показан на рис. 6.19 для величин k от 0,1 до 10. Все точки касания представляют лежа- щие на оси ico двойные нули. Среднее число нулей равно одному
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 259 на каждый интервал 2л величины ито- График мнимых состав- ляющих симметричен относительно k=l, а правые и левые ор- динаты показывают нули прямоугольных треугольников, т.. е. при fe = 0 и k— оо. Для иллюстрации чувствительности спектра амплитуд к не- которым специфическим изменениям коэффициента асимметрии на рис. 6.20 показан амплитудный спектр | F(ico) | для двух зна- 11/ 12 \ чений асимметрии: k=i и k= —1 или —I. При k=l нули двойные и лежат на ча- 2 4 б стотах • , и т. д. то то 'о Форма спектра имеет вид sin2x/x2. Изменение зна- П / 12 \ чения k до I или "уН приводит к разделению каждого двойного нуля на два, перемещающих- ся в правую и левую по- луплоскости. Положение их частот ico показано на рисунке черточками. Действительная же часть нулей при этом увеличи- вается настолько, что спектр «заполняется» (пунктирная линия на рис. 6.20). В данном слу- чае относительно малое отклонение от симмет- рии вызывает относи- тельно большое измене- ние спектра. Другие приближения к импульсу, создаваемо- му голосовыми связками. Предыдущие рассужде- ния относились исклю- чительно к аппроксима- ции колебаний голосо- вых связок треугольны- ми импульсами. На са- мом деле они .могут иметь различную форму, поэтому полезно рассмот- Рис. 6.19. Мнимые части комплексных нулей треугольного импульса как функ- ция асимметрии. Мнимая частота нор- мализована по <вто, а асимметрия ле- жит в пределах Рис. 6.20. Амплитудный спектр двух тре- угольных импульсов при k=l И k— 12 (Дани, Фланаган и Джестрии) 9*
260 СИНТЕЗ РЕЧИ реть расположение нулей при других простых аппроксимациях. В треугольнике имеются точки разрыва производной. Каково будет, например, влияние устранения одного или нескольких разрывов путем скругления или сглаживания колебания? Существует несколько видов симметричных кривых, которые можно рассматривать с точки зрения возможности их использо- вания при аппроксимации колебаний голосовых связок при со- ответствующем скруглении. На рис. 6.21 в качестве примера по- <>6/г0 "№о Симметричный треугольник iw/2x Ьа | 2/Гр Половина синусоиды Половина Период эллипса косинусоиды Рис. 6.2k Четыре симметричные аппроксима- ции импульса голосовых связок и их комп- лексные нули казаны три такие кривые: половина периода синусоиды, поло- вина эллипса и приподнятая косинусоида. Первые две имеют по две точки разрыва производной, третья—ни одной. Их вре- менные и спектральные функции описываются следующим об- разом. Половина периода синусоиды ₽ to /(О = о, (6.60)
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 261 Нули расположены в точках (0 = + (2я + 1)л = + (2n + 1)0, n= 1, 2 . . Л) То Половина эллипса (6.61) Здесь нули (кроме точки <о = 0) совпадают с корнями Л Приподнятая косинусоида f(0 = a(l-cosP0, О</<^,0=^' Р т0 /(О = о, о > t > у . 2~w ”| F = аГ-------------1 1 —е 3 [1 СО (₽2 — СО2) J |_ J Нули спектра лежат в точках о» = 4-пр = ±-^L, п=2, 3 . . . То (6.62) Комплексные нули этих функций изображены на нижней ча- сти рис. 6.21. Эти .картинки овидетельюгвуют о том, что относи- тельно малые изменения формы импульса и вида скругления могут оказывать большое влияние на расположение нулей и на вид спектра в области низких частот. Хотя такие нули могут сдвигаться, среднее число нулей на некотором заданном интер- . - 1 вале частот в области выше окрестностей — остается неиз- т0 *) У всех этих симметричных колебаний нули расположены на оси ico.
262 СИНТЕЗ РЕЧИ менным у всех видов колебаний, а именно один на интервал „ 1 шириной — . Предельная плотность нулей источника возбуждения. На высоких частотах средняя плотность нулей также сохраняется. Рассмотрим произвольный импульс от голосовых связок /(/), конечный и не равный нулю на интервале О</<То и равный нулю за его пределами. Поскольку функция J f(t) e~stdt холжна о быть конечной, она может не иметь полюсов. Положим, что вторая производная f(t) лежит в том же интервале, а первая производная имеет разрывы в точках t=0 и /=т0. Оба диффе- ренцирования f(t) не изменяют нулей спектра, кроме точки s = 0, а в моменты начала и конца импульса образуют острые пики с площадями f'(0+) и /'(то-). Преобразование Фурье после двойного дифференцирования имеет вид оо Т0— s2F (s) = Jr(/)e-s/d/ = /,(O+)+/7To_)e-ST’+ J ° °+ Так как f"(f) ограничено 0<7<tq, интеграл третьего члена дол- жен иметь порядок — или меньше. На высоких частотах он S становится малым по сравнению с первыми двумя членами, сле- довательно, s2F(s) ~[f'(0+) +//(tq-) е— ST°], Нули лежат в точках 1 , Г (0,) , . (2л + 1) л s =------In —Ш- + 1 - - , п = 0, 1 . . . (6.63) То f (Т0_) То Однако на низких частотах нули могут располагаться, как пока- зывают проведенные ранее расчеты, гораздо более неравно- мерно. Влияние нулей в колебаниях голосовых связок на восприя- тие. Этот вопрос применительно к реальной речи вполне уме- !) Приведенные здесь спектры относятся к одиночным импульсам, т. е. они сплошные н определены как преобразования Лапласа или Фурье. Спектры периодически повторяемых импульсов являются дискретными линиями с амп- литудами F (лгй0), где F(лгй0)—преобразование Фурье одиночного 2л импульса на частотах гармоник znQ0=zn- , лг=1,2,3. . .
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 263 стен. Насколько они важны для восприятия? Следует ли учиты- вать их при таких методах анализа речи, как анализ подгонкой спектральных образцов? Важны ли они при синтезе натурально звучащей речи? Ответы на эти вопросы пока еще не ясны, и, ве- роятно, их можно будет получить лишь в результате надлежа- щих субъективных оценок. Однако сейчас ясно, что в 'некоторых особых условиях (которые иногда отличаются в звуковых спек- трограммах) нуль сигнала возбуждения может оказаться около формантной частоты и может изменить и спектр звука и его восприятие. Возможность ликвидации форманты нулем в сигнале голо- совых связок легко иллюстрируется с помощью синтетической речи. На рис. 6.22 показана схема четырехрезонагасного синте- затора гласных, который возбуждается колебанием от голосо- Плоскости 3 Рис. 6.22. Влияние нулей голосовых связок на результаты измерения спектра синтетического гласного звука А—то=4,0 мсек, Б—То=2,5 мсек (Фланаган, 1961, Ь) вых связок, по форме близким к симметричному треугольнику. Амплитудный спектр измерен анализатором гармоник для двух значений времени нарастания. Синтезируется звук /Л/. В первом примере (А) время нарастания выбрано таким, чтобы первый двойной нуль расположился вблизи первой форманты (то~ ~4 мсек). В примере (Б) первый нуль возбуждения лежит между первой и второй формантами (то~2,5 мсек). Сравнитель- ное положение нулей и полюсов в области первых двух фор- мант показано на плоскости з. В первом случае пик первой
264 СИНТЕЗ РЕЧИ форманты явно подавлен и сглажен1). Прослушивание показы- вает значительную разницу в звучании двух этих образцов звуков. В более искусственных условиях влияние нулей источника можно сделать еще более сильным. Предположим, например, что синтезатор установлен на гласный / э /, полюсы которого распределены почти равномерно. Предположим также, что воз- буждение представляет собой короткие двойные импульсы и опи- сывается выражением f(t)=a(t)+b(t—б), где a(t) и b(f) — импульсы с площадями а и b соответственно. Спектр f(t) есть f’(s) — (а + Ье~^ ) с нулями в точках 1 , а , . S =------------In -------hl 6 b — (2л 1) л 6 (6.64) , п = 0, 1 . . . Таким образом, в этом сигнале нули расположены так же, как и в предельном случае на высоких частотах, определяемом вы- ражением (6.63). Выбрав соответствующие значения а — и б Ь нули источника можно установить вблизи частот формант. На трех номограммах рис. 6.23 показаны три различных условия возбуждения (включая возбуждение единичным импульсом). Показаны также осциллограммы возбуждения и полученного синтезированного звука. В первом случае отчетливо слышен гласный звук, отождествляемый с / э /. Во втором и третьем примерах качество звучания и окраска гласного существенно другие. Звуки 2 и 3 мало отличаются на слух, хотя форма их колебаний совершенно различная. Существует, по-видимому, узкая вертикальная полоска, симметричная относительно оси ico, расположение нулей в которой может существенно влиять на восприятие. Возбуждение двойными импульсами позволяет при проведении субъективных испытаний простыми средствами из- менять расположение нулей. Кроме того, в какой-то степени это аналогично явлению диплофонии (Смит—Smith). Как уже подчеркивалось в этом разделе, значение мелких деталей и нулей в сигнале возбуждения для восприятия еще недостаточно установлено. Однако известна, по крайней мере, одна методика анализа речи, в которой для получения более точных данных о спектре учитывались нули колебаний голосо- вых связок (Мэтьюс, Миллер и Дэвид — Mathews, Miller and ') Ни в одном из примеров измеренный амплитудный спектр на частотах нулей не обращается в нуль. Генерируемые в лаборатории колебания голо- совой щели не были строго симметричными, и их нули не лежали на оси ico.
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 265 David, 1961, b). Использовалась модель расположения нулей и полюсов со средней плотностью нулей один на каждые — гц, согласующаяся со спектром реальной речи в смысле взвешен- ного минимального квадрата (см. разд. 5.2.2). Типичные точки Импульсы возбуждения выходной сигнал гласного /э/ х -г 3500 Хо - - 2500 х т о 2500 х --XW х> - - /500 х - о 1500 Расположение нулей и полюсов *--500 х - 4500 х 1—2500 ’/Я Л. хо-*—2500 х -l-о-2500 7 а ^1пТ х - о 500 Рис. 6.23. Метод управления нулями источника для изменения звучания гласного звука. В левой номограмме нулей нет, в средней—все нули в левой полуплоскости, в правой — все нули в правой полуплоскости (Фланаган, 1961, Ь) нулей и полюсов, согласующиеся со спектром одного периода основного тона натурального гласного звука, показаны на рис. 6.24. В процессе анализа не делается различия между ну- лями в правой и левой полуплоскостях, и все нули изображены на левой полуплоскости. Приведенный результат предполагает время открывания колебания голосовых связок равным пример- но 0,4 периода основного тона. Вопрос о важности точного положения нулей источника воз- буждения для восприятия остается открытым. Большую роль положение нулей источника возбуждения может играть лишь в равновесии всего спектра и при грубых изменениях его фор- мы. В связной речи форма колебаний сигнала возбуждения из-
266 СИНТЕЗ РЕЧИ меняется настолько быстро, что расположение нулей остается постоянным на время, недостаточное для того, чтобы повлиять Основной тон 11Чгц Среднее расстояние между нулями 27Чгц То/Т-0,4-2 । j МО 200 О Действительная часть,гц х Полюсы о Нули. на восприятие. Говорящий может так- же, пользуясь слуховой обратной связью, устанавливать такую форму колебаний голосовых связок, при которой нежела- тельное подавление частот формант ми- нимизируется. Имеется свидетельство, позволяющее предположить, что такое внимание к форме колебаний голосовых связок и распределению нулей могут привести к значительному улучшению качества синтезированной речи (Холмс— Holmes, 1961). Имитация турбулентного возбужде- ния. В гл. III указывалось на недоста- точность наших знаний об источниках тур- булентного возбуждения. Проведенные из- мерения (Гейнц—Heinz, 1958) наводят на мысль о том, что спектр источника при фрикативных звуках сравнительно рав- номерен в области средних звуковых ча- Рнс. 6.24 Наиболее подходящая модель расположения нулей и полюсов в спектре отдельного периода основного тона нату- стот, а сопротивление источника почти чисто активное. В электрических синте- заторах речи фрикативные звуки обыч- но генерируются возбуждением эквива- лентов голосовых резонаторов от гене- рального гласного ратора широкополосного шумового сиг- леУКн ДдаТЬЮ1’96Мй нала. Взрывные же звуки часто генери- лер н эв , , ) руются как переходные процессы этих резонаторов при их возбуждении элек- трическими импульсами или короткими обрывками шума. Звон- кие фрикативные звуки, в реальном голосовом тракте возбуж- даемые синхронными с основным тоном отрезками шума, мо- гут быть синтезированы перемножением синтезированных ко- лебаний голосовых связок и широкополосного шума. 6.2.5. Факторы, связанные с излучением Конструкторы электрических синтезаторов обычно стараются учесть характеристики источника, голосового тракта и излуче- ния изо рта и ноздрей. В синтезаторах-четырехполюсниках влия- ние излучения точно определено функциональной зависимостью между звуковым давлением в данной точке пространства и ве- личиной потока, проходящего через излучающее отверстие.
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 267 В синтезаторах-аналогах линии передачи картина иная. Они должны иметь нагрузку, импеданс который является эквивален- том акустической нагрузки излучающего отверстия. Для боль- шинства частот речевого диапазона она хорошо аппроксимиру- ется нагрузкой излучения поршня, помещенного в большой эк- ран (см. раздел 3.3). Для частот ниже 4000 гц его свойства достаточно точно описываются соотношениями для малого сфе- рического источника (см. раздел 3.4). Отсюда следует, что дав- ление в любой точке перед говорящим пропорционально произ- водной от величины потока у рта. Для учета излучения в синтезаторах-четырехполюсниках к передаточной функции голосового тракта можно добавить ча- стотный выравниватель с подъемом 6 дб на октаву. Аналогич- ным образом в синтезаторах-аналогах линии передачи можно продифференцировать ток, протекающий через нагрузку излуче- ния, и таким образом получить выражение для звукового дав- ления на выходе (или же можно (принять за давление непосред- ственно напряжение на нагрузке). Поскольку расстояние между ртом и ноздрями мало (меньше длины волны, особенно на низ- ких частотах), эффект одновременно излучения из этих двух точек может быть получен путем линейной суперпозиции их по- токов или звуковых давлений. 6.2.6. Моделирование синтеза речи на вычислительных машинах Работу упрощенных моделей речевого тракта, полученных в разделе 6.2.2, можно описать линейными дифференциальными уравнениями с постоянными коэффициентами, которые, в свою очередь, можно аппроксимировать уравнениями разностей. По- следние могут быть решены на цифровой вычислительной ма- шине арифметическими операциями над дискретными значения- ми переменных. Например, входное и выходное напряжения каскадного электрического синтезатора (рис. 6.10а) связаны соотношением ei=LC^+RC^+e0. (6.65) at2, at Если заменить дифференциалы конечными приращениями функции между равномерно взятыми дискретными значениями аргумента, выражение (6.65) примет вед ei — eo+-RCAeo + +LCA2e0, где А—первая обратная разность, поделенная на 'Ин- тервал .между отсчетами аргумента. Более подробно,
268 СИНТЕЗ РЕЧИ 2. (tn) = е0 (tn) + № ео (in) — ео ( 6.-1) ({п ~~ ^п—1) + LC gp (in) — 2e0 ( 6.—i) + gp ( i„—2) (in in—1) ( in—1 in—2) (6.66) Сгруппировав члены, получим RC , LC1 ein eon pc , 2LC ГБ'+-Б4 = aeon + beQ n_j 4- ce0 n_2, о n—1 Г£С1 > I __ О П—2 I Д2 (6.67) где D=i(tn—tn_i)—интервал между отсчетами, а eQn = eQ(tn). В теории линейных разностных уравнений (Хилдебранд — Hildebrand) показывается, что для свободного процесса реше- нием (6.67) будет решение соответствующего однородного урав- нения, т. е. линейная комбинация показательных функций: e0n = Kift + K2^ (6-68) где 01 и 02—корни характеристического уравнения ар2+йр + с = = 0, Ki и Ко—произвольные константы, а а, b и с определены в (6.67). В данном примере корни будут комплексно сопряжен- ные: Ь 4- i У 4ас — 62 _ eri±ir2 24 (6.69) где ег‘ = ]/— и г2arctg^4ac—.Отсюда еОп =еТ1П (/<[ cos r2n + Т а —b +K2s’n ГгП)’ где и ^2 — линейные комбинации Ki и К2- Мы получили, что отсчеты переходной характеристики системы равны отсчетам затухающего гармонического колебания. Про- Л г Г 1 l‘i‘ ведя преобразования, получаем е D,—2 Д2 ]> где а~ R 2 1 ° = — и со2 = — . L 0 LC Отсюда О =-----+2а7) + «2Г)2]. (6.70) Разложив логарифм в ряд как In(14-х) —1<х< 1, и ограничив СйО \ его первыми двумя членами, получаем —£>(а+ —-— j . При со? D достаточно малом интервале О между отсчетами -----<^а имеем
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 269 Г1~—aD, т. е. отсчеты импульсной реакции затухают примерно по закону е 1 , что совпадает с решением непрерывного урав- нения. Аналогичным образом получаем: r2=arctg D 1 _R2 LC ~~ 4L RD R2D2 L + 4£2 (6.71) r2= arctg D r2=arctg D co 1 + « D Таким образом, при малых интервалах между отсчетами г2 __ Deo — , а при малых затуханиях Это значит, что от- счеты импульсной реакции примерно равны отсчетам затухаю- щей синусоиды с угловой частотой <о, получаемой при решении непрерывного уравнения. Отметим, что при более редких отсче- тах решение разностного уравнения начинает отличаться от ве- личин отсчетов непрерывной функции. Другой метод позволяет рассчитать точную величину отсче- тов непрерывной импульсной реакции. Если при этом частота отсчетов превышает более чем вдвое полосу частот непрерыв- ного сигнала, можно восстановить непрерывную импульсную ре- акцию с помощью низкочастотной фильтрации. В основе этого метода лежит ^-преобразование. Возьмем уже рассмотренный выше (рис. 6.10а) RLC формантный резонатор. Его коэффи- циент передачи в форме преобразования Лапласа равен = F(s)=-------—------------------F----, (6.72) ei(s) (SSj) ( S —- s*) (s~ Si) (s—s*) где si = —oi + icoi — частота полюса, A=lim(s—Si)F(s) — S-*Si комплексный вычет в полюсе S], Звездочка означает комплекс- ную сопряженность. Обратное преобразование от F(s) есть им- пульсная реакция f(t). Значения ее отсчетов можно представить в виде импульсов, площадь которых равна значениям функции в моменты отсчетов: оо /+(o = 2/w8^-nD)’ <6-73> п=0
270 СИНТЕЗ РЕЧИ где 6(0—импульс единичной площади, a f+(f) —последователь- ность импульсов с периодом D, представляющих величины от- счетов f(nD). Преобразование Лапласа от /+ (0 есть свертка преобразований ее составляющих, или L [/+(0]=F+ (s)=F(s)* LX D)l. Но L 2 8U -- nD) I п — SO . — 2sJ Нули этой функции лежат в точках S = = ±i2m~, m = 0, D 1, 2, ... Свертка вычисляется из выражения с-|ч°° F+(s) = — f F(X)A(s — tydK (6.74) 2л i J c—ioo Используя теорему вычетов и приняв, что схема линейна и пассивна, так что полюсы F(s) лежат в левой полуплоскости, интегрировать можно по контуру, охватывающему только по- люсы F(s): F+ (s) - 2 Res W A (s ~ no k полюсам F (X) ИЛИ F+ « “ У [ 1 Res If • (6.75) Обозначив HesD=.z переписываем (6.75): f W = У Res «Ц • (676> k Для нашего примера (одиночного формантного резонатора) s? X СО? Reslf(s)U„ = A = Xsr и + I e~3,D г-1 (sin (О! D) 1 F ( } Ш1 ( 1 — 2е- *D (cosed 0)2-' + е“ г“2 | ’ (677) Заметим также, что (6.74) можно записать в виде --------------------С-1-1 ОО f+(s) = -L f 2л i J —с—ioo
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 271 и что полюсами А(Х) являются точки X=±i 2,. . оо. Если контур интегрирования выбрать охватывал лежащие на оси ico полюсы А (Л), 2/пл п , -----, m = 0, 1, D таким, чтобы он интеграл примет вид F+(s) = (6.78) так как вычет в любом полюсе А(2.) равен — Описывающая работу системы функция, представленная (6.75) или (6.78), связывает дискретные отсчеты входных и вы- ходных напряжений. Поскольку z' = e~sD — задержка на один интервал между отсчетами D, для вычисления отсчетов харак- теристики передачи формант- ного резонатора необходимы лишь цифровые операции за- держки, перемножения и сло- жения (они показаны на рис. 6.25). Обратные соедине- ния на рис. 6.25 станут понят- ными, если представить себе, что Р (г) в (6.77) — характе- ристика передачи некоторого рис. 6.25. Цифровые операции для обычного усилителя С обрат- моделирования отдельного формант- К ного резонанса (пары полюсов) ной связью <3= ]рд- • У функции, обратной f’(z), нули приходятся на полюсы F(z), отсюда дискретное описание соответствующего простого комп- лексно сопряженного нуля имеет вид 1 Wi F (г) af 4- wf 1 — 2е~д>° (cos cot D) г-1 + e~2j‘Q z~2 . (6.79) e~’*n z 1 sin Wj D Эта характеристика физически нереализуема, поскольку z~l в знаменателе означает, что выходной сигнал появляется рань- ше входного. Умножение на г-1, приводящее к общей задержке на один интервал между отсчетами, не изменяет расположения нулей на плоскости s и делает передаточную функцию реали- зуемой дискретными операциями, показанными на рис. 6.26. Как и в дискретном описании сопряженного полюса, здесь к умножителям подводятся данные о частоте ом и ширине поло- сы оь Эти основные операции с полюсом и нулем используются для моделирования на большой ЭВМ всего формантного син-
272 СИНТЕЗ РЕЧИ тезатора. На рис. 6.27 показана одна из схем такого синтеза- тора (Фланаган, Коукер и Бёрд—Coker and Bird). Вокализо- ванные звуки производятся верхней ветвью, содержащей четы- Рис. 6.26. Цифровые операции для моделирования отдельного антирезонаиса (лары дулей) ре полюса и один нуль. При гласных последние пары нуль—по- люс совпадают, поэтому их общий коэффициент передачи равен единице. При вокализованных согласных, таких, как носовые, они разделяются и устанавливаются в требуемые положения. Регулируются та,кже частота основного тона Ко и амплитуда голосового возбуждения Av. Рис. 6.27. 'Блок-схема моделирования да ЭВМ синтезатора речи (Фланаган, .Коукечр и Бёрд) Глухие звуки образуются нижней ветвью, имеющей один нуль и один или два полюса. Амплитуда шума управляется ве- личиной Ап. Из рис. 6.25 и 6.26 видно, что управление частота- ми и полосой пропускания оп обеспечивается подачей инфор- мации об этих величинах на перемножающие устройства циф- ровой 'машины. Таблица 6.1 — типичная таблица управляющих
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 273 Таблица 6.1 ТИПИЧНЫЕ ДАННЫЕ ДЛЯ УПРАВЛЕНИЯ ВЫЧИСЛИТЕЛЬНОЙ МАШИНОЙ, РАБОТАЮЩЕЙ ПО ПРОГРАММЕ МОДЕЛИРОВАНИЯ СИНТЕЗАТОРА, ПРЕДСТАВЛЕННОГО НА РИС. 6.27 Время мсек Частота основного тона гц Амплитуда сигналов Частоты формант, гц Частоты полюсов и нулей, гц тон шум an Ft Л F, Рм ZN ZF Pf —20 107 0 170 1290 2190 750 1000 1750 3500 4 5 100 7 180 1260 2170 850 950 8 210 1470 2270 900 900 9 390 1550 2300 10 400 1620 2380 11 1690 2410 12 1700 2460 19 1690 2500 23 410 1510 2430 24 350 1490 2410 25 300 1475 2400 26 250 1490 28 230 1510 32 215 1620 2390 35 210 1700 2330 36 0 25 37 610 610 41 1655 3310 46 1500 2950 47 1400 2800 48 0 320 1420 1800 51 52 25 975 1950 54 960 1920 56 120 925 1850 57 100 0 58 118 1390 1750 61 112 450 1200 1700 65 107 600 1140 1710 70 690 1115 1910 72 700 1150 2000 78 1305 2070
274 СИНТЕЗ РЕЧИ величин, вводимых в машину с помощью перфокарт. Эти дан- ные соответствуют примерно одной секунде синтезированной речи. Каждая входящая в таблицу величина держится схемой до введения очередного нового значения. Управляющие функции интерполируются между введенными значениями ступеньками через интервал 2,5 мсек. Частота отсчетов при моделировании i =10 кгц. Спектрограммы исходной речи, из которой были извлечены управляющие функции, и синтезированной по этим данным речи показаны на рис. 6.28. Рнс. 6.28. Спектрограммы исходной речи и речи, синтезированной с помощью формантного синтезатора (рис. 6.27), моделируемого на ЭВМ (Фланаган, Коукер и Бёрд) Была построена также цифровая модель формантного синте- затора, управляемого не непрерывно поступающими характери- стиками формант, а хранящимися в памяти машины парамет- рами фонем (Келли и Джерстмен—Kelly and Gerstman). Син- тезатор— каскадного типа, в нем имеется четыре пары полюсов, частоты и затухания которых управляются независимо. Возбуж- дается он сигналами либо с дискретным, либо с шумовым спек- тром. Сигналы управления поступают на синтезатор после ука- зания заданной последовательности фонем вместе с данными о величинах их основного тона и длительностях. Для этого в схеме созданы условия для кодирования основных соотношений между интонациями и ударениями. При указании синтезируе- мой фонемы из памяти извлекаются данные о частоте и ширине полосы форманты, соответствующие этой фонеме. Переходы уп- равляющих сигналов от одной фонемы к другой определены рядом правил, выработанных для получения натурального зву- чания речи и хранящихся в памяти машины. Изучение и усовер- шенствование такого рода правил представляют для исследова-
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ 275 „телей большой интерес (Хаус, Стивенс и Пол — House, Stevens and Ран!; Линдблом — Lindblom). Подобное запоминание фонем использовалось также при цифровом моделировании аналогового речевого тракта (Келли и Лохбаум—Kelly and Lockbaum). В этом случае при указании синтезируемой фонемы запрашиваются данные о конфигурации тракта, который аппроксимируется сочлененными прямыми кру- говыми цилиндрами; при этом функция передачи от одного ци- линдра к другому моделируется как функция коэффициента от- ражения в каждом стыке. При указании какой-нибудь фонемы производится опрос памяти машины о законе изменения пло- щади поперечных сечений тракта и о наборе коэффициентов от- ражения, характеризующих разрывы в законе распределения площади. Запоминаемые правила переходов здесь относятся не к данным о формантах, а к артикуляторным параметрам. Исследуется также ряд других синтезаторов, моделирован- ных на ЭВМ или управляемых от ЭВМ, которые здесь не опи- сываются. Укажем лишь, что их диапазон очень широк—от уп- равляемых ЭВМ аналоговых голосовых трактов (Деннис — Dennis) и формантных синтезаторов (Истес, Керби, Мексей и Уолкер—Estes, Kerby, Maxey and Walker) до вокодероподобных синтезаторов спектра (Олсон—Olson; Смит—Smith, 1963; Мик- кер—Meeker, Нелсон и Скотт—Nelson and Scott). Во всех слу- чаях способность цифровой ЭВМ хранить большое количество информации и выполнять логические операции с исключительно большой скоростью является весьма важным фактором. VII. ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ Слуховое восприятие рассматривают в различных аспектах. С точки зре- ния теории связи можно выделить классическую психофизическую теорию слуха н лингвистическое опознавание слуховых образов. Первый раздел прин- ципиально связан со свойствами органов слуха как преобразователей акусти- ческих сигналов в механические колебания н затем в нервные импульсы. Второй касается в основном проблемы классификации и опознавания слухо- вых образов, существенных с точки зрения слушателя. Классическая психофизическая теория направлена на определение «раз- решающей способности» механизма слуха. Способность различения обычно проверяется для основных параметров (координат) возбуждающих стимулов, а чаще всего — лишь для одного параметра, выбранного при постановке опыта. Как правило, измерения проводятся в условиях, наиболее приспособ- ленных для соответствующих различений, т. е. определением дифференциаль- ного порога нлн методом сравнения. Подобным образом определяются диф- ференциальные пороги для таких параметров, как интенсивность нлн частота. Интуитивно чувствуется, что нн сложность процессов, происходящих в центральной нервной системе, ни огромная емкость ее памяти, по-внднмому, не играют роли в различении этих порогов. Количественные результаты скорее
276 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ всего отражают способность преобразующего органа, а также перифериче- ской нервной системы выявлять детали того или иного параметра возбуж- дения. В гл. IV упоминалось об этих свойствах периферической системы. Там же анализировались очевидные соотношения между физиологическими и психоакустическими откликами на некоторые виды возбуждения. Акустиче- ские сигналы выбирались «классического» типа, т. е. они были прерывистыми во времени, либо характеризовались простой спектральной структурой, либо в них сочетались оба упомянутых признака. С другой стороны, речь является многомерным сигналом, вызывающим лингвистические ассоциации. Для эффективного кодирования передаваемой информации в ее сущности должны быть заложены некоторого вида абсолют- но воспринимаемые категории. Другими словами, сигнал должен делиться на конечное число дискретных информационных элементов. «Объем» этих элементов и сам процесс их восприятия являются предметом споров и ряда домыслов. Современный уровень знаний лишь приближается к надлежащему пониманию этого процесса. Построение теории слухового восприятия, учи- тывающей все лингвистические и обучающие функции, наталкивается на не- преодолимые трудности. Еще более сложной задачей является согласование физиологических, психофизических и лингвистических факторов. Как во вся- ких трудных ситуациях, предпринимаются попытки отыскать наиболее суще- ственные особенности завершающего этапа процесса принятия решения, ко- торый является основой восприятия. Хотя построение завершенной теории восприятия речи остается задачей будущего, уже сейчас можно многое сказать о различении звуковых обра- зов. Результаты некоторых «классических» измерений тесно связаны с суще- ственными характеристиками речи, хотя при этих измерениях лингвистиче- ские или контекстуальные вопросы оставались в стороне. Кроме того, зна- чительная информация об акустических явлениях накопилась в ходе экспе- риментов по искусственному синтезу простейших элементов речи, например- слогов и фонем. С практической точки зрения артикуляционные испытания и оценки раз- борчивости, основанные на абсолютном опознавании предложений, слов, сло- гов и изолированных фонем, могут быть использованы при разработке сис- тем передачи. При рассмотрении тех или иных систем преобразования рече- гых сигналов эти оценки зачастую позволяют выявить факторы, влияющие иа восприятие (хотя они мало пригодны, а может быть, и вовсе бесполезны для описания самого процесса восприятия). При некоторых условиях так назы- ваемые индексы артикуляции могут применяться для расчета разборчивости по данным измерений физических характеристик тракта передачи. Наряду с определением разборчивости можно получить некоторые данные о влия- нии лингвистических, контекстуальных и грамматических ограничений. Одна- ко просодические свойства и натуральность звучания речи до сих пор не опре делены. В настоящей главе рассматриваются некоторые из этих проблем. Цель этого рассмотрения состоит в том, чтобы отметить современный уровень по- нимания законов восприятия речи и речеподобных звуков. 7.1. Дифференциальное и абсолютное различения В классической психофизике характеристики различения определяются методом непосредственного сравнения. Однако- восприятие речи, вероятнее всего, основывается на абсолютной
ДИФФЕРЕНЦИАЛЬНОЕ И АБСОЛЮТНОЕ РАЗЛИЧЕНИЯ 277 классификации акустических сигналов1). Возникает вопрос, су- ществует ли взаимное соответствие между психофизическими данными и сведениями о восприятии речи? Органы слуха человека чрезвычайно чувствительны к раз- личиям по частоте или интенсивности сравниваемых звуков. При некоторых условиях пороговая чувствительность различе- ния частот двух поочередно звучащих чистых тонов может достигать одной тысячной от абсолютной величины (Розен- блит и Стивенс — Rosenblith and Stevens). Порог чувствитель- ности при различении по интенсивности может быть менее 1 дб (Риш — Riess). На основе сравнительных оценок установлено, что средний слушатель может различать около 350 000 тонов (Стивенс и Дэвис — Stevens and Davis). Несмотря на эту острую дифференциальную чувствитель- ность, изолированные звуки с трудом различаются и опозна- ются. Так, при абсолютных оценках частоты изолированно зву- чащих тонов равной громкости четко улавливаются на слух лишь пять различных тонов (Поллак—Pollack). Принятию ре- шения здесь соответствует около 2,3 дв. ед. информации на символ. Однако если звуковые сигналы выбирать по дискрет- ной системе координат, например, при условии квантования по частоте, громкости, длительности и т. п., точность опознавания повышается и информационная оценка может достигать 5—7 дв. ед. на символ (Поллак и Фикс — Pollack и Ficks). Это эквивалентно правильному опознаванию выборок ансамбля, состоящего из 32 или даже 128 символов. Ясно, что данные об абсолютной и дифференциальной чув- ствительности приводят к существенно различным оценкам ин- формационной емкости соответствующих органов человека. По первому методу в пределах каждой координаты (частота, ин- тенсивность, длительность) различается всего лишь несколько ступеней, тогда как по второму отмечается гораздо большее количество различимых интервалов. Дифференциальная мера отражает разрешающую способность при более благоприятных условиях для принятия решения. В этом случае обычно произ- водится непосредственное сравнение по одной координате. По существу, дифференциальная чувствительность является верх- ней границей разрешающей способности механизма восприя- тия. Если исходить из того, что фонетические признаки определяются за- конами изменения спектральных распределений, то более вероятно предполо- жить, что различение при восприятии речи основывается не на абсолютной классификации акустических сигналов, а на непосредственном сравнении смежных спектральных реализаций (прим. ред.).
278 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ С точки зрения абсолютной различимости дифференциаль- ные оценки разрешающей способности являются слишком оп- тимистическими. Вероятность того, что сигналы, квантованные •с шагом, соразмерным дифференциальному порогу’), будут раз- личаться абсолютно, чрезвычайно мала. Более того, дифферен- циальные оценки характеризуют восприятие «клинически». Они играют роль верхнего предела способности обнаружения •отклонений в характеристиках сигнала. Для любой системы преобразования речевых сигналов критерии верности, основан- ные на дифференциальных оценках различимости, оказываются чрезмерно жесткими. И хотя они не имеют непосредственной прикладной ценности, тем не менее зачастую оказываются по- лезными при оценке свойств и требований к информационной емкости систем передачи (Фланаган, 1956, Ь). 7.2. Дифференциальная разрешающая способность по координатам речевого сигнала 7.2.1. О чувствительности слуха к изменению координат речевого сигнала Результаты, приведенные в гл. III и IV, показывают, что основные координаты речевого сигнала можно определить как в акустической, так и в артикуляционной областях. Обе обла- сти с точки зрения восприятия коррелированы между собой. Задачей анализа, проведенного в гл. III, было определение свойств возбуждения и передаточной функции речевого тракта. Весьма важными для восприятия акустическими координатами передаточной функции являются распределения особых точек, т. е. положения комплексных частот нулей и полюсов передачи. Те же данные определяются шириной полосы, частотами ми- нимумов и максимумов спектра амплитуд, а также фазовым спектром. Существенными координатами источника возбужде- ния при формировании сонорных звуков является интенсив- ность, частота основного тона и расположение нулей спектра (или эквивалентные характеристики: асимметрия и скважность импульсов голосовых связок). Для источника возбуждения глухих звуков координаты определяются интенсивностью и длительностью. Чувствительность слуха к некоторым из этих факторов (без учета лингвистических или контекстуальных ограничений) из- *) Термины «дифференциальный порог», «едва заметное различие» явля- .ются синонимами, относящимися к понятию о едва заметном изменении.
ДИФФЕРЕНЦИАЛЬНАЯ РАЗРЕШАЮЩАЯ СПОСОБНОСТЬ 279 мерена с помощью психоакустических экспериментов. Напри- мер, имеются данные о едва заметных отклонениях частоты формантных максимумов, частоты основного тона, общей ин- тенсивности и ширины формант. Не вдаваясь в детали экспе- риментов, приведем основные результаты. 7.2.2. Пороговые значения для частот формантных максимумов Едва различимые изменения частот максимумов первой и второй формант были измерены (Фланаган, 1956, Ь) на синте- тических гласных звуках, формируемых синтезатором с сосре- доточенными параметрами (см. раздел 6.2.2). Управление син- тезатором осуществлялось по принципу формантного вокодера. Дифференциальные пороги в значительной степени зависят от интервалов между формантами и составляют около 3—5% от частоты формантного максимума1). 7.2.3. Пороговые значения для амплитуд формантных максимумов Из гл. III и VI известно, что относительная амплитуда лю- бого формантного максимума речевого сигнала является функ- цией нескольких переменных, в том числе частоты этого макси- мума, затухания речеобразующего тракта, положения нулей пе- редаточной функции и характеристик источника возбуждения. Измерения дифференциальной чувствительности к амплитудам формант проводились с помощью синтезатора параллельного типа с сосредоточенными параметрами (Фланаган, 1957,а). По- рог интенсивности для второй форманты почти нейтральной гласной /ге/ оказался порядка 3 дб. Подобные же измерения пороговых значений общей интен- сивности синтезированных гласных дали величину порядка 1,5 дб (Фланаган, 1955,а). Поскольку первая форманта обыч- но в гласных звуках является наиболее интенсивной, общий показатель может служить в качестве приближенной оценки порога чувствительности для первой форманты. В этих экспериментах рассматривалось изменение частоты только од- ного формантного максимума. В естественной речи и в формантных вокодерах одновременно перемещаются максимумы нескольких формант. Важным и прак- тически полезным обобщением эксперимента было бы определение объемной «области дифференциальных порогов» в пространстве F-,—F2—F3. Эффект близости формант должен, вообще говоря, придать этим «областям» эллипсо- идальную форму. Это замечание остается в силе и для случаев различения одновременных изменений координат сигнала в любом из описанных ниже экспериментов.
г 280 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ 7.2.4. Пороговая чувствительность к ширине формант fl Прямые измерения различимости изменений ширины фор-’fl мант или коэффициента затухания для синтезированных глас- fl ных не проводились. Однако некоторые родственные измерения fl и их экстраполяция подсказывают ожидаемые результаты. fl Стивенс (Stevens, 1952) исследовал различимость изменений fl настройки и затухания одиночного электрического резонатора, fl Резонатор возбуждался периодической последовательностью fl импульсов с частотой первой гармоники 125 гц. Следователь- fl но, выходной сигнал представлял одноформантную гласную, fl В общем едва различимыми оказались изменения ширины фор- fl манты в пределах от 20 до 40%. fl Как следует из гл. III, амплитуда формантного максимума fl связана с коэффициентом затухания обратной зависимостью. Величина 1,5 дб, найденная для порогового значения амплиту- я ды первой форманты, соответствует изменениям ширины поло- 1 сы пропускания порядка 20%. Аналогично величина 3 дб для я второй форманты соответствует изменениям ширины около 1 40%'). I 7.2.5. Пороговая чувствительность к частоте 1 основного тона I Дифференциальные пороги для частоты основного тона | (ОТ) синтетических гласных звуков определялись с помощью | таких же экспериментов, как и при измерениях формант (Фла- ,! наган и Саслоу — Saslow). Для звуков, соответствующих муж- ) скому голосу, порог составляет 0,3—0,5% от частоты ОТ. Ин- тересно, что пороговая чувствительность слуха к изменениям частоты формант на порядок выше, чем к изменениям шири- ны формант, а к изменениям ОТ, в свою очередь, — на поря- док выше, чем к изменениям формантной частоты. 7.2.6. Пороговые значения для интенсивности возбуждения При постоянной форме импульсов основного тона и фикси- рованной передаточной характеристике речевого тракта общая интенсивность сонорных звуков прямо пропорциональна ампли- туде импульсов. Известно, что пороговые значения общей ин- тенсивности гласных составляют величину порядка 1,5 дб. ') Другие многомерные дифференциальные пороги можно определить при одновременном изменении частоты и ширины формант. Другими словами, можно найти «область» дифференциальных порогов для полюсов речевого Тракта на плоскости комплексных частот.
ДИФФЕРЕНЦИАЛЬНАЯ РАЗРЕШАЮЩАЯ СПОСОБНОСТЬ 281 Точно так же общая интенсивность глухих звуков непо- средственно связана с эффективной амплитудой шумового воз- буждения. Фрикативные согласные являются относительно широкополосными продолжительными турбулентными звуками. Можно ожидать, что различимость изменений их эффективной амплитуды будет такого же порядка, как и в случае белого шума. Для последнего порог интенсивности измерялся (Мил- лер, 1947). Было найдено, что при общем уровне около 30 дб он составляет величину порядка 0,4 дб. Хотя относительно рав- номерным спектром характеризуется лишь несколько фрика- тивных согласных, тем не менее указанные данные могут быть использованы для оценки порядка величины порога и в осталь- ных случаях. Опыт по синтезу речи подтверждает эту точку зрения. 7.2.7. Порог чувствительности к нулям спектра импульсов основного тона Различимость изменений в положениях нулей спектра ис- точника голосового возбуждения (см. п. 6.2.4) или других де- талей спектра импульсов ОТ исследовалась, насколько извест- но, лишь с качественной стороны (Фланаган, 1961, Ь). Источник импульсов ОТ в значительной степени определяет качество ре- чи и узнаваемость диктора. Следовательно, измерения поро- гов для таких параметров, как скважность и асимметрия им- пульсов ОТ, были бы весьма полезными для определения гра- ниц их влияния на натуральность речи. 7.2.8. Различимость максимумов и минимумов спектра шума Передаточная характеристика речевого тракта при форми- ровании фрикативных согласных и других звуков определяет- ся положением нулей и полюсов. Широкополосное шумовое возбуждение фильтруется этим трактом. Некоторые из нулей и полюсов (и соответствующих им минимумов и максимумов спектров) существенны для восприятия, другие — нет. Имеют- ся данные измерения дифференциальной чувствительности для одиночных всплесков или провалов в гладком спектре шума (Малм — Malme). На рис. 7.1 показаны вариации спектра, по- лученные фильтрацией широкополосного шума цепью с одним полюсом или нулем. На том же рисунке нанесены эквивален- ты комплексных частот (зависимости ширины полосы на уров- не 0,5 по мощности от частоты настройки) едва различимых нерегулярностей в гладком спектре. Числа в децибелах возле:
-282 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ отмеченных точек указывают высоту едва различимых всплес-| ков и глубину провалов соответственно. Эти данные показы-д вают, что, по крайней мере, при белом шуме спектральные | всплески с величиной Q (т. е. отношением центральной часто-1 ты к ширине полосы) не более 5 и провалы в спектре с Q ме- ) нее 8 на слух не ощущаются. i 3500 3000 2500^ 2000 & I 1500 | I 1000 § 500 О 100 000 500 000 300 200 100 О Ширина полосы, гц Рис. 7.1. Ощутимость нерегулярностей в спек- тре широкополосного шума (Малм) Отсюда возникает предположение, что многие слабо вы- раженные нерегулярности спектра, наблюдаемые в таких фри- кативных, как Д/, не имеют никакого значения для восприятия. Однако некоторые спектральные пики в таких звуках, как /з/ или /J/, безусловно, отличают их спектр от плоского. Име- ются данные о синтезе фрикативных согласных на основе пред- ставления их спектра двумя полюсами и одним нулем (Гейнц и Стивенс — Heinz and Stevens). Соответствующие значения Q для полюсов находились в пределах от 5 до 13. Для нулей под- ходящими значениями Q оказались значения порядка 2—4. Возникает мысль о том, что в пределах применимости резуль- татов, отраженных на рис. 7.1, полюсы более существенны для восприятия, чем нули. Последние, очевидно, становятся важ- ными только в случае сильно выраженных нерегулярностей
ДИФФЕРЕНЦИАЛЬНАЯ РАЗРЕШАЮЩАЯ СПОСОБНОСТЬ 283. спектра. Вероятно, это является причиной того, что положение частот нулей сравнительно некритично. Часто при синтезе их автоматически располагают на октаву ниже первого полюса (Гейнц и Стивенс). Подобные измерения проводились также для шума с перио- дически следующими (по оси частот) друг за другом максиму- мами спектра, т. е. при условии, что шум предварительно про- пускался через гребенчатый фильтр (Атал и Шредер — Atal and Schroeder). Задача состояла в том, чтобы выяснить влия- ние нерегулярностей частотной характеристики помещения на восприятие звуков. Белый шум сравнивался с шумом такой же мощности на выходе гребенчатого фильтра, и были найдены пороговые значения едва ощутимых периодических нерегу- лярностей. Минимально различимое отношение спектральных амплитуд на частотах всплесков и провалов оказалось порядка 1,5 дб. Эта оценка хорошо согласуется с порогом интенсивно- сти, измеренным для белого шума (см. раздел 7.2.5). Результаты подобных экспериментов дают сведения о весо- вой функции мгновенного спектрального анализа в слуховом аппарате. Весовая функция, найденная по этим результатам,, имеет почти экспоненциальную форму с начальным наклоном, соответствующим постоянной времени 9 мсек. Эта величина совпадает с постоянной времени, найденной по результатам громкости периодически следующих щелчков (см. раздел 4.3.3). 7.2.9. Другие оценки, полученные методом непосредственного сравнения Целый ряд других психофизических измерений в той или иной степени характеризует дифференциальную чувствитель- ность к различным параметрам речевого сигнала. Некоторые из них полезно рассмотреть в качестве иллюстрации многогран- ной природы полученных данных. В одном из экспериментов оценивалось восприятие одиноч- ной перестраиваемой во времени форманты (Брэди, Хаус и Стивенс — Brady, House and Stevens). Непрерывно перестраи- ваемая резонансная цепь возбуждалась пятью эквидистантны- ми импульсами ОТ. Частота следования импульсов равна 100 гц. Резонансная частота менялась от 1000 до 1500 гц по возрастающим и падающим траекториям, показанным на рис. 7.2. Переход через форманту совершался за 20 мсек. Чтобы оценить, как воспринимаются вариации форманты, опе- раторов-слушателей просили так настроить фиксированную форманту, чтобы ее звучание возможно более соответствовало перестраиваемой. Типичные результаты сравнения показаны
284 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ на рис. 7.3. Обозначенные по горизонтали образцы a, b, с, d, е'^ и f соответствуют нумерации, принятой на рис. 7.2. По резуль-J тэтам видна весьма четкая тенденция устанавливать частоту;; § 1500 I 1000 В 1500 g 1000 ’1 1500 S' § 1000 a 1500 § 1000 Э 1500 1000 фиксированного резонанса по конечному значению ча- > стоты перестраиваемой фор- манты, в особенности, ког- да формантный переход со- вершается в начале звука. J Эта тенденция проявляет- ' ся несколько сильнее при . перестройке форманты вверх. Несколько иначе сказы- вается влияние тонкой вре- менной структуры голосо- вого возбуждения. Форма и периодичность импульсов ОТ подвержены различным Импульсы возбуждения 10мсек Рис. 7.2. Частотные траектории ими- тируемых перестраиваемых формант и эпюры возбуждающих импульсов (Брэди, Хаус и Стивенс) вариациям, которые суще- ственно влияют на качество речи. Так, при известной особенности голоса, опре- деляемой термином «дипло- фония», чередуются им- пульсы неодинаковой высо- ты (С. Смит — S. Smith). Соседние периоды ОТ мо- гут также различаться по длительности. Для количественной оценки последнего эффекта Либерман (Lieberman) анализировал длительности 7000 перио- дов ОТ естественной речи. В отрезках длительностью по 3 пе- риода вариации длительности периодов превышали ±0,1 мсек в 86% случаев. В 20% случаев наблюдалось чередование длин- ных и коротких периодов. При отсутствии корреляции между соседними периодами проявлялась сильная корреляция через один период. Первым шагом на пути выяснения возможной корреляции этих факторов с особенностями восприятия были предваритель- ные исследования эффекта восприятия регулярных отклонений амплитуды и моментов появления импульсов периодической последовательности (Фланаган, Гуттман и Уотсон — Flanagan, Guttman and Watson; Гуттман и Фланаган — Guttman and Fla- nagan, 1962). Форма исследуемых импульсов показана на рис. 7.4 слева. Начиная со строго периодической последова-
ДИФФЕРЕНЦИАЛЬНАЯ РАЗРЕШАЮЩАЯ СПОСОБНОСТЬ 285 г 1600 1500 V <v § МО § § g 1300 ч § й 1200 § Рис. 7.3. Результаты орав- g нения фиксированного и g t,aa перестраива-емого резо- * нансов (по рис. 7.2).* Сплошной линией обоз-г§ 1000 начены средние значения, вертикальными линия-^ мн — границы стандарт- зоо кого отклонения -(Брэди, Хаус и Стивенс) Образцы а 8 с а е f Образцы Образцы f(t) Диаграммы нулей а палюсоб \ ia> „ о Плоскость S 1-0 2а Т г~2я/Т*у О Чл/т 8к/т ‘зя/т VII Г—Г-*1 » д ! ~L I I I I L О W/r 8Я/Т ш-— \зяП\ ~Tt) Рис. 7.4. Форма периодических импульсов при определении влияния временных и амплитудных отклонений на восприятие основного тона. Слева показаны импульсы экспериментальных последовательностей: Ль — с вариациями амплитуды; Ат — временными вариациями; В — эталонная последовательность. В центре представлены соответствующие спектральные диапраммы, а справа — диаграммы на комплексной пло- скости (Фланаган, Гуттман и Уотсон; Гуттман и Фланаган, 1962)
286 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ тельности (периода постепенно увеличились либо ампл!1 туда (образец Ль), либо запаздывание (образец Ат) каждое четного импульса. Получаемый эффект оценивался слушателя^, 47 - - Рис. 7.5. Результаты сравнения эта- лонной последовательности импуль- сов В: а) с периодической последователь- ностью Al, в которой четные им- пульсы отличаются по амплитуде от нечетных иа AL; б) с периодической последовательностью Дт, в которой четные импульсы сдвинуты по вре- мени на АТ. В обоих случаях па- раметром является частота следова- ния образцов А (Фланаган, Гуттман и Уотсон; Гуттман и Фланаган, 1962) же путем подстройки частот! эталонной периодически последовательности до сс гласования с тоном иссл$ дуемой последовательности: С увеличением разности ам‘ плитуд &L либо длительно^ стей периодов Д7’ вскоре достигался момент, посл$ которого высота тона пони-| жалась на октаву. На рис. 7.4 посередине показаны частотные спект-- ры образцов AL с неодина-, ковой амплитудой импуль-J сов, образцов Ат с неодина-, ковым периодом и образ-J цов В эталонной последо-" вательности. На этом рисунке справа изрбраже- ? ны соответствующие диа- j граммы нулей и полюсов : для всех трех упомянутых I периодических последова- 1 тельностей. Характерно, что относительные амплитуды ! соседних спектральных ли- ний сигнала AL полностью определяются амплитуда- ми «1 и а.2 импульсов. Но спектральные амплитуды сигнала Ат зависят от дли- тельности Т периода ОТ и формы циклоидальной оги- бающей, которая, в свою очередь, определяется ин- тервалом т. Усредненные ниям большого слушателей сравнения при отклонениях ДГ и АГ приведены на по показа- количества результаты
ДИФФЕРЕНЦИАЛЬНАЯ РАЗРЕШАЮЩАЯ СПОСОБНОСТЬ 287 рис. 7.5 а и б соответственно. На общих графиках пара- метром является частота следования, т. е. удвоенная частота первой гармоники. Результаты для AL (рис. 7.5 а) показывают, что в диапазоне частот ОТ голоса человека различие амплитуд AL на 6—9 дб или более приводит к субъективному ощущению понижения основного тона на октаву. Аналогичное понижение па октаву ощущается в том же диапазоне (т. е. от 100 гц и ч " 2Д7’ выше) при отклонениях длительности периодов -у- порядка 0,1 и более. 7.2.10. Дифференциальная различимость в артикуляционной области Акустические координаты, определенные для речи и рече- подобных сигналов в предыдущих разделах, представляют ин- терес и с точки зрения артикуляции. Однако между акустиче- скими и 'артикуляционными соотношениями не существует вза- имнооднозначного соответствия. Например, изменение размеров или положения сужения речевого тракта приводит к изменению не одной, а, как правило, всех частот формант (см. рис. 3.39). По этой причине трудно интерпретировать, скажем, пороговые значения для частоты и амплитуды формант с привлечением понятия о едва различимых изменениях положения артикуля- ционных органов. Тем не менее можно установить некоторые связи, существующие между обеими областями. Едва ощутимые изменения формантной частоты были най- дены в пределах 3—5%. Для формант прямой акустической трубы справедливо соотношение Fn , п—1, 2 ... 41 ИЛИ Чувствительность частоты максимума форманты к изменениям л . dFn (2п—1)с длины трубы определяется величиной —-— =-----------1----- dl 41s —— =---------, так что заданное относительное изменение дли- ДГ„ Д/ ны тракта I вызывает такое же относительное изменение фор- мантных частот. Следовательно, можно ожидать, что диффе- ренциальный порог для длины тракта в процентном отноше- нии приблизительно совпадает с дифференциальным порогом для частот формант. Обращаясь к рис. 3.39, можно заметить и другие, более сложные отношения между изменениями фор- мант и артикуляционными параметрами. Другим простым примером является чувствительность мак- симального затухания прямой трубы к изменениям средней площади голосовой щели [см. ур-ние (3.74)]. Предположим, что
288 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ эквивалентный импеданс голосовой щели чисто вещественен и определяется только кинетическими факторами, т. е. Rg~ = У 2р Ps0/A0 [см. ур-ние (3.51)]. Затухание полюсов- (т. е. вещественных частей) определяется как ап~ (ac+Zoc/lRg) или оп~—[ac + cZ0A0/l ]X2pPj0][cM. ур-ние (3.74)]. Чувствитель- ность затухания к изменениям средней площади голосовой ще- ли определяется величиной d(>n/dA0~cZ,jll }A2pPs0. т. е. изме- нения максимального затухания приблизительно пропорцио- нальны изменениям сечения голосовой щели. 7.3. Абсолютное’различение речи и речеподобных звуков 7.3.1. Абсолютное опознавание звуков При разработке акустической теории распознавания зву- ков речи наибольшие усилия были направлены на эксперимен- ты по абсолютному опознаванию. В качестве испытательных образцов, как правило, выбирались синтезированные фонемы или отрезки синтезированной речи длительностью в один слог. Этот подход, по-видимому, ставит испытательные образцы вне контекста, так что на восприятие влияют только физические свойства выбранного сигнала. В то же время при этом сохра- няется лингвистическая структура, что позволяет соответст- вующим образом характеризовать оценки восприятия. Рис. 7.6. Трехпараметрическое описание артикуляции главных, г0—радиус мак- симального сужения; х0 — расстояние от голосовой щели до максимального А сужения; у — отношение площади сечения рта к окружности губ (Стивенс и Хаус, 1955) С изолированными фо- немами проведено срав- нительно небольшое ко- личество экспериментов. В одном из опытов иссле- довались артикуляцион- ные конфигурации, соот- ветствующие гласным. Ис- пытывалось простое, трех- параметрическое описа- ние гласных, синтезиро- ванных с помощью моде- ли речевого тракта с рас- пределенными параметра- ми (Стивенс и Хаус—Ste- vens and House, 1955; Хаус и Стивенс, 1956). Трехпараметрическая мо-
АБСОЛЮТНОЕ РАЗЛИЧЕНИЕ РЕЧИ И РЁЧЁПОДОБНЫХ ЗВУКОВ 289 дель артикуляционного тракта при формировании гласных показана на рис. 7.6. Радиус границы тракта, обозначен- ной пунктирной линией, описывался функцией г(х) = = 0,025(1,2—г0) (х—х0)2 + г0, где длина выражена в сантиметрах. Эта конфигурация тракта моделировалась в синтезаторе гласных с помощью электрической линии задержки. Изолиро- ванные гласные длительностью 500 мсек предлагались слуша- телям для абсолютного узнавания по 9 категориям, принятым для гласных английского языка. Основной тон монотонно ме- нялся в пределах от 120 до 140 гц. Оценки слушателей по раз- борчивости для одной величины сужения показаны на рис. 7.7. Два контура оценок соответствуют 50 и 70%' правильно опо- знанных гласных. Данные Петерсона и Барни (Peterson and Barney) для натуральных гласных, произносимых мужским го- лосом (см. ряс. 5.10), пересчитанные в ту же систему артику- ляционных координат, показаны на рис. 7.8. Из сравнения сужения, см Рис. 7.7. Оценки опознавания на слух синтетических гласных при трехпа- раметрической модели для одного фиксированного радиуса сужения. Показаны две границы областей, со- ответствующих 50 и 75% правильно опознанных звуков (Хаус и Стивенс, 1955) 10—71 Расстояние от голосовой щели до сужения, см Рис. 7.8. Данные Петерсона и Барни о частотах формант 33 мужских голосов, пересчи- танные для трехпараметриче- ской модели артикуляции глас- ных (Хаус и Стивенс, I1955J
290 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ рис. 7.7 и 7.8 видно, что, за исключением небольших различий, трехпараметрическое представление удивительно хорошо опи- сывает гласные. Подобные эксперименты по синтезу и восприятию были по- ставлены и для гласных японского языка (Наката и Сузуки — Nakata and Suzuki). В этих опытах звуки формировались с по- мощью синтезирующего четырехполюсника, а цель состояла в том, чтобы найти формантную структуру для соответствующего синтеза гласных. Упомянутый выше аналог тракта с распределенными пара- метрами, дополненный моделью носового тракта, применялся также при изучении восприятия назальных согласных (Хаус — House). Синтезировались и предлагались слушателям для аб- солютного суждения образцы назальных согласных длитель- ностью 500 мсек. Разрешенными для опознавания категориями были три назальные согласные (т, пит]). Модель артикуляци- онного тракта при синтезе была подобна описанной выше мо- дели для гласных, но дополненная параметрами задненебной связки. Типичная матрица опознаваемости для артикуляцион- ных категорий, представляющих зафиксированные перед испы- таниями образцы синтетических назальных согласных, пока- зана в табл. 7.1. Хотя оценки опознавания этих согласных не могут считаться достаточно высокими, тем не менее они хоро- шо совпадают с данными подобных измерений для естествен- ных назальных согласных (Малекот — Malecot). Синтетические назальные согласные опознаются даже лучше, чем естествен- ные. Учитывая высокую функциональную нагрузку в связной речи этих назальных звуков, и в особенности /и/ (см. табл. 1.1), Таблица 7.1 ОЦЕНКА УЗНАВАЕМОСТИ НА СЛУХ СИНТЕТИЧЕСКИХ И ЕСТЕСТВЕННЫХ НАЗАЛЬНЫХ СОГЛАСНЫХ Синтетические Естественные образцы оценки, % образцы оценки, % m п 1 m п m 81 11 8 m 96 4 0 п 33 61 6 п 42 56 2 20 18 62 60 28 12 Примечание. Средняя узнаваемость синтетических звуков = 68%, естествен- ных — 55%.
АБСОЛЮТНОЕ РАЗЛИЧЕНИЕ РЕЧИ И РЁЧЁПОДОБНЫХ ЗВУКОВ 291 из факта низкой опознаваемости следует сделать вывод, что для восприятия назальных согласных весьма существенную роль играют переходы между соседними звуками. 7.3.2. Абсолютное опознавание слогов Исследованию восприятия изолированных слогов посвящено значительное количество работ. Основные усилия были направ- лены на выявление акустических особенностей, существенных для опознавания фонем. Главная задача состояла в том, чтобы определить влияние на восприятие каждого акустического фак- тора в отдельности, а также выяснить, как эти факторы влияют совместно. В большинстве работ отмечается большое влияние акустического окружения на восприятие, т. е. отмечается, что восприятие той или иной фонемы зависит от соседних фонем. Среди ведущих исполнителей в этой работе была группа Лабораторий Хаскинс. Многочисленные эксперименты по фор- мированию синтетических слогов производились с помощью устройства для воспроизведения звуков речи по спектрограм- мам. Принцип действия этого аппарата описан в гл. VI (см. рис. 6.6). Устройство синтезирует звуки по сигналам, получае- мым при считывании спектрограмм в координатах «время—ча- стота — интенсивность». Поясним идею экспериментов на примере испытания иденти- фикации согласных в слогах типа «согласная — гласная». Вы- бирались либо сонорные согласные, либо глухие взрывные. Для глухих согласных (например, /р, t, к/) одним из параметров, по- зволяющих слушателям дифференцировать звуки, является по- ложение по частотной шкале короткой вспышки шума, опреде- ляющей артикуляторную смычку. Для изоляции этой частотной особенности и определения ее роли при восприятии синтезиро- вались показанные на рис. 7.9в упрощенные слоги типа «смыч- ка — гласная» (Купер, Делатр, Либерман, Борст и Герстман— Cooper, Delattre, Liberman, Borst and Gerstman). Вспышки шума (маленький вертикальный эллипс на рис. 7.9в) характеризова- лись постоянными шириной спектра и длительностью, а гласные были двухформантными, стационарными на протяжении слога. Сочетания вспышек шума и формант гласных, показанных на рис. 7.9а и б соответственно, составляли ансамбль испытатель- ных образцов. Изолированные слоги предлагались слушателям, определя- ющим, какая из первоначальных согласных /р, t или к/ вос- принимается. Оценки опознаваемости, как функции положения вспышек шума и вида гласных, показаны на рис. 7.10. Зашт- рихованные контуры соответствуют границам приблизительно одинаковых в процентном отношении оценок, а тонкие контуры 10*
92 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ Рис. 7.9. Испытательные образцы для определения влияния спектра шума вспышки на восприятие глухих взрывных консонант: а) положение спектров вспышек шума; б) формантные частоты двухформантных гласных; в) один из синтетических слогов типа «согласная—гласная», сформированных сочетанием вспышки шума с двухформантной гласной (Купер, Делатр, Либерман, Борст и Герстман) 4320 3960 I- 2880 1440 1080 720 360 О 3600 3240 * 2529 | 2160 « 1800 Рис. 7.10. Оценка опознавания на слух синтетических слогов типа «согласная—гласная», показанных на рис. 7.9 (Купер и др.)
АБСОЛЮТНОЕ РАЗЛИЧЕНИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ 293 являются границами зон более высоких оценок. Для этого ча- стного набора слогов соответствующий выбор лишь одной ча- стоты (именно частоты шума вспышки) оказался достаточным для различения- трех согласных. Высокочастотная вспышка вос- принимается как /t/ в сочетании с любой гласной. Идентифика- ция /р/ и /к/ зависит не только от спектра вспышки, но и от по- следующей гласной. Вспышки на уровне второй форманты или чуть выше воспринимаются как /к/. В других случаях слышится /р/. Отсюда последовал вывод, что особенности восприятия этих образцов и, пожалуй, их эквивалентов в разговорной речи ха- рактеризуют сочетание согласная — гласная (т. е. слог) как минимальную акустическую единицу. При отсутствии информа- ции о последующей гласной восприятие согласных может быть неоднозначным. Следующим важным фактором для восприятия взрывных согласных является формантный переход к гласной после рас- крытия емычки. Возникает вопрос, как этот и ранее упомяну- тый фактор (положение спектра вспышки) влияют изолирован- но и в сочетании друг с другом. Были проведены опыты по фор- мированию тех же слогов с взрывными согласными и гласными, однако при этом исключалась вспышка шума, а имитация согласной осуществлялась только переходом второй фор- манты. Ансамбль испытанных пе- реходов показан на рис. 7.11. Номера переходов N в диапа- зоне от —4 до +6 обозначают начальную частоту второй форманты. Для определения этой частоты в герцах следует пользоваться формулой f= =[F2+N (120)], гц, где Д2 — стационарная частота второй форманты двухформантных гласных, изображенных на рис. 7.9'). Частота первой форманты поддерживалась по- стоянной на уровне, показанном на том же рисунке. Частота ОТ была также фиксирована и равнялась 120 гц. Длительность Рис. 7.11. Траектории второй фор- манты при испытаниях влияния фор- мантных переходов на восприятие глухих взрывных консонант (Купер и др.) Г (120\1 /и/. Здесь f= — 1 !) Исключением является случай отрицательного перехода F2 для глас- ных /о/ и Герсгман). (ом. Либерман, Делатр, Купер и
294 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ переходов для диапазона Af в пределах ±1 составляла 40 мсек и для У=6 около 80 мсек. Длительность промежуточных диапа- зонов устанавливалась пропорционально номеру. Форма траекто- рий переходов не 1регламентировалась, однако принимались меры для приближения их к соответствующим переходам в спектро- граммах естественной речи. По опыту авторов вариации дли- тельности и формы траектории переходов не приводят к заме- не звучания одной взрывной согласной другой. Усредненные оценки опознавания звуков /р, t, к/ по пере- ходам для семи различных гласных по показаниям 33 слуша- телей даны на рис. 7.12. Высота затемненных прямоугольников определяется 25-процентными границами интегральной величи- ны оценок. Как видно из этих результатов, переход второй фор- манты является существенным фактором при различении зву- ков /р, t, к/. Рис. 7.12. Средние оценки показаний 33 слушателей для слогов типа «взрывная согласная—гласная», синтези- рованных в соответствии с диаграммами, показанными на рис. 7.11. Заштрихованные столбики лежат в гра- ницах, за которыми остается 25% оценок (Купер н др.) Продолжая исследования в этом направлении, авторы на- шли, что вторая форманта существенно влияет на восприятие также родственных сонорных согласных /Ь, d, g/. Сонорные и несонорные родственные звуки различаются по переходу пер- вой форманты и наличию или отсутствию голосового возбужде- ния. Если подобным же образом формировать слоги типа «глас- ная — назальная согласная», но переход первой форманты осу- ществить в конце гласной и дополнить модель фиксированным назальным резонатором, то второй формантный переход, позво-
АБСОЛЮТНОЕ РАЗЛИЧЕНИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ 295 ляющий различать /р, t, к/ и /Ь, d, g/, служит также для разли- чения /т, п, г|/ (Либерман, Делатр, Купер и Герстман). Сделаем некоторые дополнительные замечания относительно восприятия слогов типа «взрывная глухая согласная — глас- ная». Обе серии результатов показывают индивидуальный вклад как вспышек шума в стадии раскрытия смычки, так и формант- ного перехода в последующей стадии формирования гласной. Однако остается невыясненным, как эти факторы сочетаются и взаимно связаны друг с другом. Можно ожидать, что при сов- местном действии обоих факторов, надежность опознавания по- высится и что они дополняют друг друга. При слабом действии одного фактора сильнее может сказываться другой. В некоторых слогах могут оказаться недостаточными оба эти фактора, и весь- ма существенным станет иной фактор, например третий фор- мантный переход. Зависимость восприятия согласных от типа последующих гласных наводит авторов на мысль, что акустическими едини- цами для слухового восприятия могут служить отрезки длитель- ностью слога или полуслога '). Однако взаимнооднозначного со- ответствия между звуками и фонемами не найдено, и в слитной речи нет фонем в свободной форме. Следовательно, нет надеж- ды найти для всех случаев акустические инварианты индивиду- альных фонем 1 2). Описанные выше эксперименты относились к звукам, вос- производимым по упрощенным спектрограммам с применением частного типа синтезатора. Подобные же эксперименты прово- дились и с другими видами синтезаторов. Задача состояла в том, чтобы проверить их адекватность с точки зрения восприятия, а также выяснить влияние других акустических факторов на опознавание. В одном из подобных экспериментов синтезирова- лись изолированные фрикативные, а также слоги типа «фрика- тивный — гласный» (Гейнц и Стивенс — Heinz and Stevens). Фрикативные согласные формировались путем фильтрации шу- ма электрической цепью с одним нулем и полюсом. Частота ну- ля поддерживалась всегда на октаву ниже частоты полюса. Целью эксперимента было выяснение возможности опознавания фрикативных согласных при таком идеализированном представ- лении спектра, а также стремление установить расположение нулей и полюсов для тех или иных оценок опознаваемо- сти. По данным гл. III спектральные диаграммы фрикативных 1) Эта и другие точки зрения обсуждаются ниже, в п. 7.5. 2) На этом основании, по-видимому, ие следует считать безнадежной задачу распознавання фонем, решение которой должно состоять в примене- нии алгоритма перехода от звукосочетаний (слогов), распознаваемых по аку- стическим признакам, к фонемам (прям. ред.).
296 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ Рис. 7.13. Оценки опознаваемости на слух при абсолютной идентификации синтетиче- ских фрикативных, сформированных путем фильтрации шума с одним нулем и полю- сом. Частота полюса определяется абсцис- сой, а частота нуля приблизительно на ок- таву ниже (Гейнц и Стивенс) синтетическими фрикативными при всегда содержат несколько нулей и полюсов. Однако, как сле- дует из н. 7.2.8, многие из этих особых точек не существенны для восприятия. В одном из опытов синтезировались и испытывались изоли- рованные согласные. Частоты и полюсы нулей и полюсов меня- лись в широких пределах. Опознавание проводилось для ансамб- ля, состоящего из пяти фонем: / /, С, s, 0 и f/. Длительность син- тетических звуков составляла 200 мсек. Результаты опыта пока- зывают, что изменение- ширины полосы резона- торов в пределах, соот- ветствующих значениям добротностей Q от 5 до 10, не приводит к суще- ственным изменениям оценок опознаваемости. Однако изменение резо- нансной' частоты сущест- венно отражается на оценках. Этот эффект ил- люстрируется графиком зависимости процента пра- вильно опознанных зву- ков от резонансной часто- ты (рис. 7.13). Оценки опознаваемости Д/ и /0/ объединены. Для формирования слогов типа «согласная— гласная» с теми же менялся синтезирующий четырехполюсник. Во всех случаях гласным звуком был /а/. Упрощенные спектрограммы синтезированных слогов пока- заны на рис. 7.14. Сигналы, управляющие синтезирующим четы- рехполюсником, показаны графически в нижней части рис. 7.14. Первые два графика описывают закон нарастания и спадания интенсивности шумов (турбулентного) и импульсного (сонорно- го) возбуждения. Третий график показывает траекторию фор- мантных переходов. Переход /д для гласных всегда начинался от 200 гц. Первоначальное значение Fz составляло 900, 1700 или 2400 гц. Резонансная частота фрикативных устанавливалась на 2500, 3500, 5000, 6500 и 8000 гц. Слушатели должны были опо- знать начальную консонанту среди возможных Д, 0, s или//. Оценки опознаваемости согласных как функции резонанс- ной частоты фрикативных и типа перехода второй форманты
АБСОЛЮТНОЕ РАЗЛИЧЕНИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ 297 приведены на рис. 7.15. Представленные о^и^глас- вуют значениям отношения интенсивностей ной: -5 дб и -25 дб. Обозначены ДО а КОНТУР3 °*б’_ ласть, ограниченная пунктирной линией, соотве УР “ ному опознаванию более чем 90% звуков, н » < -7Г-П/ гг , значении отношения интен- еи — более 75%. Данные для двух значен относи- сивностей согласной и гласной подчеркиваю /о/ и /f/ в меньшей степени тельных уровнен при восприятии /9/ «- фрикативная /f/ от. /s/. Приведенные оценки показывают, ни гласной На- /пу пАПРХода г.2 в гласной, па- личается от /0/ в основном за счет перелив _____ обооот, формантный пере- ход" почти не влияет на раз- личение /s/ и /]*/. Здесь _______।_______। х____।_______।______ 0 100 200 , 300 W 500 Время, мсек Рис. 7-14. Упрощенные спектрограммы синтетических слогов типа «фрикатив- ная согласная—гласная». Частота ре- зонанса фрикативной согласной обозна- чена Ff. Четырехформантная гласная является приближением /а/. Три ниж- них графика показывают изменение во .времени интенсивности возбуждения и положения формантных частот (Гейнц и Стивенс) большую роль играет резо- нансная частота фрикатив- ной. Подобное исследова- ние, очень похожее по ме- тодике и цели на описанное Рис. 7.15. Абсолютная опознавае- мость .начальных согласных в синтетических слогах, схематиче- ски показанных на рис. 7.14. Гра- ницы областей оценок соответст- вуют опознаваемости 90 и 75% звуков. Приведенные данные соот- ветствуют разностям уровней ин- тенсивностей согласной и гласной __5 и —25 дб (Гейнц и Стивенс)
298 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ выше, проведено для фрикативных согласных японского языка' (Наката — Nakata, 1960). В других, во многом аналогичных, экспериментах изуча- лись формантные переходы с применением синтезатора с рас- пределенными параметрами (Стивенс и Хаус — Stevens and' House, 1956). Результаты показывают, что положение F2 в низ- кочастотной области (1000 гц и ниже), как правило, связано с билабиальными или лабиодентальными артикуляторными кон- фигурациями. Положение F2 в среднечастотной области (1500ч- -=-2000 гц) ассоциируются с альвеолярными, а выше 2000 гц — с палатальными конфигурациями. Несколько иной подход к синтезу и восприятию может быть показан на примере формирования слитной речи из отдельных синтетических сегментов с неизменными спектрами (Коэн и’ ’ТАрт — Cohen and ’Т Hart). Продолжительность сегмента бы- ла порядка фонемы, причем следовали они с заранее опреде- ленными временами нарастания, спада и длительностью. На основе полученных результатов сделан вывод, что при соот- ветствующем выборе временных параметров можно пренебречь, многими деталями формантной структуры, которые обычно считались первостепенными. Известно, что ухо является анали- затором мгновенного спектра (см. гл. V), непрерывно следя- щим за вариациями как по частоте, так и по интенсивности. Сторонники точки зрения «временных параметров» имеют в ви- ду соотношения эквивалентности информации о спектре и о деталях временной структуры. Такая эквивалентность дейст- вительно существует, но диапазон ее применимости должен.’ быть ограничен. Высококачественную, разборчивую речь вряд ли можно систематически синтезировать без учета спектраль- ных переходов между сегментами длиной в фонему. 7.3.3. Влияние обучения и лингвистических ассоциаций на абсолютную опознаваемость речеподобных сигналов Выше упоминалось, что применение классических психофи- зических данных к опознаванию речи наталкивается, по край- ней мере, на два ограничения. Во-первых, классические измере- ния обычно касаются лишь дифференциальной различимости. Во-вторых, они, как правило, проводятся для одного параметра образца. Речь же является многомерным сигналом. Единицы ее восприятия, если они существуют (а они, вероятно, различны в зависимости от цели опознавания), по-видимому, опознаются абсолютно. Имеются сведения, по крайней мере, об одной по- пытке экспериментально оценить роль обучения и лингвистиче- ских ассоциаций для абсолютного опознавания. Испытания
АБСОЛЮТНОЕ РАЗЛИЧЕНИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ 299 проводились для нескольких координат сложных речеподоб- ных звуков (Хаус, Стивенс, Сандел и Арнолд — House, Ste- vens, Sandel and Arnold). Применялись четыре группы образцов (А, В, С и D), в раз- ной степени приближавшихся к звукам речи. Образцы каж- дой группы делились на подгруппы. Сигналы каждой подгруп- пы квантовались по заданному числу координат, причем коли- чество информации, приходящееся на один сигнал, составляло 3 де. ед. Например, сигналы группы А получались фильтраци- ей случайного шума с помощью одиночного резонансного кон- тура. Они квантовались по координатам время—интенсив- ность—частота. Образцы подгруппы At квантовались по одной координате соответственно восьми позициям резонансной ча- стоты контура, которая менялась в пределах от 500 до 5000 гц. Соответствующие значения полосы пропускания находились в пределах от 300 до 3120 гц. Интенсивность и длительность (300 мсек) были фиксированными. В отличие от Аь образцы группы А? квантовалцсь соответственно двум возможным поло- жениям максимума спектра шума по оси частот (820 или 3070 гц), двум значениям длительности (150 или 450 мсек). В осталь- ных подгруппах (от А2 до А6) применялось различное сочета- ние координат с квантованием в диапазоне, ограниченном упо- мянутыми предельными значениями. Образцы В были также элементарными сигналами, свой- ства которых в большей степени приближались к свойствам речевых сигналов. Их временные и спектральные характеристи- ки подобны соответствующим характеристикам слогов типа «гласная—согласная». Гласная имитировалась возбуждением одиночного резонансного контура импульсами частотой 125 гц. Резонансная частота была равной 300 гц, а полоса пропуска- ния— 60 гц. Согласная формировалась также фильтрацией бе- лого шума одиночным контуром. Сигналы В квантовались по координатам: резонансная частота и ширина полосы пропуска- ния контура при фильтрации шума (диапазон частот 500-г- 5000 гц, пределы изменения ширины полосы — от 100 до 1000 гц)-, интенсивность шума (±14 дб)-, длительность паузы между гласной и согласной (от 10 до 180 мсек). Общая дли- тельность всегда была равной 350 мсек. Как и в группе А, квантование для В\ осуществлялось по одной координате соот- ветственно восьми значениям частоты при фиксированных ин- тенсивности и длительности, а для В7 — по трем координатам (два значения частоты, два значения интенсивности и два зна- чения длительности паузы). Образцы группы С конструировались еще более подобными речевым сигналам. Многие их характеристики вполне
300 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ приемлемы для звукосочетаний синтетической речи. Подобно Вх образцы С представляли собой слоги типа «гласная—соглас- ная», но, в отличие от В, гласные формировались с помощью- четырех резонаторов, настроенных на фиксированные частоты 500, 1500, 2500 и 3350 гц. Полосы пропускания примерно соот- ветствовали характеристикам естественных гласных. Первая форманта была с падающим переходом вплоть до паузы анало- гично переходу от гласной к согласной в естественной речи. Часть, относящаяся к согласной, формировалась фильтрацией шума с одним нулем и одним полюсом. Фильтрующая цепь- подобна цепи, описанной в предыдущем параграфе для синтеза фрикативных согласных (Гейнц и Стивенс—Heinz and Ste- vens). Частота основного тона при формировании гласных ме- нялась от 120 до 150 гц. Система координат и варьируемые- параметры такие же, как и в сигналах типа В. В подгруппе Ct резонансная частота для согласных менялась от 500 до 5000 гц восемью ступенями. Длительность гласной равна 250 мсек, паузы — 50 мсек и согласной — 100 мсек, так что общая длительность всегда оставалась равной 400 мсек. В подгруппе- С7 имелись два значения по каждой координате: частоте резо- нанса, интенсивности, длительности паузы. Образцы D были односложными звукосочетаниями естест- венной речи, произносимыми одним диктором. Они составляли единственную подгруппу в трехмерной системе координат. Из двух гласных /I/, /Л/ и четырех согласных /f, s, р, t/ составля- лось восемь слогов. Четыре из них были односложными англий- скими словами, а остальные слоги смысла не имели. В процес- се испытаний образцы представлялись изолированно по одно- му. Операторы-слушатели должны были каждому образцу со- поставить одну из восьми необозначенных кнопок на панели ответов. После того как оператор делал выбор, зажигалась, одна из восьми лампочек, обозначая кнопку правильного от- вета, с которой ассоциируется образец. Затем представляется следующее звукосочетание. Относительно скорости никаких требований не предъявлялось. Результаты показывают рост вероятности правильного от- вета в ходе обучения. На рис. 7.16 показаны усредненные дан- ные для 12 операторов, соответствующие образцам, квантован- ным по одной координате — частоте. Каждая испытательная серия состояла из 16 следующих друг за другом в случайном порядке образцов данного восьмикомпонентного ансамбля. Оценки для трехкоординатных образцов представлены на рис. 7.17. Эти две серии результатов показывают, что на трех- координатных образцах обучение завершается быстрее, чем на од- нокоординатных. Среди трехкоординатных образцов быстрейшее
АБСОЛЮТНОЕ РАЗЛИЧЕНИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ 301 обучение достигается на звукосочетаниях естественной речи (D7). На следующем месте по скорости обучения стоят речеподобные искусственные сигналы А7. Результаты позволяют сделать два вывода. Во-первых, обучение более эффективно для образцов, квантованных по нескольким физическим координатам, по срав- нению с находящимися в одномерном континууме. Во-вторых, по мере приближения характеристик образцов к характеристи- кам речи наблюдается снижение эффективности процесса обу- чения. Исключением являются сами образцы естественной речи! Рис. 7.16. Усредненная вероятность пра- вильного ответа для образцов, квантован- ных по одной координате—частоте (Хаус, Стивенс, Сандел и Арнолд) Последний, несколько странный, результат объясняется тем, что ни один из ансамблей образцов Л, В и С не является до- g статочно подобным речи, что- бы МОГЛИ проявиться ЛИНГ- о, вистические ассоциации. Сле-1 довательно, процесс их иден-°§ тификации отличен от про- g цесса идентификации об- ~ разцов речи. Звуки естест- венной речи подразделяют- ся слушателями на катего- | рии весьма видимому, образцов D влекают ассоциации. и С, /,17 0,6 ол - Трехмерные образцы ОЯ7 •В7 *07 D7 § § п О успешно, и, по- и,а при различении^ операторы при- лингвистические Сигналы А, В лишенные лингвисти- ческих ассоциаций, разли- чаются на основе «естест- 0 A 6* 7 8 НоМРо аспЫтапТРльнби. сёрйЬ. Рис. 7.17. Усредненная вероятность пра- вильного ответа для образцов, кванто- ванных по трем координатам: время, частота, интенсивность (Хаус, Стивенс, Сандел, Арнолд)
302 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ венной» для восприятия системы координат, т. е. по громкости, основному тону и длительности. Различение по этим основным координатам оказывается наиболее четким для образцов А. Сигналы В и С не вполне подходят для такой системы коорди- нат, поскольку в их составе имеется фиксированный начальный сегмент, соответствующий гласной. Такая интерпретация результатов согласуется с предполо- жением о существовании речеподобного континуума. Сигналы могут быть в той или иной степени подобными речи с физи- ческой точки зрения, однако при субъективном восприятии они четко делятся на две категории. Воспринимаемые звуки либо ас- социируются с лингвистическими образами, либо нет. В опи- санном эксперименте ни один из синтетических звуков не ассо- циировался с лингвистическими категориями. Для лингвистиче- ского подхода характерна тенденция определять категорию сигнала на основе координат, устанавливаемых структурой языка. Восприятие сигналов как лингвистических единиц в сильной степени определяется процессами, происходящими в центральной нервной системе. Мелкие детали сигнала, воздей- ствующие на периферические органы слуха, не являются перво- степенно важными. Для нелингвистических сигналов характер- на тенденция сопоставлять их по естественным психологиче- ским параметрам. Вероятно, их различение требует меньшего, по сравнению с восприятием речи, участия центральной нерв- ной системы. 7.3.4. Влияние лингвистических ассоциаций на дифференциальную различимость } На основании лингвистического обучения и опыта слушате- лей вырабатывается способность весьма четкого деления рече- вых сигналов на категории. В эксперименте, описанном в пре- дыдущем параграфе, с образцами Ь7 у слушателей связыва- лись лингвистические ассоциации. Для других образцов они не возникали, либо потому, что сигналы были слишком далеки- ми от речи, либо потому, что внимание слушателей не при- влекалось к подобным ассоциациям соответствующими инст- рукциями. В результате возникает еще один вопрос. Предположим, что лингвистические ассоциации существуют. Будет ли их влияние отражаться на дифференциальной различимости? Другими словами, сказывается ли способность различения, приобретае- мая из лингвистического опыта, на результатах более класси- ческих дифференциальных сравнений? Имеется, по крайней ме-
АБСОЛЮТНОЕ РАЗЛИЧЕНИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ 303 ре, один эксперимент, позволяющий дать утвердительный от- вет (Либерман, Харрис, Гоффман и Гриффитс — Liberman, Har- ris, Hoffman and Griffits). Этот эксперимент показывает, что дифференциальная различимость формантных переходов в син- тетических слогах речи обостряется, если их траектории совпа- дают с границами фонем. Слоги типа «согласная—гласная» синтезировались аппара- том для воспроизведения спектрограмм, описанным в разде- ле 6.2.1. Использовались две форманты, и в качестве гласной всегда выбиралось /е/ (Fi = 360 гц, Г2 = 2160 гц). Согласные имитировались различными двухформантными переходами, аппроксимирующими /Ь, d и g/. Применяемый набор синтети- ческих слогов показан на рис. 7.18. Положительный переход Рис. 7.18. Синтетические двухформантные слоги с формантными переходами, соответствующими диапазону сонорных согласных /Ь, d, g/. Во всех слогах использовалась одинаковая гласная /е/ (Либерман, Харрис, Хоффман и Гриффитс) первой форманты необходим для придания звонкости. Он оста- вался одинаковым для всех слогов. Вариации второй форманты осуществлялись в широком диапазоне как отрицательных, так и положительных переходов. Все слоги были одинаковыми по длительности (300 мсек). Проведены два испытания. В одном из них образцы пред- ставлялись изолированно, а цель состояла в абсолютном опо- знавании согласных. Разрешенными ответами были /Ь, d и g/. В другом опыте образцы звучали в сочетаниях АВХ, где А и В — различные слоги набора, показанного на рис. 7.18. Они от- личались друг от друга на одну, две или три ступени, прону- мерованные на рис. 7.18. Звук X совпадал либо с А, либо с В. Слушатели, ориентируясь на любые признаки, должны были дать заключение, какому из звуков, А или В, был подобен X. Таким образом, в этом последнем опыте определялась мера относительной различимости на любом интервале континуума, определяемом образцами рис. 7.18. Наилучшие результаты опознавания, показанные одним слушателем, приведены на рис. 7.19. Результаты, пока- занные тем же слушателем в испытаниях по схеме АВХ.
304 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ для случая, когда А и В отли- чались на 2 интервала (т. е. номер образца В на две еди- ницы больше номера А по рис. 7.18), показаны на рис. 7.20. Сравнение результатов показывает четкое снижение дифференциальной различи- мости формантных переходов в образцах, попадающих в диа- пазон оценок /Ь/ и /d/. Соответ- ствующего снижения для диа- пазона /g/, как видно, не по- лучилось. Максимумы и мини- мумы в оценках других слу- шателей, принимавших участие в эксперименте, не столь чет- ко выражены, однако все же подобные вариации прояв- ляются. При грубой трактовке вопроса о дифференциальной раз- личимости обычно высказывается предположение, что слуша- тели могут различать настолько хорошо, насколько хорошо они опознают. Это положение дает возможность предсказать относительные вариации в различимости, однако оно недооце- нивает абсолютный уровень различимости. Разность может представлять так называемое поле истинного различения, т. е. способность слушателей различать звуки речи не исключитель- но по категориям фонем, а более непосредственно, по акусти- ческим признакам. Рис. 7.19. Абсолютная «иденти- фикация согласных по данным од- ного слушателя для образцов, по- казанных на рис. 7.18 (Либер- ман и др.) -2.У I I I I 1 I_________|___I 1.1_____|___L 2 ❖ 6 8 10 '12 Номер образца, типа. А Рис. 7.20. Оценки образцов АВХ по данным слушателя, абсолютные оцен- ки которого показаны на рис. 7.19. Образцы А и В отличаются иа два интервала согласно нумерации, при- нятой на рис. 7Л8 (Либерман н др.)
АБСОЛЮТНОЕ РАЗЛИЧЕНИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ 305 Высказывалось предположение, что эти отклонения в спо- собности различения не являются врожденным свойством чело- века. В различных языках границы фонем расположены в раз- личных областях. Приобретенная способность различения еще сильнее проявляется в том, что у лиц, говорящих на других языках, обнаруживается максимум дифференциальной чувст- вительности в области континуума, соответствующей их родно- му языку. Решающим фактором в этом эксперименте является степень устранения лингвистических ассоциаций в образцах1). Можно ожидать, что из-за отсутствия возможности разделения по категориям дифференциальная различимость будет моно- тонной для континуума образцов. Для подтверждения этой последней точки зрения подобные же эксперименты проводились на синтетических гласных зву- ках (Либерман, Купер, Харрис и Макнейледж — Liberman, Coo- per, Harris and Mac-Neilage). Повышения различимости на гра- ницах фонем не обнаружено. Кроме того, оценки дифферен- циальной различимости оказались намного выше предсказывае- мых на основе гипотезы о том, что слушатели могут различать настолько хорошо, насколько хорошо они опознают. Другими словами, оказалось, что слушатели отличают много различий в пределах одной фонемы. Отсюда следует вывод, что восприя- тие гласных является континуальным и классификация по ка- тегориям, как в случае взрывных согласных, здесь нехарак- терна. В последующих экспериментах по различению других фонетических признаков (продолжительности гласных и высо- ты тона для языка Таи) обострения чувствительности на гра- ницах фонем также не обнаружено (Либерман, Купер, Харрис и Макнейледж). 7.4. Влияние контекста и словаря на восприятие речи Точность слухового опознавания элементов речи сущест- венно зависит от объема словаря и последовательных или кон- текстуальных ограничений, существующих в сообщении. Про- цент правильных оценок выше для предвиденного сообщения. ’) Более определенными являются результаты предыдущего параграфа, где синтетические слоги, очевидно, не вызывают никаких лингвистических ассоциаций.
306 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ Это объясняется либо большей вероятностью появления, либо наличием условных вероятностей, связанных с лингвистиче- ской или контекстуальной структурой. Влияние этих факторов очевидно из результатов измерения разборчивости различных видов разговорного материала. Рисунок 7.21 является иллюст- рацией эффекта маскировки речи при различном уровне шума (Миллер, Хайзе и Лихтен —Miller, Heise and Lichten). Использовались три ти- па испытательного материа- ла. Испытания разборчиво- сти проводились с одной и той же артикуляционной бригадой и одинаковой эк- спериментальной аппарату- рой. Первый тип материала представлял собой произно- симые цифры от нуля до девяти, второй — закончен- ные предложения, причем разборчивость определялась для ключевых слов. В каче- стве третьего материала выбраны бессодержатель- ные слоги, которые записы- Рис. 7.21. Разборчивость различного по содержанию материала в функции от- ношения сигнал/шум (Миллер, Хайз и Лихтен) вались сокращенными фо- нетическими знаками. Как видно из рис. 7.21, для правильного опознавания 50% образцов требуется соотношение сигнал/шум —14 дб в случае цифр, —4 дб — для слов в предложении и + 3 дб — для бессодержательных слогов. Различение в условиях небольшого числа возможностей, очевидно, лучше, чем при большом выборе. Последовательные ограничения, существую- щие в предложениях, безусловно, приводят к повышению раз- борчивости по сравнению с бессодержательным материалом. Детально исследовано также влияние объема словаря. Арти- куляционные испытания проводились с набором из 2, 4, 8, 16, 92, 256 односложных слов либо с неограниченным набором. Если словарь ограничивался, слушателям сообщали о возможных альтернативах для выбора. Результаты испытаний разборчиво- сти (рис. 7.22) показывают, что по мере увеличения объема словаря соотношение сигнал/шум, необходимое для поддержа- ния неизменной разборчивости, также должно увеличиваться. На предсказываемость, а следовательно и на разборчивость речи оказывают влияние также семантические и синтаксические ограничения. Грамматические правила языка заранее устанав- ливают допустимую последовательность слов. Семантические
ВЛИЯНИЕ КОНТЕКСТА И СЛОВАРЯ НА ВОСПРИЯТИЕ 307 факторы накладывают ограничения на те слова, которые выби- раются для формирования смыслового содержания. Экспери- менты показывают, что в грамматически правильных, содержа- ние. 7.22. Влияние объема словаря на раз- борчивость односложных слов (Миллер, Ханз и Лнхтен) тельных предложениях словесная разборчивость выше, чем в том случае, когда те же слова представляются в случайной последовательности изолированно друг от друга (Миллер, Хайзе и Лихтен). Контекст предложения уменьшает количество допу- стимых для выбора слов, и с этим уменьшением, по крайней мере частично, связано повышение разборчивости. Однако уменьшение количества альтернатив не является единственным фактором. Экспериментально сравнивалась раз- борчивость слов в грамматически правильных, осмысленных предложениях и в неправильных с точки зрения грамматики псевдопредложениях (Миллер, 1962). Псевдопредложения кон- струировались так, что количество возможных для выбора слов было точно таким же, как и в грамматически правильных пред- ложениях. При наличии грамматически правильной структуры слушатель, по-видимому, воспринимает в целом фразы или еще более продолжительные отрезки речи. Он может повреме- нить с принятием решения о каждом услышанном слове. В кон- струкциях, не удовлетворяющих требованиям грамматики, по- добная обработка исключается. Здесь должны восприниматься более короткие отрезки. Несколько иной взгляд на контекст возникает в связи с аку- стическим окружением. Многие процессы восприятия основаны скорее на относительных, чем на абсолютных оценках физиче- ских свойств. Иными словами, физическое окружение устанав- ливает границы выборок в операции декодирования. Можно со-
308 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ слаться на простой пример вариаций основного тона в выраже- ниях. Относительные изменения или отклонения, вероятно, бо- лее значимы для восприятия, чем абсолютное число колебаний в секунду. Подобные акустические соотношения демонстрировались на примере синтетической речи. Можно показать, что на опозна- вание одного и того же односложного слова сильно влияют границы континуума время — частота —• интенсивность, в ко- тором помещено это слово (Лейдфоугед и Бродбент — Lade- foged and Broadbent). К примеру, один из гласных формировал- ся как центральный элемент синтетического слова /Ь—t/. Это слово вставлялось в синтетические предложения с различными относительными распределениями формантных частот. В зави- симости от акустических соотношений, устанавливаемых фор- мантными распределениями в остальных частях предложения, физически одно и то же синтетическое слово воспринималось по- разному: bit, bet или bat. 7.5. Единицы восприятия речи Приведенные выше данные показывают, что восприятие ре- чи является адаптивным процессом, в котором, по всей вероят- ности, процедура обнаружения подчинена выделению сигнала и цели слушания. Если слушатель сможет выявить лингвистиче- ские закономерности в звуках, то он будет в состоянии исполь- зовать накапливающуюся во времени информацию для приня- тия решения о том или ином звуковом элементе. Если таких за- кономерностей не обнаруживается, процесс принятия решения в большей степени основывается на акустических факторах дан- ного момента. Происходят сравнение и выбор наиболее прием- лемого эталона. Мысль о том, что слушатель использует информацию, рас- пределенную во времени, вызывает вопрос о размерах времен- ных «частиц» восприятия речи. Весьма вероятно, что размеры элементов восприятия меняются в зависимости от цели разли- чения и слушатель регулирует скорость обработки в зависимо- сти от типа речевой информации. Например, если фонетическая информация мгновенно предсказывается, он может больше вни- мания уделить просодической информации. При различении не- речевых или нелингвистических образцов процесс восприятия может существенно отличаться. Однако в любом случае информация проходит через один и тот же сенсорный преобра- зователь. Как упоминалось выше, дифференциальная различи- мость «классических» психоакустических сигналов, по-видимо-
ЕДИНИЦЫ ВОСПРИЯТИЯ РЕЧИ 30» му, отражает фундаментальные ограничения самого преобразо- вателя и периферических органов, в то время как различение лингвистически связанных образцов, вероятно, отражает харак- теристики памяти и процесса переработки информации в цен- тральной нервной системе. Можно предполагать, что при опознавании речи требуется абсолютная идентификация звуковых элементов. Однако разли- чимость некоторых звуков связана не столько с акустическими или даже артикуляторными факторами, сколько является след- ствием лингвистического опыта. Превосходная различимость элементов связной речи может существенно снизиться или вовсе потеряется в условиях изоляции этих же элементов. Прежде всего это относится к назальным согласным, которые в связной речи несут большую функциональную нагрузку (см. табл. 1.1),. но плохо распознаются в изоляции (см. табл. 7.1, раздел 7.3.1). Определению единиц восприятия посвящено большое количе- ство работ, и в большей части экспериментов получились несов- падающие результаты. Причина заключается, вероятно, в боль- шом разнообразии проблемы восприятия: однозначного ответа на этот вопрос не существует. Примером одной крайности в тео- рии восприятия является, пожалуй, проблема «отображения» (Чистович, 1962). Этот подход имеет целью выяснение во- проса, начинает ли слушатель, едва услышав начало рече- вого звука, формировать предварительное решение с после- дующей коррекцией его по мере поступления дополнитель- ной информации или же он накапливает значительное количе- ство данных, а затем их интерпретирует. Ответ на вопрос ис- кался двумя путями. Во-первых, измерялось запаздывание ар- тикуляторных движений слушателя, который должен был как можно скорее повторять («отображать») слоги речи, услышан- ные в телефоне. Выбирались слоги либо типа «гласная — сог- ласная—гласная» (ГСГ), либо «согласная — гласная» (СГ). Во-вторых, измерялось запаздывание при записи от руки соглас- ных звуков услышанных слогов. Результаты показали, что при отображении голосом запаз- дывание для согласных в слогах ГСГ было от 100 до 120 мсек и в слогах СГ—от 150 до 200 мсек. В слогах ГСГ слушатель, по-видимому, предвидит согласную до того, как она полностью произносится, получая достаточно большое количество инфор- мации за счет формантного перехода первоначальной гласной. Вначале он часто ошибается, но к концу звучания согласной ошибка, как правило, исправляется. Поскольку испытуемый реа- гирует до того, как согласная будет принята целиком (и иногда дает оценки, совершенно неприсущие его языку), выдвигается гипотеза, согласно которой в процессе слухового восприятий
310 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ принимается ряд простых решений об артикуляторном проис- хождении акустического явления (т. е. является ли по своему происхождению воспринимаемый звук дентальным, сонорным, глухим, назальным и т. п.). По мере формирования звука реше- ния корректируются, и, наконец, накопляется совокупность при- знаков, образующих фонему. Отсюда делается вывод, что отоб- ражение представляет собой процесс «воссоздания фонемы» из простых решений об артикуляторных параметрах. Оказалось, что запаздывание письменных оценок почти такое же, как и для момента окончания отображения согласной, т. е. приблизительно равно интервалу между моментами окончания самой согласной и отображения. Поэтому можно сделать заключение, что напи- сание согласных тесно связано с их отображением. Сказать точно, насколько восприятие в этих условиях приб- лижается к восприятию слитной речи, трудно. Четкая интерпре- тация результатов возможна лишь в рамках поставленной зада- чи. Если условия изменить, то очень возможно, что в результате получатся другие значения длительности «единиц». В одном из описанных экспериментов проявляется противоположная край- ность в оценке единиц. Из этого эксперимента следует, что слу- шатели не только осознают в любой момент большие отрезки выражений, но фактически затрудняются при расчленении речи на короткие сегменты, даже если на это специально направлять их усилия (Лейдфоугед — Ladefoged). Произнесенное слово «dot» («точка») накладывалось на за- пись полного предложения. Слушателей просили заметить и точно указать момент в предложении, когда прозвучало нало- женное слово. Суждения, как правило, были весьма неточными, причем испытуемые зачастую утверждали, что наложенное сло- во прозвучало в предложении на два-три слова раньше, чем в действительности. Подобное поведение наводит на мысль о том, что механизм и временные интервалы обработки поступающей контекстуальной информации могут быть совершенно другими, чем в случае изолированных стимулов, даже если последние яв- ляются звуками речи. По-видимому, для слитной речи характер- ны сложные временные образы, которые воспринимаются в це- лом. Следовательно, единицами восприятия могут быть такие категории, как слоги, слова, фразы, а иногда даже предложения. В таком случае попытки объяснить восприятие с точки зрения опознавания элементарных сегментов не могут быть успешными. И, как следствие, усилия, направленные на построение машины для опознавания речи по элементарным акустическим единицам, приносят мало пользы, а может быть и вовсе тщетны. Выше упоминалось (см. раздел 7.3.3), что «естественные» ко- ординаты слуха включают такие субъективные атрибуты, как
АРТИКУЛЯЦИОННЫЙ МЕТОД ОЦЕНКИ КАЧЕСТВА ТРАКТА ЗЦ основной тон, громкость, временные образы, и что эти коорди- наты оказываются полезными при различении звуков, лишенных, лингвистических ассоциаций. Эти же координаты характерны и для сигналов слитной речи, однако в этом случае они прояв- ляются совершенно другим способом, например применитель- но к речеобразованию. Так, имеется некоторая уверенность в том, что громкость речи оценивается скорее по дыхательным усилиям, требуемым для получения необходимого давления пе- ред голосовой щелью, а не, скажем, по шкале громкости волны гармонических колебаний (Лейдфоугед). Если «моторная» те- ория восприятия речи верна, то надо полагать, что слу- шатели могут оценивать речевой сигнал как по моторной деятельности их образующего тракта, так и по другим акусти- ческим факторам, не подлежащим непосредственному мотор- ному контролю. Многие теоретики восприятия речи ссылаются на связь, су- ществующую между речеобразованием и восприятием. Но не- известно, насколько эта связь тесна. Если она достаточно тесна, то следует полагать, что воспринимаются не акустические, а «артикуляторные» элементы. При речеобразовании у человека проявляются, по крайней мере, три канала обратной связи: слу- ховая, дактильная и проприоцептивная1). Блокировка одного или двух каналов, очевидно, приводит к тому, что их функции, как правило, менее успешно выполняет оставшийся канал. Такие- признаки речи, как сонорность, назализация, характер основ- ного тона, вероятно, в большей степени контролируются слу- ховой обратной связью, в то время как движения губ и языка при артикуляции согласных скорее всего подконтрольны дак- тильному и проприоцептивному каналам. Если восприятие свя- зано с этими процессами, то некоторые свойства речи могут быть опознаваемы по акустическим факторам, а другие—путем обращения к процессу артикуляторной деятельности. 7.6. Артикуляционный метод оценки качества телефонных трактов Общепринятым методом оценки качества телефонной свя- зи является определение разборчивости речи путем подсчета- правильно принятых на слух дискретных речевых элементов. Для этого диктор читает таблицу слогов, слов или предложений, фразу, а группа слушателей записывает их. Процент правиль- но записанных выражений принимается в качестве меры раз- ’) Проприоцептивная связь—связь, по-видимому, основанная на ощуще- нии собственных артикуляторных движений (прим. ред.).
312 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ борчивости. Если испытательный материал правильно отражает звуковую статистику языка, то результаты испытаний являются реалистичной оценкой тракта передачи. Для этих целей разра- ботаны специальные фонетически сбалансированные таблицы слов (Эган—Egan) '). Методика проведения испытаний и изме- рений разборчивости описана во многих источниках, и здесь нет нужды на этом останавливаться (см., например, Беранек—Ва- ranek, 1954; Харрис (ред.) •— Harris, ed.; Ричардсон (ред.) — Richardson, ed.; * Покровский). Разборчивость является не абсолютной, а относительной ме- рой. Она зависит от многих параметров: испытательного мате- риала, состава артикуляционной бригады и степени ее трени- рованности, методики испытаний. Обычно более показательным является различие в разборчивости, полученное с одной и той же бригадой при одинаковой методике испытаний на однотип- ном материале. Разборчивость слогов и слов определяется процентом пра- вильно записанных выражений. Разборчивость предложений (фраз) может оцениваться ли- бо по критерию правильности передачи содержания, либо по критерию восприятия ключе- вых слов в предложении. Из- за контекстуальных ограниче- ний разборчивость предложе- ний обычно выше, чем разбор- чивость изолированных слов. Соотношение между обоими видами разборчивости отра- жено на рис. 7.23 (Эган). В этом случае критерием раз- борчивости предложений слу- Рис. 7.23. Соотношение между раз- жила правильность передачи борчивостью слов и предложений содержания. (Эган) Артикуляционные испытания обычно проводятся без регла- ментации скорости передачи. Наиболее удобная скорость пред- ставления табличных выражений подбирается так, чтобы оста- валось время для тщательного обдумывания каждого из них. Поскольку информационная емкость тракта передачи на практи- ) В американской литературе специально оговариваются случаи, изме- рений разборчивости, проводимые с применением фонетически сбалансиро- ванных таблиц (Р. В. Words). Русская методика измерений разборчивости и •артикуляционные таблицы описаны в книге (* Покровский) (прим, перев.).
РАСЧЕТ РАЗБОРЧИВОСТИ зв ке ограничена, для получения более реалистических оценок сле- дует предусмотреть допустимые ограничения по времени. На- чало исследований в этом направлении положено работой Д’Юстачио (D/Eustachio). При артикуляционных испытаниях обычно требуется, чтобы слушатели представляли письменный эквивалент услышанного. Качество или естественность сигнала при этом не оценивается. Методы количественной оценки качества речи до сих пор не ус- тановились главным образом потому, что физические признаки качества еще не раскрыты. Испытывались различные методы оценок по шкалам и категориям качества (Эган). Одна- ко общепринятой методики однозначной оценки качества речи и акустики до настоящего времени не существует. В одной из работ предлагалось считать узнаваемость диктора наиболее важным и поддающимся количественной оценке аспектом есте- ственности (Охиаи и Като—Ochiai and Kato; Охиаи, 1958). Результаты испытаний, проведенных в этом направлении, пока- зывают, что частотные искажения речевого сигнала влияют на точность узнавания диктора совершенно иначе, чем на опозна- вание фонем. Другим автором предлагалось оценивать каче- ство голоса по спектральному «остатку» после выполнения над сигналом операции обратной фильтрации с заданным количест- вом формант (Фуджимура—Fujimura). В этом случае свойства остатка в значительной степени будут определяться характери- стиками источника голосового возбуждения. 7.7. Расчет разборчивости по характеристикам тракта и уровню шума. Индекс артикуляции Получение устойчивых и надежных результатов в артику- ляционных испытаниях сопряжено со значительными затратами времени. Этого недостатка лишен метод оценки разборчивости по физическим характеристикам тракта передачи, например по амплитудно-частотной характеристике и уровню шума. При не- которых ограничениях этой цели может служить известная ме- тодика, основанная на использовании так называемого индекса артикуляции (Френч и Стейнберг—French and Steinberg). Для ускорения расчетов при практическом применении метода раз- работаны специальные графики и таблицы (Беранек, 1947, 1954; Крайтер—Kryter). Метод индекса артикуляции применим для оценки частного вида искажений в трактах, использующих обычный способ пе- редачи формы речевой волны. К этим искажениям относятся сравнительно гладкие неравномерности частотной характеристик
314 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ ки, ограничение полосы пропускания и маскировка передавае- мого сигнала аддитивным шумом со сплошным спектром. При некоторых условиях можно учесть интерференцию, вызванную прерывистым во времени шумом, а также нелинейные ампли- тудные искажения (ограничение по максимуму) и маскирующее действие реверберации. Однако этот метод неприменим к трак- там, в полосе пропускания которых имеются многочисленные всплески и провалы частотной характеристики, а также при ма- скирующем действии шума с прерывистым спектром, интермо- дуляционных и нелинейных искажениях. Непригоден этот метод и для оценки систем синтетической телефо- нии, в которых для пе- редачи речевой инфор- мации кодируется не сама речевая волна, а некоторые ее пара- метры. Методика расчета индекса артикуляции (ИА) подробно описа- на в литературе. Оста- новимся здесь на изло- жении основных прин- ципов, и вкратце на применимости и оцен- ке метода. Диаграмма для расчета индекса артикуляции приводит- ся на рис. 7.24 (Бера- нек — Вегапек, 1954). Сплошные линии обо- значают некоторые спектральные плотно- сти, представленные на специальной шкале ча- стот. Частотная шкала примерно соответству- ет тональной (в масш- табе мелов). По экспе- двадцать полос равной л 380 630 920 12301570 1820 237030003950 5600 Средние частотыравноарлшкуляционныл полос , зи Рис. 7.24. Диаграмма для расчета индекса артикуляции (Беранек). Общий уровень среднеквадратичного давления на расстоя- нии 1 м от источника речи равен 69 дб: 1 — пиковый уровень речи, 2 — средний уровень речи, 3 — минимальный уровень речи, 4 — порог ощущения Для звуков с непрерывным спектром риментальным данным она делится на артикуляции. Простейшая методика расчета индекса артикуляции состоит в следующем. Вначале изображенный на рис. 7.24 график спек- тра речи преобразуется по форме и по уровню в соответствии
РАСЧЕТ РАЗБОРЧИВОСТИ 31& с усилением и частотной характеристикой тракта передачи. За- тем наносится график спектра аддитивного маскирующего шу- ма. Если частотная характеристика системы и уровень шума таковы, что весь заштрихованный «диапазон речи» (между ми- нимальным и максимальным уровнями) лежит выше порога,. выше уровня маскирующего шума, но ниже уровня перегрузки, го разборчивость будет почти идеальной. В та- ких случаях индекс ар- тикуляции равен 100%. Если диапазон речи пере- крывается шумом, пере- секает порог или уровень перегрузки, индекс ар- тикуляции равен 100%. в процентном отноше- нии перекрываемой пло- щади. Полученную величину ИА необходимо пересчи- тать в величину разбор- чивости. Соотношения между этими величинами установлены эмпирически на основе артикуляцион- ных испытаний. Посколь- ку результаты артикуля- ционных испытаний не всегда однозначны и в сильной степени зависят от методики, получаемые абсолютные оценки раз- борчивости следует ис- пользовать и интерпрети- ровать с максимальной осторожностью. Обычно Рис. 7.25. Некоторые экспериментальные соотношения между индексом артикуляции и разборчивостью (Крайтер). Эти соотно- шения приближенные. Они зависят от ти- па материала, тренированности дикторов и слушателей: 1 — ограниченный словарь из 32 фонетически сба- лансированных слов, 2 — предложения, 3 — огра- ниченный словарь из 256 фонетически сбаланси- рованных слов, 4 — фонетически сбалансирован- ные слова (1000 различных слов), 5 — бессодер- жательные слоги (1000 различных слогов) более уместно рассматривать различие в разборчивости, полу- ченной при одинаковой методике испытаний. Эмпирические со- отношения между численными значениями разборчивости и ин- декса артикуляции для различных условий испытаний показаны на рис. 7.25 (Крайтер — Kryter) !). ') Более подробно об объективной методике расчета разборчивости в те- лефонных каналах см. Сапожков, * Покровский (прим. ред.).
316 ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ 7.8. Дополнительные сенсорные каналы восприятия речи 7.8.1. Спектрограф «видимой речи» Вспомогательные методы речевой коммуникации чрезвычай- но важны для лиц с частичной или полной потерей слуха. Такие люди зачастую лишены возможности не только слышать чужую речь, но даже свою собственную. Вследствие этого они нередко испытывают трудности при разговоре. Исследования вспомогательных каналов восприятия и разра- ботки соответствующей аппаратуры для речевой связи ведутся в трех основных направлениях. Они основаны на использовании визуальных, дактильных и остаточных слуховых ощущений. Каждое из этих направлений может быть кратко иллюстриро- вано специфическим примером. В рассматриваемой области имеются также и другие интересные результаты. Хорошо известным методом визуального представления ре- чевой информации является так называемая «видимая речь» (Поттер, Копп и Грин—Potter, Корр and Green). При помощи спектрографа «видимой речи» !) в реальном масштабе времени на экране электронно-лучевой трубки получается текущее, не- прерывное, изображение спектра (Риш и Шотт — Riess and Schott; Дадли и Груэнц—Dudley and Gruens). Это изображение подобно обычным спектрограммам звуков (см. раздел 5.1.4), однако отличается от них непрерывностью. Накапливающаяся по мере отклонения луча речевая информация сохраняется и отображается вследствие послесвечения экрана. Проводились эксперименты по обучению зрительному «чте- нию» изображения «видимой речи» (Поттер, Копп и Грин). Ре- зультаты показали, что после сравнительно продолжительной тренировки операторам удается успешно «переговариваться» с умеренной скоростью. Их обучали поддерживать беседу в пре- делах ограниченного словаря, соответствующего уровню зна- ний иностранного языка учеников старших классов школы. Ско- рость обучения характеризуется усвоением примерно 350 но- вых слов за 100 часов тренировки. Из-за технической сложности и трудоемкости процесса тре- нировки аппаратура «видимой речи» все еще остается в стенах лабораторий. Эти и подобные им методы, например изображе- ние артикуляторных параметров, позволяют решать многие про- блемы и потенциально пригодны в качестве вспомогательных *) В оригинале аппаратура для получения «видимой речи» называется «visible speech translator» (прим, перев.).
СЕНСОРНЫЕ КАНАЛЫ ВОСПРИЯТИЯ РЕЧИ 317 средств коммуникации. Однако до настоящего времени пробле- ма визуального представления речевой информации изучена далеко не полностью. 7.8.2. Тактильный вокодер Чувство осязания может быть использовано как дополни- тельный канал для обмена информацией в реальном времени. Одним из устройств для подвода к коже информации о кратко- временном спектре амплитуд речи является полосный анализа- тор, аналогичный применяемым в вокодерах (Пикетт—Pickett). Речевой сигнал поступает на десять полосовых фильтров, пере- крывающих без зазоров диапазон частот от 100 до 8000 гц. Ча- стоты на их выходах детектируются и сглаживаются для полу- чения отсчетов спектра на десяти различных частотах. Эти медленно меняющиеся во времени напряжения модулируют по амплитуде синусоидальные несущие частотой 300 гц каждая. Промодулированные несущие далее подводятся к вибраторам, прикрепляемым к кончикам пальцев (фактически это преобразо- ватели, использующие костную проводимость звука). Сигнал низшей полосы анализируемых частот подводится к мизинцу ле- вой руки, а сигнал высшей полосы—к мизинцу правой руки. После тренировки некоторые люди с помощью этого устрой- ства могли различать звуки примерно так же или иногда луч- ше, чем при восприятии речи по движению губ. При сочетании обоих методов восприятия речи (тактильного и по движению губ) различимость произносимых слов существенно улучшается. Например, при одном испытании по различению 12 слов пра- вильные ответы по движению губ составили 60%. Когда к зри- тельной информации добавили тактильную, количество правиль- ных ответов повысилось до 85% (Пикетт). Как и в случае с ви- димой речью, аппаратура для тактильного восприятия сравни- тельно сложна, а методика и степень тренировки очень сущест- венны. Несмотря на это, в настоящее время проводятся рабо- ты по исследованию и усовершенствованию этого метода. Ведется ряд других исследований тактильного и кинестети- ческого обмена информацией. Хотя многие из них направлены -больше на создание приборов в помощь слепым, чем глухим, многие проблемы восприятия сенсорной информации являются общими для обоих случаев. 7.8.3. Низкочастотный вокодер Обычный электронный слуховой аппарат является устрой- ством для усиления сигнала и его частотной коррекции. Он по- зволяет использовать малейший остаток слуха, сохранившийся
318 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ у глохнущих людей. Однако в тяжелых случаях остаточный слух сосредоточен в очень узкой Долосе частот, обычно на нижнем участке диапазона слышимых частот. Например, типичный слу- чай характеризуется согласно аудиограмме снижением чувстви- тельности на 60—80 дб в полосе от 30 до 400 гц и на ПО дб — выше 500 гц. Предложен способ наилучшего использования остаточного слуха. Медленно меняющиеся сигналы, описывающие кратко- временный спектр речи (они аналогичны сигналам полосного вокодера), модулируют либо синусоидальные, очень низкочас- тотные несущие, либо разнообразные сложные сигналы со срав- нительно узкими спектрами (Пимонов—Pimonow). В одном уст- ройстве спектр до 7000 гц разбивается на 7 полос, сигналы в которых после выпрямления и сглаживания модулируют 7 сину- соидальных несущих, расположенных на участке от 30 до 300 гц. Промодулированные несущие складываются и воспроизводятся как звуковой сигнал. В другом устройстве в качестве несущих используются несинусоидальные сигналы—низкочастотные по- лоски шума, периодическая последовательность импульсов и по- лоска подлинной речи. Очевидно, что для восприятия таких сиг- налов необходима большая тренировка. Например, во время одной серии опытов оглохший человек, который не мог поль- зоваться обычным слуховым аппаратом, научился различать слова из ограниченного набора (Пимонов). Однако подобно другим устройствам, описанным в этом разделе, низкоча- стотный вокодер еще находится на стадии исследований. Возможность его исследования в качестве слухового аппарата будет определена после длительных экспериментов и техниче- ских усовершенствований. VIII. СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ В гл. III и IV рассматривались основные физические явления, про- исходящие при образовании и восприятии речи. В гл. V, VI, и VII приво- дились некоторые принципы анализа, искусственного воспроизведения и вос- приятия речи. В данной главе будет показано, как можно комплексно при- менить приведенные выше результаты для эффективной передачи речи. Эф- фективная связь предполагает передачу минимума информации, необходимого для определения речевого образа н воссоздания желаемой реакции. Подра- зумевается, что ансамбль сообщений содержит только звуки человеческой речи. Другие сигналы не рассматриваются. Основная проблема состоит в по- строении системы, передающей с максимальной эффективностью лишь такую речевую информацию, которая важна для восприятия. Один нз подходов к достижению поставленной цели состоит в следую- щем. Надо определить физические характеристики процессов образования ц восприятия речи, а также языка н ввести этн характеристики в систему пе-
ПОЛОСНЫЕ ВОКОДЕРЫ 319 редачн. По существу эти характеристики представляют информацию, которую не нужно передавать. В идеальном случае этн характеристики описываются небольшим числом независимых параметров, служащих в качестве сигналов, несущих информацию. Системы передачи, в которых сознательно стремятся использовать эти факторы, обычно называются системами синтетической телефонии. Из гл. Ill и VII следует, что речевые сигналы могут быть описаны через свойства механизма, генерирующего сигнал, т. е. через свойства речевого тракта н его возбуждения. Тг для эффективного кодиро- вания речи. Фактически большой класс систем ком- прессии спектров основыва- ется на таком методе. Эта идея поясняется ма рис. 8.1. Сюда включены трн опера- ции. Вю-первых, автомати- ческий анализ сигнала с целью получения парамет- ров, описывающих возбуж- дение (речевого тракта и ре- зонансную структуру трак- та; во-вторых, уплотнение и передача указанных па- раметров и, наконец, вос- становление исходного сигна- ла по принятым параметрам. Материалы, обсуждав- шиеся в гл. IV, свидетель- ствуют о том, что в пе- риферической части слухового менный частотный анализ. Анализ включает механическую фильтрацию, про- цессы, эквивалентные выпрямлению, и процессы нервного кодирования, при которых, по-видимому, на ранних ступенях происходит интегрирование. При этом некоторые детали исходного речевого колебания теряются и становятся несущественными для восприятия. Предполагается, что в системе передачи также можно отбросить эту информацию, не оказывая прн этом существен- ного влияния на воспринимаемый сигнал. Тем самым удалось бы уменьшить требуемую пропускную способность канала. Подобным образом можно было бы использовать и другие особенности сигнала; например, ограничения на по- следовательность звуков в данном языке нли паузы естествеииого происхож- дения в связанной речи. Короче говоря, почти все результаты теории рече- образования, теории слуха и лингвистики имеют непосредственные отношения и к синтетической телефонии. Это будет показано в следующих разделах, где предполагается рассмотреть ряд систем синтетической телефонии. подход открывает широкие возможности Нсточник возбуждены Рнтормаиич О возбуждении "* 1 Канал г передачи,^ ьречр- гуН р -*-ТГ Хсигнал z оакта\ Выходе • Информаиия о речевом тракте Анализатор (А Речевой ^2 сигнал на входе Рис. 8.1. Представление механизма рече- образования в виде источника возбуждения и фильтрующей системы тракта производится своего рода кратковре- 8.1. Полосные вокодеры 8.1.1. Изобретение Гомера Дадли Синтетическая телефония окончательно оформилась после изобретения более двадцати лет назад Дадли аппарата для ана- лиза и синтеза речи, названного вокодером. За последнее вре- мя название вокодер, происходящее от двух английских слов
320 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ Voice—голос, Coder—кодирующий аппарат, применяется боль- шей частью в качестве термина, обозначающего класс систем синтетической телефонии, в которых разделяют функцию воз- буждения и передаточную функцию артикуляционной системы. Первый вокодер, называемый теперь спектральным полосным вокодером, описан в литературе больше, чем любая другая сис- тема. Тем не менее для полноты картины и в качестве удобного отправного пункта целесообразно повторить здесь еще раз краткое описание этой старой идеи, приведшей к созданию но- вых принципов передачи речи. Согласно схеме кодирования (рис. 8.1) в вокодере использу- ется одна важная особенность речеобразования и одна особен- ность восприятия. Учитывается, что возбуждением речевого тракта может служить либо квазипериодический звук с широ- ким спектром (на звонких звуках), либо случайный сигнал, также с широким спектром (на глухих звуках). Учитывается также, что правильность восприятия в большой степени зависит от сохранения формы мгновенного спектра амлитуд. Блок-схема первого вокодера Дадли показана на рис. 8.2 (Дадли, 1939, Ь). Характеристики возбуждения измеряются в верхней части схемы. Основной тон квазипериодических звонких звуков изме- ряется с помощью частотного дискриминатора и счетчика. Электрическое напряжение, получаемое на выходе счетчика, пропорционально частоте основного тона. Это напряжение пред- Канал передачи Анализатор Синтезатор Канал основного тона. Дискрини- ,, натор * Частоттер Фильтр Оправление частотой основного г тона Исходная речь □ Схема предыскажений Спектральные каналы ПФ Выпр. ФНЧ о-зоо гц гц I Переключатель | тон-шум Релаксационные генератор Генератор шума 8ыра8ни\ ватель 1 , филыпр Модуля- I * (0-300 u I ш тор —I' । Синтеза- \рованнО.я { речь К 9другим спектральным каналам.перекрывающим через 300 г ц диапазон частот 300~3000гц Рис. 8.2. Блок-схема первого полосного вокодера (Дадли, 1939, Ь|
ПОЛОСНЫЕ ВОКОДЕРЫ 321 ставляет собой частоту основного тона и ее изменения во вре- мени. Сигнал основного тона сглаживается фильтром нижних частот с полосой пропускания 25 гц. Глухие звуки обычно име- ют малую мощность в диапазоне частот основного тона, и ча- стотомер от них не срабатывает. Таким образом, наличие на- пряжения на выходе измерителя основного тона свидетельствует об озвученности, а величина напряжения указывает величину основного тона. С помощью десяти спектральных каналов, изображенных в нижней части схемы, измеряется мгновенный спектр амплитуд на десяти дискретных частотах. В каждый канал входит поло- совой фильтр (первоначально ширина полосы пропускания рав- нялась 300 гц), выпрямитель и фильтр нижних частот (полоса пропускания 25 гц). Спектр измеряется точно в соответствии с определением, приведенным в разделе 5.1. В предыскажаю- щем выравнивателе осуществляется частотная коррекция сиг- нала таким образом, чтобы средние мощности сигналов на вы- ходах анализатора спектра были примерно одинаковы. Следо- вательно, характеризующие спектр канальные сигналы лежат примерно в одинаковом диапазоне амплитуд и могут переда- ваться с одинаковым отношением сигнал/шум. Эти одиннадцать сигналов с шириной спектра по 25 гц занимают общую полосу частот менее 300 гц. Для передачи сигналов нужно использовать частотное или временное уплотнение. На приемной стороне спектр речи восстанавливается по пе- реданным данным. Сигнал возбуждения, создаваемый либо им- пульсным генератором с постоянной средней мощностью коле- баний и с переменной частотой, модулируемой сигналом основ- ного тона, либо широкополосным генератором шума, подводится к набору полосовых фильтров, идентичному фильтрам передаю- щей стороны. Выходные сигналы фильтров модулируются по амплитуде спектральными сигналами. Таким образом, воссо- здается мгновенный спектр, приближающийся к спектру, изме- ренному на передающей стороне. При правильном построении системы можно получить удивительно разборчивую синтези- рованную речь. Спектрограммы исходной речи и речи, синте- зированной 15-канальным вокодером, показаны на рис. 8.3. Та- кие важные характеристики, как формантная структура и струк- тура тон-шум, довольно хорошо сохраняются в синтезированной речи. Со времени создания первого вокодера было построено много различных вариантов и разновидностей этой системы. При конст- руировании варьировали число фильтров анализатора и их рас- становку по шкале частот, изменяли полосы фильтров, степень их перекрытия и избирательность. Подобным же образом цссле- 11—71
322 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ довали много различных типов систем выделения основного тона и схем тон-шум. Не остались без внимания и характеристики выпрямителей и фильтров нижних частот. Число используемых каналов изменялось от 8 до 100, частотные характеристики фильт- Рис. 8.3. Спектрограмма речи, переданной по 15-полосиому вокодеру ров выбирались самые различные, начиная от широкополосных с горизонтальным участком и крутыми скатами и кончая узкопо- лосными характеристиками одиночного контура. Объем данной книги не позволяет рассмотреть подробно все эти исследова- ния. Основные характерные результаты изложены в работах следующих авторов: Р. Л. Миллер—R. L. Miller, 1953; Дэвид— David, 1956; Фильбиг и Хаазе — Vilbig and Haase, 1956, a, b, Слеймакер—Slaymaker; Ширм и Холмс—Schearm and Holmes: Купер—Cooper, Петерсон и Фарингер—Peterson and Fahringer; Вернер и Даниельсон—Werner and Danielsson; Ягги и Масон— Jaggi and Mason; Стил и Кассл—Steele and Cassel, 1963, a, b. Хотя разборчивость синтетической речи может быть и высо- кой, натуральность и качество заметно ухудшаются даже в луч- ших современных полосных вокодерах. Для устройств данного типа характерно «машиноподобное» звучание синтезированной
ПОЛОСНЫЕ ВОКОДЕРЫ 323 речи. Это объясняется несколькими факторами. Одним из них яв- ляется кодирование характеристик возбуждения. Дискримина- тор тон-шум часто допускает заметные ошибки. Тонкая струк- тура временных изменений основного тона может не сохранить- ся, а при некоторых условиях автоматическое устройство выде- ления основного тона может определять частоту с ошибкой на октаву. Звонкие звуки синтезируются с помощью импульсного источника, форма и фазовый спектр колебаний которого не от- ражают некоторых особенностей и изменений колебаний, созда- ваемых голосовыми связками. Недостатком спектрального ана- лиза является ограниченная разрешающая способность, ибо всегда конечны число полосовых фильтров, ширина полосы про- пускания этих фильтров и расстояния между соседними фильт- рами по оси частот. А недостаточность разрешающей способно- сти может привести, например, к расширению формант речи при синтезе. Далее, используемые на практике выпрямители и усилители’ могут вносить искажения ввиду большого динамиче- ского диапазона спектра амплитуд. Основная конструкция полосного вокодера может быть улуч- шена различными способами. Существенных трудностей, свя- занных с проблемой возбуждения, можно избежать в значитель- ной степени, если использовать полувокодер, который будет рас- смотрен в следующем разделе. «Сепстральный» метод выделе- ния основного тона, описанный в разделе 5.3, обещает дать более точные данные об основном тоне и позволить с большей до- стоверностью принимать решение тон-шум. Проблемы спектраль- ных представлений могут быть частично разрешены путем тща- тельного построения фильтров. Кроме того, полезны некоторые дополнительные преобразования. Можно подчеркнуть спектральные максимумы и минимумы, иными словами, увеличить отношения максимальных значений к минимальным, если произвести квадрирование мгновенного спектра (Купер, Петерсон и Фарингер—Cooper, Peterson and Fahringer). Квадрирование можно осуществить квадратичными выпрямителями в спектральных каналах; аналогичный эффект получается при использовании вокодерной речи в качестве сиг- нала источника при вторичном синтезе. Установлено, что речь с квадрированным спектром звучит более мягко, чем синтети- ческая речь обычного типа, получаемая при использовании в анализаторе линейных детекторов. Однако квадрирование со- провождается неестественным и нежелательным увеличением уровней при передаче громких звуков. В той же работе делает- ся вывод: характерная для вокодера «хриплость» в значитель- ной мере объясняется низкочастотной модуляцией (обычно с частотой 60 или 120 гц} импульсного источника основного тона, 11*
324 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ Лучшая фильтрация сигнала основного тона является очевид- ным способом борьбы с указанным недостатком. Проблема сокращения динамического диапазона может быть частично разрешена путем нормирования спектральных сигна- лов—параметров по средним амплитудам спектра (Смит—Smith, 1963; Стил и Кассл — Sttele and Cassel, 1963, а). Подразу- мевается, что каждый полосный сигнал задан с величиной от- клонения от средней амплитуды спектра, среднее значение пе- редается отдельно. Метод исключения средней составляющей был использован ранее при автоматическом слежении за фор- мантой также с целью облегчения работы в большом динами- ческом диапазоне (см. раздел 5.2). 8.1.2. Уплотнение полосных вокодеров Частотное уплотнение. Для передачи ряда одновременно дей- ствующих сигналов обычно используется частотное или времен- ное уплотнение. В первом случае на каждый сигнал отводится участок спектра требуемой ширины. Индивидуальные сигналы модулируют различные несущие, которые передаются одновре- менно в отведенных им полосах частот и демодулируются на приеме. В случае временного уплотнения используется единый канал передачи с соответствующей полосой частот, причем для передачи каждого сигнала отводится определенный интервал времени. Частотное уплотнение вокодерных сигналов привлекает про- стотой схемных решений. Кроме того, этот вид уплотнения при- меним на существующих аналоговых каналах связи. Задача со- стоит в том, чтобы обеспечить достаточно точную передачу сиг- налов, занимая при этом минимальную ширину спектра. Обычно вокодерные сигналы содержат постоянную состав- ляющую, поэтому необходимо выбрать такой способ модуляции, при котором передается постоянная составляющая. Этому тре- бованию удовлетворяет обычная амплитудная модуляция (AM). При AM спектр имеет две боковые полосы, поэтому канал ис- пользуется неэкономно. Обычная однополосная модуляция (ОБП) с подавленной несущей занимает полосу в два раза уже, но не обеспечивает достоверной передачи низкочастотных ком- понентов модулирующего сигнала. Возможно, этот недостаток устранится при частичной передаче второй боковой полосы. Од- нако лучшим решением является квадратурная модуляция (Холси и Сваффельд—Halsay and Swaffield). При квадратурной модуляции два спектральных сигнал-па- раметра модулируют по амплитуде две различные несущие, оди- наковые по частоте, но отличающиеся по фазе на л/2 радиан.
ПОЛОСНЫЕ ВОКОДЕРЫ 325 В этом случае два AM сигнала с двумя боковыми полосами за- нимают один диапазон частот. Если частотная и фазовая харак- теристики канала передачи симметричны относительно частоты несущей, любой из сигналов может быть выделен на приемной стороне, с помощью синхронного детектора. В синхронном де- текторе принимаемое колебание умножается на опорный сигнал и полученное произведение интегрируется. Частота опорного сигнала должна быть равна частоте несущей. Для подавления квадратурного сигнала фаза опорного сигнала должна быть сдвинута относительно фазы несущей подавляемого сигнала на 90°. В системах с квадратурной модуляцией должен соблюдать- ся точный частотный и фазовый, синхронизм между несущими на передаче и опорными сигналами на приеме. Метод квадратурной модуляции дает неудовлетворительные результаты при передаче обычных речевых сигналов. Обеспечи- ваемая на практике стабильность не позволяет получить доста- точно низкий уровень переходных разговоров. Однако для воко- дерных сигналов переходное затухание между спектральными каналами величиной 25 дб, по-видимому, достаточно1). Такое значение переходного затухания может быть практически реа- лизовано при использовании метода квадратурной модуляции. Отношение сигнала к переходной помехе равно котангенсу фа- зового сдвига между несущей и опорным сигналом. Таким об- разом, переходное затухание, равное или большее 25 дб, обеспе- чивается при фазовой ошибке, равной или меньшей 3,3°2). Временное уплотнение. Временное уплотнение заключается в последовательной во времени передаче отсчетов спектральных сигнал-параметров. Согласно теореме отсчетов3) частота взя- тия проб должна, по крайней мере, в два раза превышать выс- шую частоту, содержащуюся в спектральных сигналах. Воко- дерные сигналы обычно ограничиваются по спектру частотой около 20 гц, поэтому частота взятия проб устанавливается око- ло 40 гц или выше. Фактически для обеспечения достаточной точ- ности разделения каналов на приеме требуемая общая ширина канала передачи оказывается примерно вдвое больше суммар- ной ширины спектра входных сигналов и составляет столько же, сколько требуется для передачи тех же сигналов методом частотного уплотнения с обычной AM (Бенетт—Benett, 1941). Но даже в этом случае величина переходного затухания между каналами может оказаться едва допустимой. Например, в 12-ка- нальной системе отношение сигнала к переходной помехе состав- ‘) Канал основного тона более чувствителен к переходным помехам. Поэтому в ием желательно обеспечить затухание около 40 дб. 2) См. работу * Ю К. Трофимова (прим. ред.). 3) См. примечание редактора иа стр. 16.
326 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ ляет всего лишь около 20 дб. Таким образом, метод временно- го уплотнения при отсутствии дополнительного кодирования, по-видимому, несколько уступает по точности частотному методу уплотнения с квадратурной модуляцией. С другой стороны, про- стота и возможность сглаживания спектральных характеристик аналоговым методом делают привлекательным метод времен- ного уплотнения. Принцип временного уплотнения используется в так назы- ваемом скэн-вокодере (Фильбиг и Хаазе — Vilbig and Haase, 1956, а, b). Схема вокодера показана на рис. 8.4. С помощью ста Входной, речевой сигнал Схема выделения оснооноео тона. 130 кгц 130 кгц передачи Рис. 8.4. Полосный вокодер с временным уплотнением (Фильбиг и Хаа- зе, 1956) спектральных каналов, в каждом из которых используются вы- сокочастотные (130 кгц) магнитострикционные фильтры, полу- чается информация о мгновенном спектре. Выходные сигналы каналов сканируются с частотой 30 гц\ полученный таким обра-
ПОЛОСНЫЕ ВОКОДЕРЫ 327 зом сигнал, представляющий развернутую во времени огибаю- щую спектра, сглаживается фильтром нижних частот с поло- сой 200 гц. На приемной стороне сигнал огибающей разводится по ста каналам с помощью распределителя, осуществляющего синхронное сканирование. Информация об основном тоне пере- дается по отдельному каналу. Цифровая передача вокодерных сигналов. Передача сигна- лов в виде двоичных импульсов имеет ряд преимуществ. Одним из них является возможность борьбы с шумами путем много- кратного применения регенерации, полностью восстанавливаю- щей форму сигнала. Подобный эффект нельзя получить в анало- говом канале с усилителями. Другим преимуществом является возможность «перемещать» импульсы сообщения различными сложными способами с целью обеспечения скрытности или сек- ретности связи. Для получения этих важных преимуществ обыч- но приходится увеличивать ширину полосы частот передавае- мого сигнала. Временное уплотнение спектральных сигнал-пара- метров с применением импульсно-кодовой модуляции (ИКМ) является, таким образом, важным методом передачи вокодер- ных сигналов. Значение отсчета сигнала в каждом канале пред- ставляется последовательностью двоичных импульсов. Упоря- доченные импульсы «кадрами» передаются через относительно широкополосный канал; на приемной стороне импульсы син- хронно распределяются и превращаются из цифровой формы в аналоговую. Хотя цифровые сигналы требуют относительно большую по- лосу частот, использование вокодера позволяет осуществить пе- редачу речи в цифровом виде по каналу примерно с той же шириной полосы, какая обычно используется в стандартных аналоговых системах телефонной связи. Важно знать, сколько двоичных импульсов достаточно иметь для представления каж- дого отсчета полосных сигналов. Ответ зависит от того качест- ва принятого сигнала, которое считается приемлемым. По совре- менному состоянию техники в различных конкретных условиях могут использоваться скорости от 1200 до 4800 дв. ед./сек. (Ягги и Масон — Jaggi and Mason). В качестве типичного при- мера можно привести систему с 18 спектральными каналами, в которой отсчеты берутся с частотой 40 гц и производится нор- мирование амплитуд. В каналах с номерами от 1 до 14 исполь- зуются трехзначные кодовые комбинации; в каналах с номе- рами с 15 по 18—двузначные, сведения об общем уровне пере- даются трехзначными комбинациями, а на передачу основного тона и сигнала тон-шум отводится 7 дв. ед. Таким образом, на один цикл развертки или «кадр» приходится 60 дв. ед., а ско- рость передачи данных составляет 2400 дв. ед./сек.
328 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ 8.1.3. Эксплуатационные качества вокодера Хотя качество и натуральность речи при передаче по воко- деру обычно ухудшаются, относительно высокая разборчивость синтезированной речи сохраняется даже в вокодере, имеющем всего лишь десять каналов. При работе с высококачественным микрофоном на входе системы и использовании схемы выделе- ния основного тона по частоте первой гармоники характерные значения слоговой разборчивости для 10-канального вокодера (диапазон рабочих частот от 250 до 2950 гц) составляет 83— 85% (Халси и Сваффелд—Halsey and Swaffield). Характерные значения разборчивости начальных согласных приведены в табл. 8.1. Таблица 8.1 Примечание. Проценты правильно понятых начальных согласных получены при прослушивании слогов (односложных слов) (По Халси н Сваффертду). Хотя слабые фрикативные типа английского th в данной си- стеме воспроизводятся неудовлетворительно, беды большой в этом нет, так как звуки такого типа встречаются относительно редко. 30% ошибок восприятия согласных, не занимающих на- чальной позиции (т. е. для слогов, начинающихся с гласных), свидетельствуют о недостатках работы системы тон-шум. По- добные слоги ошибочно воспринимались как начинающиеся с согласных. Тем не менее разборчивость согласных большей частью достаточно высока. Сходные результаты могут быть получены и при дискрети- зации вокодерных сигналов по времени с последующим кван- тованием и кодированием в виде двоичных импульсов. В табл. 8.2 приведены типичные значения разборчивости согласных для одной из первых моделей 10-полосного вокодера, работающего с цифровой системой передачи. В приведенные значения скоро- сти передачи данных не включена информация об основном то- не. Использовалось четыре различных значения уровней кван- тования [неопубликованные результаты, полученные Р. Л. Мил- лером и Д. К. Ганнеттом (R. L. Miller and D. К. Gannett) и при- веденные в работе Дэвида (David, 1956)].
ВОКОДЕРЫ С СОКРАЩЕННОЙ ИЗБЫТОЧНОСТЬЮ 329 Т а б л и ц а 8.2 ЗАВИСИМОСТЬ РАЗБОРЧИВОСТИ СОГЛАСНЫХ В ВОКОДЕРЕ ОТ СКОРОСТИ ПЕРЕДАЧИ ЦИФРОВОЙ ИНФОРМАЦИИ Число уровней квантования 6 5 4 3 Скорость передачи двоичных импуль- сов, дв.ед./сек 1300 1160 1000 788 Разборчивость согласных, % 82 79 79 69 По-видимому, можно надеяться, что более совершенные кон- струкции обеспечат несколько большую разборчивость. Напри- мер, в 16-полосном вокодере с частотой дискретизации полос- ных сигналов 30 гц при кодировании каждого отсчета 3 дв. ед. (т. е. при общей скорости передачи 1440 дв. ед./сек) разборчи- вость согласных составляет около 90% (Дэвид, 1956). 8.2. Полосные вокодеры с сокращенной избыточностью 8.2.1. Вокодер с селекцией максимумов Общепризнано, что спектральные сигналы полосного вокоде- ра не вполне независимы, так что имеется возможность произ- вести дополнительную обработку сигналов и сделать их орто- гональными. Методы дальнейшего исключения избыточности рассмотрены в ряде исследований. Полученные в гл. 111 результаты расчетов характеристик ре- чевого тракта свидетельствуют, что величины спектра речи на соседних частотах тесно связаны. Например, спектр гласных звуков, формируемый голосовым трактом, полностью определя- ется частотами формант. Вследствие этого соседние спектраль- ные сигнал-параметры вокодера обычно сильно коррелированы. В одной из систем передачи, в так называемом вокодере с се- лекцией максимумов, предпринята попытка исключить указан- ную зависимость. В этом вокодере передается лишь небольшое количество (от 3 до 5) спектральных сигнал-параметров, пред- ставляющих в данный момент локальный максимум мгновен- ного спектра. Используемая схема аналогична описанной в раз- деле 5.2 схеме выделения формант. Запрещающие соединения предотвращают возможность выбора двух соседних каналов. Номера выбранных каналов с максимальными значениями спек-
330 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ тра и соответствующие им величины максимумов передаются Я к обычному синтезатору 18-полосного вокодера. Кроме того, | передается сигнал основного тона. Таким образом, в каждый Я момент времени работает лишь несколько каналов синтезатора. Я При этом разборчивость бессмысленных слогов достигает 70%, Я требуемая скорость передачи цифровой информации оценивает- 1 ся около 1000 дв. ед./сек (Петерсон и Купер — Peterson and 1 Cooper). 1 8.2.2. Линейное преобразование спектральных 1 сигнал-параметров полосного вокодера | В данном методе, близком к изложенному выше методу, вы- 1 является зависимость между спектральными сигнал-параметра- | ми и для исключения избыточности осуществляется переход к 1 меньшему числу сигналов (Крамер и Мэтьюс — Kramer and j Mathews). Из n полосных сигналов образуется набор т сигна- 1 лов, где причем новые сигналы представляют собой ли- j нейную комбинацию п исходных сигналов. Постоянные коэффи- ! циенты линейного преобразования образуют матрицу (т-п). Практически матрица преобразования реализуется в виде на- бора из (т-п) постоянных сопротивлений. Декодирование т сигналов с целью приблизительного восстановления п исходных сигналов производится с помощью линейного преобразования, обратного матрице (m-n). Коэффициенты преобразования по- лучаются из условия минимизации среднеквадратичного откло- нения между п исходными сигналами и п восстановленными сигналами. Описанный метод был применен к спектральным сигнал-па- раметрам 16-полосного вокодера (т. е. и—16). Сообщалось, что при сокращении до т = 6 синтезированная речь оставалась поч- ти полностью разборчивой, хотя качество речи становилось су- щественно хуже, чем в 16-полосном вокодере. При т=10 каче- ство синтезированной речи оценивалось выше, чем в обычных 10-полосных вокодерах. В последнем случае достигается допол- нительная экономия емкости канала примерно в 1,5 раза. 8.2.3. Вокодеры с эталонами спектральных функций В этом вокодере спектральные данные, передаваемые сиг- нал-параметрами, классифицируются по принадлежности к ог- раниченному числу образцов (Дадли, 1958). Анализ звуков про- изводится согласно описанной в разделе 5.5 схеме опознания образов. В каждый момент времени из большого числа запа- сенных спектральных эталонов определяется тот эталон, для
ВОКОДЕРЫ С СОКРАЩЕННОЙ ИЗБЫТОЧНОСТЬЮ 331 которого получается наилучшее согласование с мгновенным спектром речи. Код, обозначающий найденный таким способом эталон, передается к синтезатору вокодера вместе с данными об основном тоне и с сигналом тон-шум. На приемной стороне на модуляторы синтезатора подаются сигналы, создающие спектр, приближающийся к спектру переданного эталона. Сиг- нал основного тона управляет генератором возбуждения. Плав- ность переходов от одного эталона звука к следующему дости- гается включением фильтров. В старом варианте устройства использовался 10-полосный вокодер всего лишь с десятью запасенными эталонами. Это уст- ройство показано на рис. 8.5. Запасенные эталоны соответст- вовали стационарным спектрам четырех длительных согласных речь Исходная вход Диализатор Сигналы Синтезатор \зталОноВ\ [Схена Выделен ]рсчоВноеатона , Инпульеный [генератор Рис. 8.5. Вокодер с эталонами спектральных функций (Дадли, 1958) и шести гласных (s, f, г, п и i, I, е, а, о, и, соответственно). Двум слушателям удавалось правильно опознавать произносимые од- ним диктором (для речи которого были получены спектральные эталоны) цифры с достоверностью 97 и 99% соответственно. Од- нако при прослушивании обычных односложных сигналов раз- борчивость уменьшалась примерно до 50%. Добавление шести эталонов незначительно увеличило разборчивость. При этом не- обходимая для передачи полоса частот составляла всего около
332 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ 50 гц, т. е. примерно в 60 раз меньше, чем в обычном канале телефонной связи. Несмотря на то, что разборчивость и качество речи в данном устройстве несомненно недостаточны для боль- шинства прикладных целей, прибор демонстрирует возможности передачи в узкой полосе ограниченного ансамбля сообщений при работе с ограниченным числом дикторов. Удивительные результаты, получающиеся при работе всего лишь с десятью эталонами, вызывают вопрос: сколько эталонов потребуется для того, чтобы приблизиться к характеристикам обычного вокодера? Этот вопрос рассматривается Смитом (Smith, 1957, 1963). Выходные сигналы анализатора полосного вокодера дискритизируются частотой 50 гц, нормируются по амплитуде и квантуются. Цифровое описание мгновенного спек- тра сравнивается с большим числом эталонов, хранимых в циф- ровой форме в блоке оперативной памяти. Как и в описанной выше системе, здесь также находится эталон, наилучшим обра- зом согласующийся с данной реализацией мгновенного спектра; отличие состоит лишь в использовании цифровых методов обра- ботки информации. Код найденного таким способом эталона пе- редается по каналу связи. Задача состоит в определении наи- меньшего числа эталонов, обеспечивающих заданное качество работы. Хотя рассмотренные методы обработки не могут обес- печить лучшее качество речи, чем обычный вокодер, они могут дать большую экономию полосы, чем полосный вокодер. Ско- рости передачи цифровой информации о спектральных этало- нах и о характеристиках возбуждения оцениваются величина- ми от 400 до 800 дв. ед./сек (Смит, 1957, а, 1963). 8.3. Полувокодеры 8.3.1. Проблема улучшения естественности До сих пор вокодеры применялись лишь для связи в осо- бых условиях, хотя они позволяют передавать речь с высокой разборчивостью при примерно десятикратной компрессии по- лосы частот. На коммерческих линиях вокодеры совсем или почти совсем не использовались, в первую очередь, из-за недо- статочного качества и натуральности речи. Получаемая синтези- рованная речь отличается «машинным акцентом», а ее нату- ральность заметно хуже, чем в обычных телефонных каналах. Это происходит в основном из-за недостатков процесса вы- деления информации о возбуждении, т. е. из-за измерения ос- новного тона, и различении вокализованных и турбулентных звуков. Хорошо известна трудная задача автоматического выде-
ПОЛУВОКОДЕРЫ 333 ления основного тона. Необходимо устройство, точно отличаю- щее высоту голоса при почти десятикратном изменении частоты основного тона (при передаче мужских и женских голосов) и работающее при большом диапазоне изменения интенсивности. Устройство должно также работать в трудных условиях, когда речь произносится в зашумленном и реверберирующем поме- щении. Кроме того, речевой сигнал может быть подвергнут ча- стотному ограничению, в результате которого несколько его нижних гармоник обрезается и основную частоту приходится получать путем его нелинейной обработки. Эти трудности еще более усугубляются изумительной способностью человеческого уха обнаруживать малейшие неточности основного тона (см. раздел 7.2.5). Некоторые из многочисленных попыток решить проблему выделения основного тона коротко описаны в разделе 5.3. Здесь можно лишь отметить, что еще предстоит найти ряд решений для доведения качества речи полосного вокодера до качества речи при обычных методах кодирования. Это общее замечание в такой же степени относится и к различению вокализованных и турбулентных звуков, которое также производится в канале основного тона. Трудности автоматического анализа возбуждения можно обойти, применив полувокодер (Дэвид, Шредер, Логан и Пре- стиджиакомо, Шредер и Дэвид — David, Schroeder, Logan and Prestigiacomo, Schroeder and David). В этом устройстве информация о возбуждении передается необработанной поло- сой низкочастотной части спектра речи. На приемном конце сигнал в этой полосе — нулевой канал1)—подается на нелиней- ное устройство для получения сигнала с широкополосным рав- номерным спектром. Этот сигнал далее используется как источ- ник возбуждения обычного полосного вокодера, синтезирующе- го спектр выше нулевого канала. Блок-схема полувокодера по- казана на рис. 8.6. Сигнал с выравненным спектром отражает линейчатый ха- рактер спектра квазипериодических вокализованных звуков и сплошной спектр турбулентных звуков. Будучи извлеченным из части спектра исходной речи, он сохраняет как информацию тон-шум, так и информацию об основном тоне. Тонкая времен- ная структура голосового возбуждения (она считается важной для натуральности) при сглаживании не теряется. Ценой неко- торой потери полосы частот качество синтезированной речи мо- жет быть приближено к качеству обычных телефонных кана- лов. Таким образом, мы получаем и высокое качество сигнала, ') Термин, принятый в отечественной литературе (прим. ред.).
334 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ и некоторую часть той экономии полосы, которую обеспечивает полосный вокодер. В одном из вариантов полувокодера непреобразованная по- лоса взята от 250 до 940 гц. Диапазон частот от 940 до 3650 гц перекрывается 17 вокодерными каналами. Из них первые 14 входная речь Анализатор: спектра • Описание спектра_ Полосовой фильтр Синтезатор спектра "Широкополосный 1 сигнал -------s- I во.збиждения Сглаживатем спектра выходная речь Нулевой канал {низкочастотная часть исходной речи) Рис. 8.6. Блок-схема полувокодера (Дэвид, Шре- дер, Логан и Пресгиджиакомо) имеют полосы пропускания по 150 гц, а самые верхние—немно- го шире. Общая полоса частот полувокодера получилась 10004- 4-1200 гц, что соответствует примерно трехкратной компрессии. Примененный метод выравнивания спектра показан на рис. 8.7. Принятый сигнал в полосе нулевого канала детектируется и поступает на полосовые фильтры синтезатора. Выходные сиг- налы фильтров клиппируются для устранения изменений ампли- Сигналы управления спектром от анализатора Рис. 8.7. Блок-схема выравнивателя спектра (Дэвид, Шредер, Ло- ган, Пресгиджиакомо)
ПОЛУВОКОДЕРЫ 335 туды. Затем они подаются на амплитудные модуляторы, управ- ляемые сигналами полосного вокодера. Были проведены сравнительные испытания разборчивости и качества речи полувокодера, работающего от угольного микро- фонного капсуля и телефонного аппарата в полосе частот, рав- ной полосе частот полувокодера (Дэвид, Шредер, Логан и Пре- стиджиакомо). Для большей чувствительности испытаний и для поддержания разборчивости значительно ниже 100% в речь добавлялся маскирующий шум, так что отношение сигнал/шум равнялось 18 дб. Для артикуляционных испытаний применялись таблицы фонетически сбалансированных слов (см. раздел 7.6). Для дикторов-мужчин снижение разборчивости у полувокодера по сравнению с речью, переданной через угольный микрофон в той же полосе, составило 6,1 %, для женщин—10,1 %. Общее качество речи полувокодера и некоторых трех других методов передачи речи оценивалось по отдельным предложени- ям. Слушателям было предложено относить прием каждого предложения к категориям: «так же, как и по обычному теле- фону», или «хуже, чем по обычному телефону». Из слушате- лей 72% поставили полувокодер на один уровень с обычным телефоном. При сравнении полувокодера с передачей по уплот- ненным каналам дальней связи к категории «как по обычному телефону» было отнесено 82% оценок, при сравнении с делен- ным каналом шириной 1800 гц—36% и при сравнении со стан- дартным полосным вокодером—17%. Эти результаты показы- вают, что полувокодер явно превосходит полосный вокодер и приближается к обычному телефонному каналу. 8.3.2. Уплотнение и дискретизация Задача устройства многоканальной системы уплотнения по- лувокодера в основном та же, что и рассмотренная в разде- ле 8.2 для полосного вокодера. Основное отличие определяет нулевой канал. Для экономичной передачи в систем^ частотно- го уплотнения его следует либо оставить без изменений, либо производить им однополосную модуляцию. Передача спектраль- ных каналов может быть в обоих случаях одинакова. В одной конструкции полувокодера имеются нулевой канал шириной 500 гц и расположенные над ним 13 спектральных ка- налов (Хоуелл, Шнейдер и Стамп—Howell, Schneider and Stump 1961, a, b). Нулевой канал передается одной боковой полосой, а спектральные каналы—с частично подавленной боковой поло- сой. В другом аналоговом устройстве применены нулевой канал от 250 до 925 гц и 10 спектральных каналов, перекрываю-
336 СИСТЕМЫ синтетической телефонии щие полосу около 3000 гц (Голден, Маклин и Престиджиако- мо — Golden, Maclean and Prestigiacomo). Спектральные ка- налы передаются путем двухполосной амплитудной модуляции 10 несущих, расположенных через 60 гц в диапазоне 9254- 4-1630 гц. При этом компрессия получается примерно два к одному. Изучение построения полувокодеров и исследование их ра- боты проводились с помощью современных методов моделиро- вания на цифровых вычислительных машинах (Голден). Для проведения цифрового моделирования разработаны дис- кретные эквиваленты всех фильтров и узлов аналогового 10-полосного полувокодера (см. раздел 6.2.6). Такая трансфор- мация непрерывной системы в дискретную позволяет модели- ровать ее с помощью дискретных операций, запрограммирован- ных в цифровой вычислительной машине. В данном примере в машине была описана работа всего вокодера целиком, когда для обработки по заданной программе на ее вход подавались квантованные отсчеты исходной речи. Невозможно переоценить огромные выгоды такого метода исследования и конструирования устройств обработки сигналов. Пользуясь методами цифрового моделирования, можно исследо- вать и оценить работу целой системы, прежде чем будет изго- товлена хоть одна ее деталь. Единственная плата за это — работа моделируемой системы не в реальном времени. В дан- ном случае коэффициент времени составлял 172 к 1, т .е. обра- ботка 1 сек речи требовала 172 сек машинного времени. Однако развитие цифровых методов и увеличение скорости счета будут соответственно уменьшать этот коэффициент. Другое направление в разработке вокодера завершилось созданием цифрового полувокодера с временным уплотнением (Ягги; Ягги и Масон — Jaggi; Jaggi and Mason). В этом уст- ройстве применена ИКМ, и предназначено оно для работы со скоростью 9600 дв. ед./сек. Нулевой канал устройства может иметь верхнюю граничную частоту или 800 гц, или 950 гц по вы- бору. В первом случае оставшийся до 4000 гц участок перекры- вают 12 вокодерных фильтров, во втором — 11. Отсчеты нуле- вого канала берутся с удвоенной максимальной частотой и квантуются 5 разрядами. Спектральные каналы отсчитываются 50 раз в секунду (64 раза в секунду при нулевом канале 950 гц); нижние три канала после квантования кодируются трехзнач- ными кодовыми комбинациями, верхние — двузначными. При этом амплитуды спектральных каналов подвергались нормали- зации. Временное уплотнение и разделение передаваемых ИКМ данных выполнялись с помощью устройств современной циф- ровой техники.
КОРРЕЛЯЦИОННЫЕ ВОКОДЕРЫ 337 8.4. Корреляционные вокодеры Полосный вокодер показал, что разборчивость речи в значи- тельной степени определяется формой мгновенного амплитудно- го спектра. Можно ожидать, что ту же информацию переносит и любое другое эквивалентное определение формы спектра. Од- ним из описаний квадрата спектра амплитуд является функция автокорреляции. Соотношения между этими величинами уже были подробно рассмотрены в разделе 5.1. Поэтому можно ожи- дать, что определение речевого сигнала его кратковременной функцией автокорреляции будет эквивалентно полосному воко- деру во временной области. В гл. V кратковременная функция автокорреляции опреде- лена как параметр задержки т: ф(т. p(W + W~W (8.1) ----------00 где k(t) =0 при /<0 — весовая функция или временная апертура [обычно это импульсная реакция физически реализуемого филь- тра нижних частот, см. ур-ние (5.15)]. В частном случае, когда k(t)=2ae~2at =h2(t), функция ф(т, t) может быть связана с мгновенным спектром мощности, получаемым с помощью изме- рительного прибора: ф (со, t) = | F (со, t) |2, где F(<d, /)= J (8.2) — 00 Действительно, было показано, что а|т| °° Ф(т, t) = А—’ [фС05- t)eimxdx, (8.3) 2л J — 00 и 00 ф(а», t) = J е~а|т|ф(т, /)e-1“xdT. (8.4) —00 Здесь измеряемый мгновенный спектр мощности [та вели- чина (вернее, квадратный корень из нее), которая используется в полосном вокодере], есть преобразование Фурье от произве- дения весовой е_а|х| и автокорреляционной ф(т, t) функций. Та-
338 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ ким образом, информацию о спектре можно выразить функцией корреляции. Испытано несколько методов применения этой свя- зи для передачи речи (Хаггинс — Huggins, 1954; Шредер — Schroeder, 1959, 1962; Кок — Kock; Биддалф — Biddulph)1). Схема автокорреляционного вокодера показана на рис. 8.82). В верхней части схемы показана передача основного тона, ко- Днализатор Уплотнение Синтезатор Рис. 8.8. Автокорреляционный вокодер (Шредер, 1959, 1962) торая осуществляется так же, как и в полосном вокодере. В нижней части схемы речевой сигнал поступает на спектраль- ный выравниватель, который фактически извлекает из спектра выходного сигнала квадратный корень. Необходимость этой операции обусловлена тем, что после автокорреляционной обра- ботки мы должны получить функцию корреляции, преобразова- ние Фурье которой есть спектр мощности (т. е. квадрат спектра амплитуд) входного сигнала. Хотя речь, спектр которой возве- ден в квадрат, вполне разборчива, она отличается неестествен- ') Gm. также * В. Е. Муравьев, Г. И. Чечерникова. 2) В корреляционном вокодере применен предложенный в СССР гармо- нический косинусный синтезатор речи. Возможность реализации такого анали- затора на линии задержки была указана в нашей первой публикации (Пи- рогов). Корреляционный вокодер с гармоническим косинусным синтезатором независимо от работ, выполненных в США, был построен и продемонстри- рован В. Е. Муравьевым. Легко видеть, что корреляционный вокодер относит- ся к классу ортогональных систем синтетической телефонии, см. далее, п. 8.7.5 (прим, ред.).
КОРРЕЛЯЦИОННЫЕ ВОКОДЕРЫ 339 ными изменениями интенсивности и ударений. Поскольку квад- рирование спектра в данном методе неизбежно, оно учитывается с самого начала После извлечения корня из спектра вычисляется кратковре- менная функция автокорреляции для определенных значений задержки. Это производится умножением сигнала с соответст- вующего отвода линии задержки без отражений на ее входной сигнал и последующей фильтрацией произведения фильтром нижних частот ФНЧ (в данном случае фильтром с частотой сре- за 20 гц). Импульсная реакция этого фильтра есть k(t) в (8.1). Так как функция автокорреляции ограничена той же полосой частот, что и сам сигнал, она полностью определяется отсчетами на интервале Найквиста (т. е. через интервалы, определяемые величиной, обратной удвоенной полосе частот). Для сигнала с полосой 3000 гц достаточно иметь интервал задержки Дт = = 0,167 мсек. Практически функцию корреляции следует опре- делять на интервале не более 3 мсек (Шредер—Schroeder, 1962). Для этого требуется 18 отсчетов, из которых каждый занимает полосу около 20 гц. Отсюда общая ширина полосы получается около 360 гц, т. е. примерно столько же, что и у полосного во- кодера. В синтезаторе вокализованные звуки создаются генерацией периодического колебания, каждый период которого имеет фор- му корреляционной функции, описанной своими п отсчетами в данный момент. Это колебание получается, если возбуждающие импульсы основного тона будут «брать пробы» значений отсче- тов функции корреляции. Соответствующая операция выпол- няется перемножением сигнала возбуждения и каждого из уп- равляющих каналов (отсчетов функции корреляции). «Пробы» собираются в нужном порядке линией задержки синтезатора, и на выходе стоящего далее ФНЧ получается непрерывная функция корреляции. Поскольку она четная, синтезированное колебание должно быть симметричным относительно отсчета то- Практически этого можно добиться, если линию задержки сде- лать согласованно нагруженной на одном (входном) конце и не- нагруженной на другом (рис. 8.8). Отсчеты с выхода линии по- ступают на ФНЧ, восстанавливающий непрерывный сигнал. Поскольку в этом методе используется конечная задержка, измеренная функция корреляции оказывается обрезанной и в синтезированном колебании обычно имеются разрывы непре- рывности. Эти искажения можно уменьшить взвешиванием кор- реляции при больших задержках таким образом, чтобы они меньше влияли на синтезированное колебание. Это сглаживает разрывы, и речь получается сравнимой с речью на выходе по- лосного вокодера с той же компрессией.
340 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ 8.5. Формантные вокодеры 8.5.1. Принцип формантного анализа и синтеза речи Результаты акустических исследований (гл. III) наводят на мысль о том, что эффективное кодирование речи можно полу- чить, используя для этого информацию о резонансный максиму- мах речевого тракта. Эти результаты показывают, например,, что соседние отсчеты мгновенного спектра амплитуд не незави- симы, а сильно коррелированы. Действительно, задав комплек- сные нули и полюсы, мы тем самым задаем спектр на всех час- тотах. Это обстоятельство используется в формантном вокодере, где речевой сигнал кодируется по спектральным максимумам речевого тракта. Отсутствие в формантном вокодере большого числа управляющих сигналов, описывающих сильно коррелиро- ванные отсчеты спектра, дает основание надеяться на то, что он позволит получить большую компрессию речи, чем полосный во- кодер. Практичность формантного вокодера определяется тем, на- сколько хорошо удастся автоматически выделить данные о фор- мантных максимумах или их эквивалентах. Кроме того, в фор- мантном вокодере, как и в полосном вокодере, необходимо иметь информацию о возбуждении. Пока еще не создан рабо- тающий в реальном времени формантный вокодер, разборчи- вость и качество которого были бы лучше или такие же, как у полосного вокодера, хотя компрессия и получается больше. Од- нако тщательные исследования, возможные благодаря приме- нению цифровых вычислительных машин, позволяют считать, что решение этой задачи будет получено в недалеком будущем. Разработано и построено много типов формантных вокоде- ров. Хотя и невозможно рассмотреть каждый из них подробно, в этом разделе предполагается отметить типичные схемные ре- шения и полученные с ними результаты. Обычно формантные вокодеры разделяют на две группы, в принципе, определенные приведенными в гл. VI методами син- теза. Эта классификация связана с каскадным или параллель- ным соединением цепей синтезатора. В случае каскадного со- единения стремятся воссоздать сигнал моделированием, обычно поочередным, важных для восприятия нулей и полюсов переда- точной функции речевого тракта. Параметрами кодирования здесь являются комплексные частоты нулей и полюсов и инфор- мация о возбуждении (основной тон и сигнал тон-шум). В случае параллельного синтеза пытаются воссоздать сигнал несколько иным, но эквивалентным способом, а именно — на основе данных о частотах формант (полюсов) и их амплитудах
ФОРМАНТНЫЕ ВОКОДЕРЫ 341 (вычетах). Строго говоря, частоты максимумов и их вычеты комплексны. Последние однозначно определяются нулями спек- тра. В разделе 6.2 установлена с некоторыми подробностями связь между последовательным и параллельным представления- ми речевого сигнала. Если требуемые в обоих случаях данные удастся автоматически выделить с достаточной точностью, фор- мантный вокодер, по-видимому, должен синтезировать разбор- чивую речь лучшего качества, чем полосный вокодер. Поскольку с помощью формантного вокодера пытаются скопировать струк- туру речевого тракта со свойственной этому тракту комплекс- ной функцией передачи, этот вокодер позволяет получить луч- шее и более естественное описание спектра речи. Одним из самых первых заслуживающих внимания формант- ных вокодеров было устройство параллельного типа (Мансон и Монтгомери — Munson and Montgomery), показанное на рис. 8.9. В анализаторе спектр речевого сигнала делится на че- тыре полосы. В каждой полосе измеряются усредненная часто- та пересечения нулей F и усредненная амплитуда А '). Полу- чаются сигналы, напряжения которых пропорциональны этим величинам. Эти восемь параметров, определяющие амплитуды и частоты формант и основного тона, передаются на синтезатор. Синтезатор состоит из устройства возбуждения, трех пере- менных соединенных параллельно резонаторов и четвертой па- раллельной ветви с неподвижным фильтром нижних частот. Во- кализованное (импульсное) возбуждение в параллельных ветвях включается амплитудой основного тона Ай, которая также уп- равляет амплитудой сигнала, проходящего через ветвь, содер- жащую фильтр низших частот. Как и в полосном вокодере, ча- стота импульсов возбуждения задается величиной Fo. Турбу- лентное (шумовое) возбуждение параллельных ветвей задается амплитудой Д3. Амплитуды и частоты трех формантных ветвей непрерывно управляются, а эдс на их выходах складываются. Величины разборчивости системы составляют для гласных около 100%, для согласных около 70%. Занимаемая восемью управляющими сигналами общая полоса частот составляет око- ло 300 гц, т. е. примерно столько же, что и в полосном воко- дере. Впоследствии было создано большое количество других ва- риантов формантных вокодеров параллельного типа (например, Чанг—Chang; Кампанелла—Campanella; Айерс—Ayers; Стед и Джонс — Stead and Jones; Говард—Howard). Два из них будут ') Отметим, что в этой конструкции в обе верхние полосы обычно попа- дает больше одной форманты. Измеренные амплитуды и частоты нх опреде- ляют в первом приближении наиболее сильные форманты в каждой полосе.
342 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ упомянуты в дальнейшем при рассмотрении дискретизации и уплотнения. Одна из первых попыток реализовать систему каскадного ти- ла также позволила получить существенную экономию полосы частот управляющих сигналов (Фланаган и Хаус — Flanagan and Hayse). Вариант из рассмотренных в этой работе схем пока- зан на рис. 8.10. В ней используются следующие управляющие сигналы: частота основного тона Fo; амплитуда вокализованного возбуждения Av; три частоты формант Ft, F2, F3 (перекрываю- щие диапазон примерно от 100 до 3000 гц); частота единствен- ного сравнительно широкого фрикативного шумового резонанса
ФОРМАНТНЫЕ ВОКОДЕРЫ 343 Fn (гласного резонанса в диапазоне 30004-7000 гц) и амплиту- да шумового возбуждения Ап- Данные о частоте формант получаются с помощью анализа- тора с выбором максимума описанного в разделе 5.2. Ампли- туда основного тона определяется как выпрямленное и сгла- Рис. 8.10. Формантный вокодер последовательного типа (Фланаган и Хаус) женное напряжение на выходе фильтра нижних частот, а амп- литуда шумового возбуждения — как выпрямленный и сглажен- ный сигнал в полосе 30004-7000 гц. Основной тон измеряется такой же схемой выделения, как и в полосном вокодере. Каж- дый из семи управляющих сигналов ограничивался полосой ме- нее чем 10 гц фильтром нижних частот, так что общая занимае- мая ими полоса частот была порядка 60 гц. Все вокализованные звуки производились верхней цепью- резонаторов схемы рис. 8.10, соединенных каскадно. Турбулент- ные звуки вырабатывались с помощью последовательно-парал- лельной цепи, вводящей в передаточную функцию наряду с по- люсами и нули. Данные о самих частотах нулей не передава- лись. Хотя компрессия полосы и была высокой, система оказалась- сравнительно плохой. Артикуляция гласных (при передаче бес- смысленных слогов) была порядка 82%, согласных — в сред- нем 27%. Исследование отзывов слушателей по методу «матри- цы конфузий» показало, что они мало путали глухие звуки со звонкими. Однако при различении звонких взрывных и носовых ошибок было много; синтезатор оказался поистине неспособным синтезировать эти звуки. Кроме того, были ошибки в различе- нии аффрикатов и взрывных, которые объясняются, главным образом, временными неточностями из-за сильного ограничения полосы управляющих сигналов. Недавно путем моделирования на цифровой вычислительной машине усовершенствованного варианта синтезатора сделана
344 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ попытка исправить некоторые из этих недостатков (Фланаган, Коукер и Бирд — Flanagan, Coker and Bird). В синтезаторе предусмотрена дополнительная пара полюс—нуль в ветви для вокализованных звуков и управляемый нуль в ветви для глухих звуков (см. раздел 6.2). При соединении с моделированным на цифровой машине тщательно построенным анализатором фор- мант этот вокодер работал неожиданно хорошо (Коукер). Фор- мантный анализ в ЭВМ производился по методу детальной под- гонки спектра и обратной фильтрации, а цифровая обработка позволяла получить гораздо лучшую точность, чем при анало- говом устройстве. Точность слежения за формантами, а также более подробное описание свойств системы и возбуждения с по- мощью дополнительной пары нуль — полюс вносят, по-видимо- му, существенный вклад в улучшение качества синтезированной речи. Несколько слов можно сказать о сравнительных преимуще- ствах параллельной схемы перед последовательной и о том, подходе, который позволил бы получить самый эффективный и практичный ряд параметров. Передаточная функция вокализо- ванных звуков содержит только полюсы. Поэтому вычеты в этих полюсах являются функциями только частот полюсов. При за- данных частотах формант любые сведения об их амплитудах являются избыточными, поскольку амплитуды определяются частотами. В каскадном синтезаторе амплитуды формант уста- навливаются правильно автоматически, исключительно по дан- ным о частотах формант. При шумовых звуках передаточная функция речевого тракта может иметь нули, из которых один или два могут оказаться существенными для восприятия. Для учета этих факторов в каскадном синтезаторе необходимы управ- ляемые антирезонансы. И здесь известные частоты нуля и по- люса автоматически определяют амплитуды спектральных со- ставляющих. Для параллельного синтезатора требуются частоты важных для звучания полюсов и, в идеальном устройстве, комплексные вычеты в этих полюсах, определяющие и нули в спектре. Роль фаз вычетов при восприятии, если она и есть, еще только пред- стоит установить. Уместен вопрос: «Что легче анализировать ав- томатически, частоты нулей спектра или амплитуды и фазы спектральных максимумов?». Вопрос усложняется другим об- стоятельством, связанным с источником возбуждения. Каковы те его параметры, которые важны для восприятия? Легче ли их представить в той или другой форме? На данном этапе оконча- тельный выбор с практической точки зрения еще не ясен, для этого необходимы дальнейшие исследования.
ФОРМАНТНЫЕ ВОКОДЕРЫ 345. 8.5.2. Уплотнение и дискретизация формантных вокодеров Схема работающего в.реальном времени формантного воко- дера параллельного типа, который был подвергнут всесторонним испытаниям, показана на рис. 8.11 (Стед и Джонс — Stead and Jones). Наряду с проверкой непосредственного соединения анализатора и синтезатора этот вокодер был испытан с цифро- Рис. 8.11. Полная схема формантного вокодера, работающего по анало- говому и дискретному каналам (Стед и Джонс; Стед и Вестон) вой системой передачи с ИКМ и временным уплотнением. Мно- гие узлы этой системы аналогичны описанным ранее в других устройствах. В одном из вариантов в основе конструкции син- тезатора лежали результаты ранних исследований (Лоуренс — Lawrence, 1953). Выделитель частот формант использует метод автовыбора максимума, описанный в разделе 5.2. Замысел и выполнение схемы исключительно изящны, много внимания уде- лено обеспечению правильного выделения частот и амплитуд в большом динамическом диапазоне. В аналоговом варианте
346 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ фильтры нижних частот ограничивают спектр каждого из 8 уп- равляющих параметров примерно 20 гц, что дает суммарную полосу частот около 160 гц. Как указывается, разборчивость по фонетически сбалансированным словам при исходной речи высокого качества и сравнительно неквалифицированных слуша- телях составляет в среднем 70%. Как отмечалось ранее, цифровая передача очень выгодна. Не последним преимуществом является возможность периоди- чески регенерировать сигнал без накопления ошибок. Проблемы переключения, временного разделения и скрытности при цифро- вом сигнале решаются простейшими методами. Трудность здесь в том, что при таком кодировании требуется гораздо большая полоса частот, чем при аналоговой передаче. Например, речь полосой 3000 гц, отсчитанная по Найквисту (6000 отсчетов в се- кунду) и квантованная 6 или 7 разрядами, требует (без допол- нительного кодирования) полосу частот порядка 50 кгц. Если в результате соответствующего кодирования удастся снизить ско- рость передачи до величины порядка 1000 дв. ед.)сек, цифровой сигнал можно будет передавать по стандартным каналам шири- ной 3000 гц. Формантный вокодер позволяет рассчитывать на осуществление такого кодирования. В формантном вокодере (рис. 8.11) управляющие параметры ограничены частотой 20 гц. Для их дискретизации была найдена минимально допустимая скорость отсчетов 32 отсч.1сек. Эта ве- личина говорит о том, что значимая энергия управляющих пара- метров на частотах выше 16 гц мала. Приемлемые числа уров- ней квантования по амплитуде в данной системе показаны в табл. 8.3. При оценке цифровой передачи было решено, что 16 уров- ней для частоты первой форманты слишком много, а 8 — слиш- ком мало. Для трех параметров амплитуд было решено, что 8 уровней дают излишнюю точность и что можно получить до- полнительную экономию, кодируя их по логарифмическому за- кону. Интересно сравнить экспериментальные цифры табл. 8.3 с произведенной ранее оценкой точности, необходимой для пере- дачи аналогичных параметров (Фланаган, 1957, Ь). Более ран- ние оценки основывались на тех минимальных изменениях пара- метров формант, которые слушатели еще могли заметить (см. раздел 7.2). Полученная отсюда необходимая точность кванто- вания дана в табл. 8.4. Имея в виду ограниченность данных по восприятию, на кото- рых основаны эти оценки, близость полученных цифр к соответ- ствующим цифрам табл. 8.3 поразительна. Отсюда идея о том, что психоакустические измерения, подобные рассмотренным в
ФОРМАНТНЫЕ ВОКОДЕРЫ 347 Таблица 8.3 КВАНТОВАНИЕ СИГНАЛОВ ФОРМАНТНОГО ВОКОДЕРА (ПО СТЕДУ И ВЕСТОНУ — STEAD AND WESTON) Параметр Число уровней ДВОИЧНЫХ единиц Г1 16 4 Ft 16 4 F3 8 3 8 3 я2 8 3 4з 2 1 Т/Ш 2 1 Fa 641) 6 Всего 27 ’) Установлено для линейного ко- дирования частоты основного тона. Таблица 8.4. РЕЗУЛЬТАТЫ ОПРЕДЕЛЕНИЯ НЕОБХОДИМОЙ ТОЧНОСТИ КВАНТОВАНИЯ СИГНАЛ-ПАР АМЕТРОВ. ФОРМАНТНОГО ВОКОДЕРА Параметр Число уровней ДВОИЧНЫХ единиц Л 14 3,8 14 3,8 Fa 9 3,2 41 3 1,6 я2 3 1,6 4з 2 1,0 40 5,3 Всего 20,3 Примечание. Оценки основаны на определении минимально заметных из- менений параметров при синтезе гласных (Фланаган, 1957, Ь). Амплитудные пара- метры прологарифмированы. гл. VII, могли бы вполне законно применяться для достаточно надежной оценки работы различных систем. После квантования сигналы (рис. 8.11) в виде ИКМ посту- пают на передачу. При частоте отсчетов 32 гц их объем состав- ляет 672 дв. ед./сек, а вместе с основным тоном, кодируемым 6 разрядами,—864 дв. ед./сек, что можно передавать по боль- шинству обычных каналов шириной 3000 гц. Сообщается, что хогя подробных испытаний не проводилось, разборчивость и ка- чество передаваемого в цифровом виде сигнала лишь незначи- тельно отличаются от аналоговой передачи. При работе систе- мы замечено интересное явление: спектр шума квантования, обусловленный дискретизацией управляющих сигналов, лежит за пределами диапазона звуковых частот. Этом шум скорее свя- зан с квазислучайной неопределенностью в процессе синтеза. Субъективный характер этого явления полностью не исследован. Проведено предварительное исследование роли ошибок в. цифровой передаче параметров формантного вокодера (Кам- панелла, Каултер и Айронс—Campanella, Coulter and Irons). Система, с которой проводились испытания, аналогична пока-
348 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ занной на рис. 8.11 (за исключением того, что переключение тон-шум производилось основным тоном. Общая полоса частот управляющих сигналов составляла 140 гц. Параметры формант квантовались 3 разрядами, основной тон—5. При частоте от- счетов 43,5 гц, уплотненный во времени сигнал занимает канал объемом около 1000 дв. ед.!сек. Утверждается, что при передаче с такой скоростью артикуляция слов без ошибок составляет около 80 % • При частоте ошибок, составляющей 3% от скорости сигнала, артикуляция падает на 15%. Это ухудшение эквива- лентно уменьшению отношения сигнал/шум при аналоговой пе- редаче на 9,5 дб. 8.5.3. Формантные полувокодеры Описанный в разделе 8.3 метод возбуждения голосом был применен и к формантному вокодеру (Фланаган, 1960, Ь). Блок- схема формантного полувокодера показана на рис. 8.12. Нуле- вой канал шириной около 400 гц (от 300 до 700 гц) передается передачи. Рис. 8.12. Блок-схема формантного полувокодера (Флана- ган, 1960) без обработки. Диапазон частот от 800 до 3200 гц представля- ется тремя формантами, амплитуды и частоты которых переда- ются в канал. Выделение формант производится по методу вы- бора максимума, описанному в гл. V. Все управляющие сиг- налы ограничиваются верхней частотой 17 гц. Общая полоса частот получается немногим больше 500 гц.
АРТИКУЛЯТОРНЫЕ ВОКОДЕРЫ 349 В синтезаторе производится расширение спектра нулевого канала. Он клиппируется, дифференцируется, после чего им- пульсы одной полярности запускают ждущий мультивибратор. Его выходные импульсы используются как сигнал возбуждения формантных каналов. Турбулентные звуки создают на выходе мультивибратора всплекс шума. Звонкие звуки создают перио- дические импульсные последовательности, в которых иногда имеется более одного импульса на период. Такой метод в общем дает улучшение качества и натураль- ности речи, передаваемой формантным вокодером. Но поскольку основную часть общей полосы частот занимает нулевой канал, формантный полувокодер ненамного экономичнее полосного. В другом подобном вокодере для возбуждения голосом спектр в области первой форманты используется для формиро- вания второй и третьей формант (де Джаге — de Jager, част- ная переписка, 1961). Выделяются и передаются в необработан- ном виде по нулевому каналу частоты от 300 до 800 гц. В двух других формантных областях от 800 до 2000 гц и от 2000 до 3200 гц соответственно счетчики переходов через нуль, выпря- мители и интеграторы выдают сигналы, определяющие ампли- туды и частоты формант. Каждый из этих четырех сигналов ог- раничивается верхней частотой 40 гц и вместе с сигналом нуле- вого канала передается на приемную сторону. В восстановленный синтезатором спектр нулевого канала (в основном первая форманта) входит в своем первоначальном ви- де. Вторая форманта синтезируется отдельной параллельной ветвью путем гетеродинирования нулевого канала в положение, соответствующее измеренному значению частоты второй фор- манты. Третья форманта получается аналогичным образом. Вы- ходной речевой сигнал получается путем сложения трех парал- лельных ветвей в соответствии с измеренными амплитудами. Со- ставляющие спектра гетеродинированных полос в общем случае выходят из гармонических соотношений, и частота основного тона в них определяет только расстояние между спектральными линиями. На слух такое ухудшение передачи основного тона менее заметно, чем можно было ожидать, поскольку спектр нулевого канала, воспроизводимый с правильной линейчатой структурой, обеспечивает эффективную маскировку. 8.6. Артикуляторные вокодеры Весьма заманчивым подходом к решению общей проблемы вокодерной техники является кодирование речи по артикуля- торным параметрам. Подобное описание имеет ряд преиму- ществ, поскольку здесь непосредственно учитываются физиоло-
350 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ 1 гические свойства речевого тракта человека. Непрерывные сиг- . налы, отражающие свойства речевого тракта, могут быть ис- । пользованы для формирования всех звуков — как согласных, так и гласных. Передаче подлежит совокупность сведений о меняющихся во времени конфигурациях тракта и о характере его возбуждения. Идею анализа, конечно, не во всей полноте и сложности, можно проиллюстрировать на примере описанной в п. 5.4 аппаратуры согласования артикуляторных и спектральных параметров. В качестве синтезатора может служить управляемая электри- ческая модель речевого тракта, описанная в п. 6.2, или ей экви- валентное устройство. До настоящего времени полной вокодер- ной системы, основанной на этом принципе, не разработано. Од- нако сам подход представляется многообещающим и заслужи- вающим внимания. Успех подобной разработки в сильной сте- пени зависит от точности автоматического определения артику- ляторных данных по акустическому сигналу. Как показывает материал гл. V, необходимой основой для анализа может слу- жить вычислительная техника. 8.7. Другие методы сокращения полосы 8.7.1. Ограничение полосы и соотношение сигнал/шум Для достижения умеренного сокращения полосы пропуска- ния тракта предложен целый ряд методов преобразования сиг- нала, использующих специфические свойства речевого сигнала, слухового аппарата или лингвистической структуры. Эти методы обычно основаны на том, что в преобразованном сигнале могут оставаться небольшие неустранимые искажения. Однако следует применять такие преобразования, которые не вносят слишком заметных искажений, т. е. преобразования, при которых разбор- чивость и качество речи сохраняются высокими. Что касается систем типа «анализ—синтез» в системах син- тетической телефонии, то при идеальном выделении параметров возбуждения и передаточной функции применение операций ко- дирования и синтеза, в принципе, не вносит искажений в восста- новленный сигнал. Пожалуй, проще всего дать качественную оценку характера операций анализа—синтеза в рассматривае- мых трактах, а в ряде случаев оценить и потенциальные воз- можности сжатия спектра, выяснив свойства механизма рече- образования, слуха и лингвистической структуры, используемые при кодировании. Чем в большей степени учтены эти свойства, Тем больше, как правило, потенциальные возможности сжа- тия спектра.
ДРУГИЕ МЕТОДЫ сокращения полосы 351 Хотя основное внимание в этой главе уделяется устройствам типа «анализ—синтез» и устройствам, в основном предназна- чающимся для существенного сокращения полосы частот, тем не менее представляют интерес и такие системы, в которых до- стигается умеренная экономия полосы частот, но сохраняется хорошее качество и высокая разборчивость речи. В частности, аппаратура, реализующая именно эти методы, отличается ком- пактностью и невысокой стоимостью. Область применения по- добных методов довольно широка—от подвижных радиостанций и метеорных систем связи до коммерческих каналов проводной связи. В настоящем разделе описывается несколько характер- ных систем этого вида. Поскольку имеется множество разнооб- разных предложений, нельзя претендовать на полноту изло- жения. Классическая формула Шеннона для пропускной способности канала связи отражает соотношения взаимности между шири- ной полосы пропускания и соотношением сигнал/шум. Подоб- ные соотношения на уровне восприятия в некоторых пределах характерны и для речи, передаваемой звуковым давлением. В этом можно убедиться на примере диаграммы для индекса артикуляции, показанной на рис. 7.24. При наличии шума с за- данной и одинаковой на всех частотах спектральной плотностью, допустим, равной 30 дб, индекс артикуляции определяется про- центным отношением площади «речевой области», не покрытой шумом. Этот индекс артикуляции для всей полосы речевого сигнала, равной 6000 гц, соответствует определенной разборчи- вости речи (см. рис. 7.25). Если теперь ограничить полосу ча- стот, скажем до 1500 гц, энергетический спектр сигнала следует увеличить по уровню на несколько децибел, чтобы незамаскиро- ванная часть речевой области осталась прежней по площади, что, следовательно, приведет к сохранению прежнего индекса артикуляции. В некоторых случаях, когда первостепенное зна- чение имеет экономия полосы частот, а уровень шума може~ хотя бы частично контролироваться, использование подобных соотношений взаимности при жестком ограничении полосы мо- жет быть весьма успешным. Границы разборчивости (но не обя- зательно качества) определяются по рис. 7.21, откуда следует, что разборчивость слов в предложениях сохраняется около 70% даже при соотношении сигнал/шум, равном 0 дб. 3.4.2,. Амплитудное квантование и кодирование. Клиппированная речь Разборчивость предельно ограниченного по амплитуде рече- вого сигнала лишь слегка ниже разборчивости обычной речи (Ликлайдер и Поллак — Licklider and Pollack). Однако по каче-
352 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ ству звучания клиппированная речь жестка и неприятна для слуха. Если исходный сигнал зашумлен, на выходе клиппирую- щего устройства в паузах речи прослушивается клиппирован- ный шум, сравнимый по уровню с полезным речевым сигналом. Это оказывает сильное мешающее действие. Применение опера- ций дифференцирования до клиппирования и интегрирования после него несколько повышает разборчивость и качество зву- чания. Поскольку звуки речи отличаются высоким пик-фактором, клиппирование дает выигрыш в тех случаях, когда пиковая мощность передатчика ограничена (например, при амплитудной модуляции). При некоторых значениях уровня шума применение операции клиппирования приводит к повышению разборчивости, эквивалентному повышению уровня исходного сигнала на 12 дб (Уотен-Данн и Липке — Wathen-Dann and Lipke). Речь хорошего качества получается при дискретной передаче с частотой следования отсчетных значений, равной 8000 гц (для полосы 4000 гц), при квантовании семью двоичными разряда- ми1). В тех случаях, когда приемлемо качество, характерное для клиппированной речи, число двоичных разрядов и емкость канала могут быть уменьшены в 7 раз. Клиппирование однополярного сигнала. Обычно полоса час- тот, необходимая для передачи речи, простирается от 300 до 3000 гц и перекрывает диапазон более трех октав. Предельное ограничение спектральных компонентов в этом диапазоне сопро- вождается нелинейными искажениями, комбинационные частоты которых попадают в тот же диапазон. Если же применить опе- рацию гетеродинирования, т. е. переноса спектра в область более высоких частот, то исходная полоса речевого сигнала будет пе- рекрывать только часть октавы. Однако временная огибающая смещенного по спектру сигнала повторяет форму исходного сиг- нала. Продукты нелинейности, образованные клиппированием смещенного сигнала, теперь выходят за пределы полосы. Ограни- чением спектра смещенного клиппированного сигнала с сохране- нием исходной ширины полосы и последующим переносом в перво- начальный диапазон частот можно получить сигнал с постоян- ной амплитудой, нули временной функции которого приблизи- тельно совпадают с нулями исходного сигнала. Однако компо- ненты нелинейности, вызванные клиппированием, теперь исклю- чены. Обычным методом реализации операции смещения спектра является однополосная модуляция. В одном из первых исследо- ’) При квантовании семью двоичными разрядами число уровней кванто- вания равно 128 (прим, перев.).
ДРУГИЕ МЕТОДЫ СОКРАЩЕНИЯ ПОЛОСЫ 353 ваний сообщалось о том, что сигнал постоянного уровня вос- принимается на слух так же, как и исходный, с сохранением разборчивости и хорошего качества (Марку и Даге — Магсои and Daguet). Аналогичные преобразования использованы в системе «Фре- на», в которой, кроме клиппированного однополосного сигнала, передается медленно меняющийся сигнал огибающей непреоб- разованного сигнала. Спектр огибающей ограничен полосой 100 гц. Этот сигнал используется в приемнике для амплитудной модуляции клиппированного сигнала (де Джаге и Грифкес — de Jager and Greefkes). Следовательно, сигнал огибающей дейст- вует как автоматический регулятор громкости. В интервалах, где его уровень невелик, помехи от клиппированного шума пол- ностью подавляются. Кроме того, восстанавливается естествен- ная динамика речевого сигнала. И в то же время клиппирован- ный однополосный сигнал обеспечивает глубокую модуляцию в передатчике, даже при тихой речи. Упомянутая система отно- сится не к системам сжатия спектра, а к системам повышения эффективности связи в условиях помех и ограниченной пиковой мощности. Артикуляционные испытания показывают, что этот метод при низком соотношении сигнал/шум обеспечивает выигрыш по разборчивости по сравнению с обычной однополосной переда- чей, эквивалентный повышению отношения сигнал/шум порядка 15 дб. Квантование по времени клиппированного сигнала. Незна- чительное влияние операции клиппированния на разборчивость речи позволяет предположить, что большая часть информации содержится в нулях временной функции. В связи с этим возни- кает вопрос о допустимых погрешностях воспроизведения мо- ментов перехода через нуль. Ответ на этот вопрос эксперимен- тально получен при исследовании влияния квантования по вре- мени предварительно продифференцированной клиппированной речи с последующим интегрированием (Ликлайдер — Licklider, 1950). Рассматривались два метода квантования интервалов пере- хода через нуль. В методе А в конце заданного интервала вре- мени формировался фронт двухуровневого сигнала только в том случае, если в течение этого интервала входной сигнал клиппи- рованной речи менял свою полярность не менее одного раза. В методе Б фронт формировался только, если входной сиг- нал менял свою полярность нечетное число раз в течение интер- вала. Параметром была длительность квантующего интервала. Результаты артикуляционных испытаний с применением фонети- чески сбалансированных таблиц позволяют оценить разборчи- 12—71
354 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ вость речи, преобразованной по обоим методам. Полученные данные показаны на рис. 8.13. Если длительность интервала квантования превышала 0,5 мсек, слушатели почти ничего не понимали. Звучание кван- g 100 В 80 'I 20 <3 о 0,7 0,5 0,3 0,2 0,10 0,08 0,06 005 0,025 Интервал квантобания ,мсек Рис. 8.13. Разборчивость слов квантован- ной по времени клиппированной речи. По- тованной речи напомина- ло «журчание» в слу- чае А и было подобно фиксированному тону в случае Б. При длительно- сти интервала квантова- ния от 0,5 до 0,1 мсек ме- тод Б обеспечивал более высокую разборчивость, чем метод А. В обоих ме- тодах по мере укороче-. казаны результаты для двух методов кван- ния интервала квантова- тования шкалы времени (Ликлайдер, 1960) ция вначале повышалась разборчивость гласных, а затем — согласных. Причина, по-видимому, заключается в том, что для гласных плотность перехода через нуль меньше, чем для согласных, особенно глухих. Если интервал квантования был короче 0,1 мсек, разборчивость сохранялась почти такой же, как и для не квантованной во времени клиппированной ре- чи, т. е. около 95% (Ликлайдер и Поллак). Качество звучания квантованного по времени сигнала оказа- лось хуже, чем следовало бы ожидать по данным разборчивости. Остаточный шум в первоначальном сигнале за счет клиппиро- вания подчеркивается, а интервал квантования обычно не свя- зан с периодом основного тона сонорных звуков. Тем не менее передача прямоугольных посылок с частотой перемены знака не менее 10 кгц обеспечивает достаточно высокую разборчи- вость. Если передавать информацию об экстремумах исходного ре- чевого сигнала, а также об интервалах между экстремумами, качество речи улучшается. Идея метода состоит в определении амплитуд максимумов и минимумов речевой волны, а также временных интервалов между ними (Мэтьюз—Mathews). Эти параметры подвергаются дискретному кодированию и переда- ются по каналу связи. В месте приема сигнал восстанавливается путем интерполяции данных об экстремумах. При наличии буф- ферного накопителя с емкостью, рассчитанной на время запол- нения порядка одной секунды, достигается средняя скорость пе- редачи около 15 000 дв. ед/сек. Разборчивость и качество при этом оказались сравнимыми с достигаемыми при ИКМ и ско- рости передачи от 30 000 до 40 000 дв. ед./сек.
ДРУГИЕ МЕТОДЫ СОКРАЩЕНИЯ ПОЛОСЫ 355 Предложен также метод амплитудного квантования, в ко- тором низкочастотные составляющие речевого сигнала переда- ются большим числов уровней квантования при низкой часто- те дискретизации по времени, а высокочастотные составляющие подвергаются дискретизации с высокой частотой, а кванту- ются при малом числе уровней (Дэвид и Макдоналд — David and McDonald, 1956, b) '). Низкочастотные составляющие, ко- торые квантуются с большей точностью, эффективно маскируют шумы квантования высокочастотных компонентов. В типичном устройстве передачи речи диапазон 4000 гц делится фильтром нижних и верхних частот с частотой среза 1000 гц. Низкочас- тотный поддиапазон подвергается дискретизации с частотой 2000 гц и квантуется на 6 двоичных разрядов. В высокочастот- ном поддиапазоне частота дискретизации выбирается равной 8000 гц, а число двоичных разрядов равно двум. Общая емкость канала при этом составляет 28000 дв. ед.1сек. 8.7.3. Частотное деление и умножение. Временное сжатие и расширение Изобретен целый ряд систем деления и умножения спек- тральных составляющих речевого сигнала. При этом обычная мотивировка состоит в том, что деленный сигнал требует для передачи пропорционально меньшей ширины полосы канала. Без существенного снижения разборчивости коэффициент деле- ния частоты может быть равен двум или трем. При соответст- вующем увеличении скорости воспроизведения исходные спек- тральные составляющие восстанавливаются. Конечно, восста- новление путем увеличения скорости приводит к сжатию сиг- нала во времени. Для осуществления операций деления и умножения приме- няются различные методы, в том числе электрические, механи- ческие, оптические и цифровые. В деталях все они здесь не опи- сываются. Однако изложение некоторых из них будет служить хорошей иллюстрацией имеющего место разнообразия разрабо- ток применений рассматриваемых методов. Одним из методов деления спектров для сужения полосы является «вобэнк» (Богерт—Bogert, 1956) * 2). Принцип системы поясняется упрощенной схемой (рис. 8.14) (без применения ге- теродинирования). Речевой спектр в полосе 2004-3200 .гц разде- ’) Аналогичный метод, применяется и при кодировании телевизионных сигналов (см.* Д. С. Лебедев и И. И. Цу к к е р м а н. Прим. перев.). 2) Система была предложена и опубликована в 1'943 г. * В. Н. Листо- вым (прим. ред.). 12*
356 СИСТЕМЫ синтетической телефонии ляется на три полосовых канала: А2, Л3. Ширина полосы каждого канала составляет около 1000 гц, что примерно соот- ветствует ширине формант. С помощью регенеративных дели- телей в каждой полосе осуществляется деление частоты в два /7<Р ' ПФ ПФ Рис. 8.14. Блок-схема системы деления—умножения частоты типа «вобэвк» (Богерт, 1956) раза и выходной сигнал ограничивается по спектру полосовыми фильтрами Bi, В2, В3, полосы пропускания которых в два раза уже. Сигналы с выходов фильтров складываются и образуют групповой сигнал, спектр которого в два раза уже исходного. В месте приема сигнал снова расфильтровывается на три полосы—Bi, В2, В3. В каждой полосе путем умножения на 2 происходит восстановление исходных полос. Результирующие напряжения складываются, образуя выходной сигнал. При ар- тикуляционных испытаниях системы вобэнк с участием 48 слу- шателей и 10 дикторов получена разборчивость согласных около 80%. Испытания разборчивости непреобразованного сиг- нала, но ограниченного по спектру полосой 200-4-1700 гц, про- веденные в тех же условиях, дали результат около 66%. Исследовались и другие системы деления спектров, подоб- ные системе вобэнк (Секи, Марку и Даге—Seki, Marcou and Daghet). В одном из предложений (система кодимекс) рас- сматривается потенциальная возможность деления спектров в восемь раз (Даге). В одном из исследований подробно рассмотрены возможно- сти применения оптических и механических струнных фильтров, а также ультразвуковых запоминающих устройств для деления и умножения спектров, причем особое внимание обращено на отдельный составляющие спектра сигнала (Вилбиг—Vilbig, 1950, 1952; Вилбиг и Хаазе—Vilbig and Haase, 1956, b). В результате аналогичных исследований разработан электрический «расшири- тель спектра» (Гулд—Gould). В нем используется идея увеличе- ния масштаба времени с помощью устройства, показанного на
ДРУГИЕ МЕТОДЫ СОКРАЩЕНИЯ ПОЛОСЫ 357 рис. 8.15. Речевой сигнал фильтруется гребенкой из 32 полосо- вых фильтров, перекрывающих диапазон от 75 до 7000 гц. По- лосы пропускания фильтров до 1000 гц приблизительно равны 100 гц, а далее логарифмически увеличиваются. Удвоение час- Рис. 8.15. «Расширитель» речи с умножителями частоты для получения эффекта расширения шкалы времени (Гулд) тот в каждой полосе достигается за счет двухполупериодного выпрямления. Большая часть продуктов нелинейности устраня- ется с помощью полосовых фильтров, ширина полосы которых удвоена по сравнению с исходной. После записи результи- рующего сигнала и его воспроизведения с половинной скоростью положение спектральных составляющих восстанавливается, но масштаб времени расширяется в два раза. В целом система деления—умножения спектров с достаточ- но большим числом фильтров, в полосы пропускания которых попадала одна гармоника основного тона, исследовалась путем моделирования на ЦВМ (Шредер, Логан и Престиджиакомо — Schroeder, Logan and Prestigiacomo). При реализации метода в устройстве, названном «гармоническим компрессором», исполь- зовалась гребенка из 50 полосовых фильтров с полосами по 60 гц, перекрывающих диапазон от 240 до 3240 гц. Блок-схема устройства для двукратного сжатия спектра показана на рис. 8.16. На передающей стороне сигналы с выхода полосовых фильтров делятся по частоте в два раза и при сложении обра- зуют групповой сигнал, который по сравнению с исходным сиг- налом занимает при передаче полосу частот в два раза уже. В месте приема спектральные полосы снова разделяются филь- трами и восстанавливаются с помощью двукратного умноже- ния частоты. Все фильтры и преобразования моделировались на универсальной ЦВМ. По предварительным оценкам на слух передаваемый сигнал по качеству и разборчивости занимает промежуточное положение между сигналом полувокодера с ну- левым каналом полосой 700 гц и непреобразованным сигналом исходной полосы частот. Для восстановления спектра в перво'
358 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ начальных пределах можно применить воспроизведение, также ускоренное в 2 раза. В ряде других методов используется квазипериодичность звонких звуков речи. В одном из них предусматривается син- Рис. 8.16. Блок-схема гармонического компрессора (Шредер, Логан и Престиджиакомо) хронная с основным тоном коммутация сигнала для передачи только одного из каждых очередных п периодов (Дэвид и Мак- доналд—David and McDonald, 1956, а). На выходе канала связи принятые сигналы дополняются повторением (п—1) раз пере- данного периода1). Предложен также метод несинхронного пре- образования с исключением части отрезков исходного сигнала, в котором используются подвижные относительно перемещаю- щейся магнитной ленты воспроизводящие головки (Фербенкс, Эврит, Йеиге—Fairbanks, Everitt, Jaeger). 8.7.4. Метод статистического использования пауз речи (ТАСИ) Известно, что при переговорах двух абонентов каждый из них в среднем 50% времени молчит, слушая другого абонента. Кроме того, имеются короткие и продолжительные паузы. В среднем абонент занимает канал только на 35—40% времени. На линиях дальней связи с промежуточными усилительными пунктами двусторонние каналы связи обычно обеспечиваются четырехпроводными цепями, т. е. двумя однонаправленными линиями передачи. Каждый абонент имеет отдельные передаю- щую и приемную цепи. Из-за неполной загрузки разговорным сигналом канал каждого направления простаивает 60 — 65% времени. Если между двумя станциями ведется большое число ') См. также работу * Габора (Gabor) (прим. ред.).
ДРУГИЕ МЕТОДЫ СОКРАЩЕНИЯ ПОЛОСЫ 359. переговоров, то статистические свойства ансамбля сигналов таят дополнительные резервы емкости каналов по времени и полосе частот. Метод практического использования этой емкости во- площен в системе ТАСИ [от начальных букв «Time Assignment Speech Interpolation» TASI (О’Найл — O’Neil; Буллингтон и Фрейзер — Bullington and Fraser)]. Система ТАСИ применяется при наличии группы однона- правленных линий передачи и приема. Типичный пример — ли- нейные пары подводного кабеля. Система позволяет одновре- менно обслуживать большее количество абонентов, чем имеет- ся однонаправленных цепей. Каждая передающая абонентская цепь оборудована быстродействующим детектором речи. Когда детектор отмечает наличие речевого сигнала в цепи, автомати- ческий электронный коммутатор подключает абонентскую ли- нию к незанятому каналу системы ТАСИ. Каждому сигналу выделяется свой канал. Когда все каналы окажутся занятыми, коммутатор ТАСИ отыскивает тот канал, в котором в данный момент наблюдается пауза, отсоединяет его и подключает к абоненту, пославшему сигнал. Во время пауз любой из абонентов теряет преимущество на тот или иной канал передачи. Как только абонент начинает го- ворить, ему предоставляется канал снова, но зачастую уже дру- гой. Коммутатор ТАСИ должен осуществлять последовательный поиск (кто с кем говорит) и находить корреспондента для каж- дого передаваемого сигнала. «Адресная» информация может передаваться в виде короткого позывного сигнала либо же пе- ред началом каждого разговора должен включаться вспомога- тельный канал, обслуживающий всю систему. Ясно, что количество сигналов, передаваемых с помощью заданной группы каналов, ограничено. Превышение этого коли- чества ,может привести к недопустимой задержке или потерям связи. Среди прочих факторов упомянутый предел является функцией количества кабельных цепей, отношения сигнал/шум и чувствительности детекторов речи. Установки системы ТАСИ внедрены на некоторых подводных кабельных линиях. Напри- мер, при использовании ТАСИ на линии 36-парного кабеля мож- но повысить его пропускную способность, эквивалентно дву- или трехкратному увеличению количества физических цепей. Выше упоминалось, что естественные паузы длительностью порядка фонемы, слога и более имеются также и в монологах. Ясно, что применение принципа ТАСИ позволит повышать эф- фективность использования полосы частот за счет использова- ния этих пауз и в одном канале. Подобная идея эксперимен- тально проверялась на «абонентской» системе ТАСИ («опе-тап» TASI) (Фланаган, Шредер и Бёрд — Flanagan, Schroeder and
360 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ Bird). Система моделировалась на ЦВМ. Принцип ее действия иллюстрируется схематической спектрограммой1) (рис. 8.17). Предположим, что необходимо передать речевой сигнал, шири- на спектра которого равна w. Однако полоса пропускания ка- Рис. 8.17. Схематическая спектрограмма звука, иллюстрирующая принцип «одноканальной» системы ТАСИ (Фланаган, Шредер и Бёрд) нала равна 0,5 w. Естественные паузы в сигнале, ограниченном полосой 0,5 w, могут быть использованы для передачи инфор- мации, содержащейся в другой части полосы, равной также 0,5 w. Поддиапазоны с шириной полосы 0,5 w назовем вч (высо- кочастотный) и нч (низкочастотный). Тогда возможны четыре различные ситуации: а) сигнал нч отсутствует, сигнал вч обнаруживается, пере- носится по спектру в диапазон нч и передается по каналу с по- лосой 0,5 w, б) одновременно обнаруживаются оба сигнала, сигнал нч сразу же передается, а вч переносится вниз по спектру и запи- *) См. также после. .авание * А. А. Смердова (прим. ред.).
ДРУГИЕ МЕТОДЫ СОКРАЩЕНИЯ ПОЛОСЫ 361 сывается в накопителе для последующей передачи (интерва- лы ты на рис. 8.17); в) оба сигнала не обнаруживаются, в течение появившейся паузы (интервалы rg на рис. 8.17) передается предварительно накопленный сигнал вч. Однако из-за недостаточной длительно- сти паузы часть вч информации может теряться. Статистические исследования показывают, что средняя длительность активного интервала составляет 130 мсек, а паузы—100 мсек (Болт и Мак- доналд— Bolt and McDonald). Отсюда следует, что около 3Л3 объема вч сигнала может теряться. Сигнал низкой частоты про- ходит без потерь; г) при наличии одного сигнала нч он немедленно передается обычным способом. Для каждого диапазона требуется по одному детектору речи. При экспериментах использовались двухполупериодные выпря- мители с постоянной времени фильтра, равной 15 мсек. Их вы- ходы подключены с пороговым устройствам с заранее выбран- ными гистерезисными свойствами. Бинарные выходные сигна- лы детекторов, обозначенные DB и DB на рис. 8.17 и необхо- димые для правильного восстановления речи, должны переда- ваться по отдельному узкополосному каналу. Из-за наличия накопителя на передающей стороне сигнал на приемной стороне воспроизводится постоянно с запаздыванием. Принцип восстановления очевиден из функциональной схемы полной системы (рис. 8.18). В приемнике используются два блока запаздывания. Один из них обеспечивает фиксированную максимальную задержку нч сигнала на время тт. Ее величина равна или больше длительности самого продолжительного на- копленного отрезка речи. Второй блок—с переменным запазды- ванием, величина которого определяется разностью между т,„ и длительностью последнего переданного отрезка речи. В таблице на рисунке показаны различные условия коммутации, определяемые характером выходных сигналов детекторов DB и DB. При цифровом моделировании системы на универсальной ЭВМ. емкость накопителя вч была принята равной 500 мсек. В тех редких случаях, когда длительность отрезка речи превышает 500 мсек, чтобы не допустить неправильного восстановления, ос- таток записи вч сигнала стирался. Типичное поведение системы по результатам моделирования иллюстрируется спектрограмма- ми (рис. 8.19), соответствующими фразе «High altitude jets whiz past screaming» («С ревом промчались высотные реактивные самолеты»). Если сравнить работу всей системы с работой ка- нала с йолосой 0,5 w, то видно, что в рассматриваемой системе передается значительная часть высоких частот. Передаются все
362 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ Dg Рн Пер ! Пер. 2 Нахолитем 10! о — 0 10 1 ---- 1110 Запись 0 0 0 0 воспроизведение Рис. 8.18. Блок-схема «одноканальной» системы ТАСИ, предназна- ченной для двукратного сжатия спектра (Фланаган, Шредер и Бёрд) Рис. 8.19. Спектрограмма речи, |Н.члюстрирующая действие однокаиального ин терполятора речи
ДРУГИЕ МЕТОДЫ СОКРАЩЕНИЯ ПОЛОСЫ Зв» высокие частоты турбулентных взрывных звуков и большая часть высоких частот гласных звуков. Усовершенствование дос- тигается ценой усложнения накопителя и системы коммутации, а также внесения запаздывания на 0,5 сек. 8.7.5. Представление речи ортогональными функциями Один из возможных способов описания сигнала минималь- ным числом независимых параметров состоит в аппроксимации его набором ортогональных функций1). В этом случае инфор- мация передается коэффициентами разложения. Желательно выбирать ортогональную систему функций с учетом некоторых известных характеристик сигнала. Метод разложения по ортогональным функциям применим для описания как временной функции речи, так и ее амплитуд- ного спектра. При попытке точного описания формы речевой волны с сохранением фазовых соотношений потенциальные воз- можности сжатия спектра невелики2). С другой стороны, спек- тральный подход таит больше возможностей. Заслуживают вни- мания также некоторые интересные соотношения между мгно- венным спектральным и корреляционным анализом. Разложение во временной области. Одним из наиболее об- щих методов, описанных в литературе, является метод пред- ставления временной функции сигнала ортогонализированным набором экспоненциальных функций (Хаггинс — Huggins, 1957; Коотц—Kautz). Метод применялся для анализа на интервале длительности периода звонких звуков (Доланский—Dolansky, 1960). Сигнал /(/) в пределах одного периода ОТ можно приб- лиженно представить в виде (8-5> т где gm(t) — совокупность ортогонализированных экспоненци- альных функций. Изображения по Лапласу функ- ций нечетных и четных порядков соответственно имеют вид ') Более подробно о применении аппарата ортогональных разложений в задачах анализа и синтеза речи см. * В. И. Куля (прим. ред.). 2) Н. К. Игнатьев заметил, что в этом случае возможности сокраще- ния спектра в 2 раза меньше, чем в случае применения вокодеров, не требую- щих передачи информации о фазовом спектре '(см. * А. А. Пирогов). При этом следует иметь в виду, что воспринимаемый тембр речи сильно зависит от фа- зовых соотношений в синтезируемом спектре (* В. Е. Муравьев) (прим, ред.).
36' СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ о.-. (S) - v^-^'.-П ±±^±il_ (s-s„)(s-s„) .= 1 (S~Sj) (S-Sf) 0„ (s)=—*-|*-| п (s-s„)(s-sn) /=1 (S-Sj)(s-S/.) где sn= (—<*„ +ip4). Оригиналами изображений (8.6) являются п Згп-1 W = У “Г I R 2«-I (Sft) I е-а? Sin Z ~ &2"-1 М ST п §2п W = У^-1 я2, (Sfc) е~sin [₽ft (<) _ (Sfc)] *=i (8.6) . (8.7) где я . W = |0„ (s) [(» + + й] ” 9- W = ^Чт-' К I JV fи (8Ь Первые две функции gm(t) представляют собой затухающие синусоиды, отличающиеся фазами и амплитудами. Множители Gm(s) под знаком произведения совпадают с коэффициентами передачи четырехполюсников (фазовых контуров), равномерно пропускающих все частоты. По мнению автора (Доланский), число п — 7 (или т=14) является достаточным для хорошей ап- проксимации речевой волны. Критические частоты sm выбира- ются так, чтобы перекрыть весь диапазон частот голоса с интер- валами порядка нескольких сотен герц. Считая, что Д/)=0 при со t=0 и с учетом соотношения J gp(t) gq(t)dt— о получаем формулу для определения k-ro коэффициента разло- жения в ряд по ортонормированным функциям: 1; р = q 0; cfc = J/(/) gk(t)dt. (8.8) о Простой, но непрактичный, метод измерения коэффициентов очевиден. Предположим, что сигнал /(/) пропускается через фи- зически реализуемый фильтр с импульсным откликом gh{t}- Тогда сигнал на выходе t/W = J^(r)/(/-T)dT. (8.9) о
ДРУГИЕ МЕТОДЫ СОКРАЩЕНИЯ ПОЛОСЫ 365 Если же f(t) заменить его зеркальным изображением /(—/), то выходной сигнал примет вид U(t)=]gk^f(t + r)dr. (8.10) о Значение .Uo, т. е. мгновенное значение в момент окончания сиг- нала f(t) с обращенной осью времени, совпадает с ch. Искомые коэффициенты получаются в результате измерений для всех gm (0 • Пожалуй, более приемлемым на практике примером исполь- зования ортогональных функций для передачи речевой волны в естественном масштабе времени является система, изображен- ная на рис. 8.20а (Мэнли и Клейн — Manley and Klein). С по- мощью выделителя основного тона при анализе звонких звуков формируется последовательность импульсов с частотой основ- ного тона. Эти импульсы подаются в качестве воздействия на входы четырехполюсников, на выходах которых получается со- вокупность ортогональных функций gm(t), совпадающих с соот- ветствующими импульсными реакциями четырехполюсников. Коэффициенты разложения (8.5) получаются вычислением вы- ражения г Ck =\ёкШ dt, (8.11) о где Т — период основного тона. Вычисления можно выполнить с помощью умножителей, интеграторов с установкой на нуль, отсчетных и запоминающих устройств. Импульсы основного то- на управляют устройствами отсчета и запоминания значения ин- теграла в конце периода Т, а также служат для установки ин- теграторов на нуль. Перед подачей в многоканальную систему уплотнения часто- та импульсов основного тона с помощью частотомера преобра- зуется в аналоговый сигнал, а меняющиеся во времени коэффи- циенты Ci(/), с2(/),..., сш(/) сглаживаются нч фильтрами. В месте приема (рис. 8.206) сигнал восстанавливается период за периодом согласно равенству (8.5). Модулированная по ча- стоте сигналом основного тона последовательность импульсов воздействует на такую же совокупность четырехполюсников с откликами gm(t), выходные сигналы которых соответственно умножаются на коэффициенты <,„(/). Их сумма является приб- лижением к первоначальным звонким звукам. Глухие, апериодические, звуки обрабатываются несколько иначе. С некоторой идеализацис i принимается, что их длитель- 13—71
366 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ Рис. 8.20. Система передачи речи с использованием ортогональ- ных функций: а) анализатор; б) синтезатор (Мэнли и Клейм)
ДРУГИЕ МЕТОДЫ СОКРАЩЕНИЯ ПОЛОСЫ 367 ность соответствует одному периоду ОТ. С началом появления глухого звука—типа взрывного, если он сравнительно короткий, в месте передачи и приема генерируется один импульс ОТ. Све- дения о наличии глухих звуков передаются на приемник пара- метром u(t). Если глухой звук продолжителен (например, фри- кативный), генератор выдает несколько импульсов с достаточно длительным периодом, так, чтобы эффект периодичности оста- вался незаметным для слуха. Разложение мгновенного амплитудного спектра. Известно одно предложение описывать мгновенный амплитудный спектр с помощью ряда ортогональных функций с целью сокращения полосы частот при кодировании речи (Пирогов). Частотное ре- шение основано на использовании гармонического ряда Фурье, когда, по существу, определяется спектр амплитудного спектра (рис. 8.21). 3(И Вход речи о—г Выделение основного тона Перемно- Интегра- жители торы -4 Т-^\“*~8реыя ____Х__ Возбужве- ние тоном или шумом Рис. 8.21. Метод описания мгновенного спектра речи с помощью коэф- фициентов ряда Фурье и синтеза речи с помощью этих коэффициентов (Пирогов) Информация о мгновенном амплитудном спектре здесь по- лучается в виде функции времени с частотой развертки 1/Т. Эта операция может быть выполнена по методу, используемому в анализаторе формант (см. раздел 5.2), или же с помощью ана- лизатора скэн-вокодера (раздел 8.1), или же просто с помощью 13*
368 СИСТЕМЫ синтетической телефонии последовательного анализатора. Частота 1/7 обычно выбира- ется в диапазоне от 25 до 50 гц, в зависимости от требований •к качеству передачи. Так же, как в скэн-вокодере, спектральное описание s(t) передается по каналу с узкой полосой частот. Как отмечается, достаточна полоса от 75 до 250 гц. Должна также передаваться информация о характеристиках возбужде- ния, т. е. об основном тоне и соотношении тон-шум. Так же, как в обычном вокодере, предполагается, что для передачи этих данных достаточна полоса 25—50 гц. Приемник должен быть синхронизирован с передатчиком. В приемнике производится разложение в ряд Фурье сигнала, описывающего спектр: . N S (0 = cosnQ/ -j- Z^sinnQ t], (8.12) Л=1 т т где ап=~ Js(7)cosn£4dt и bn = “ ( s(t) sin nQ tdt— о о как обычно, коэффициенты и £2 = 2л/7. Практически, коэффици- енты Фурье получаются путем умножения s(t) на выходные эдс нескольких гармонических генераторов, синхронизированных с частотой развертки Й. Как утверждается, значение 2V от 3 до 5 достаточно для адекватного спектрального описания (Пирогов). Коэффициенты изменяются во времени сравнительно медлен- но. Поэтому их используют для управления электрическим че- тырехполюсником, чтобы его частотная характеристика прибли- зительно соответствовала измеренной спектральной огибающей речевого сигнала. Затем четырехполюсник возбуждается тем же способом, что в обычном вокодере, т. е. периодическими импуль- сами или шумом. Синтезированная речь получается на выходе четырехполюсника с переменной частотной характеристикой (рис. 8.21). Действие управляемого четырехполюсника основано на том факте, что s(/) в действительности представляет спектральные п. , f, ,—. 2л 2л амплитуды S(co), 0<со<сомакс. Поскольку 12= =----, соот- 7 ймакс ношение (8.12) может быть переписано: N „ , , а0 , / 2л п со . , . 2лпш\ /ою\ S(co) = —2-+ a„cos-------H^sin- . (8.13) 2 \ шмакс Ммакс / п=1 Если амплитудный спектр возбуждения обозначить G(co), спектр сигналов на выходе четырехполюсника с переменной ча- стотной характеристикой будет S(co)G (со). Принимая, что спектр
ДРУГИЕ МЕТОДЫ СОКРАЩЕНИЯ полосы 369 возбуждения равномерен и имеет единичную амплитуду, неко- торый гармонический компонент частоты «ц в спектре возбуж- дения дает на выходе временную функцию N fl (t) = -v sin (Oi t + sin (Oi t V an cos --л n 0)1 + 2 “макс tl=l JV + sin (Oj t \bn sin- 2—” — . (8.14) ^1 (|)макс n—l Раскрывая второй и третий члены, получаем суммы и раз- ности углов: N о. , . , Г • / 2л п со, \ . 2/1 (0 = а0 sin со! t + у a J sin --------------------------- + jama L \ <°макс / л=1 N , • / , 2л/га>т \ , VI, Г / 2л п со, \ + sin CfliH------------— + у bn COS ------------------------— — \ С0маКс J Ami \ С°макс / п=1 / , , 2л П а>! \1 — cos С011 4--------------- . (8.15) \ ®макс ' \ т-, „ 2лп<1), Второй член аргумента, т. е. -------соответствует времен- С°макс ному опережению или отставанию на пт = н------------. Таким обра- С°макс зом, временная функция может быть получена с помощью схе- мы рис. 8.22. Косинусные члены соотношения (8.15) получаются от синусных членов путем преобразования Гильберта (т. е. при включении в схему рис. 8.22 широкополосного фазовращателя л \ на — . 2 / Хотя соотношение (8.15) получено для некоторого од- ного данного спектрального компонента возбуждения, а именно для coi, процесс аналогичен и для других компонентов. Считает- ся, что при N, равном 4 или 5, качество синтезированной речи достаточно удовлетворяет требованиям обычных каналов теле- фонной связи. Разложение мгновенной функции автокорреляции. В гл. V для функции времени /(/) выведено соотношение между мгновен- ной автокорреляционной функцией t <Р (т, /) == J / (X) / (к — т) k (t — d к; т > О, —00 (8.16)
370 СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ и физически измеряемым мгновенным спектром амплитуд f (8.17) --00 В случае весовой функции fe(0 =/z2(Z) =2ое-2а< мгновенные функция автокорреляции и спектр связаны между собой взве- шенным косинус-преобразованием Фурье: 00 |F(co, t) |2 = С е~а(т) ср (т, t) cos сот d т = — | Н (со) |2 *Ф(со, t), J 2л — 00 (8.18) где Н (со) и Ф(со, /) являются преобразованиями Фурье Л(0 и Ф(т, /) соответственно. Из пары преобразований (8.18) следует, что ср(т, t) является четной функцией т. Рис. 8.22. Способ осуществления четырехполюсника с переменной частотной характеристикой в схеме рис. 8.21 В предыдущем параграфе описан метод представления мо- дуля спектра I F(co, t) | рядом по ортогональным функциям. По- скольку функция корреляции и энергетический спектр одно- значно связаны, следует ожидать, что соответствующее ортого-
ДРУГИЕ МЕТОДЫ СОКРАЩЕНИЯ ПОЛОСЫ 371 нальное разложение может быть записано и для корреляцион- ной функции. В частности, удобными для такого описания ока- зались функции Лагерра (Ли—Lee; Мэнли—Manley; Куля). Предположим, что мгновенная функция автокорреляции сиг- нала fit) для положительных значений аргумента разлагается в ряд по системе (т)} физически реализуемых функций, ор- тонормированных на интервале 0 и равных нулю для всех т<0. Тогда <р(+т, t) =2 a‘(t) ^(т); т > 0. (8.19) i=0 С учетом ортонормальности at it) = j ф(+т, t) h (r) d т= J h (т) d r J f ^) t (^ — — %) kit — x)dK (8.20) ЛАеняя порядок интегрирования и подставляя у = 7.—т, получаем t х «<(/)= J/(W/ —k)dX рШ*- ---------00 —00 (8.21) Следовательно, коэффициенты й{Ц) могут быть получены пу- тем фильтрации fit) с помощью четырехполюсников, импуль- сивные отклики которых равны hit), с последующим умножением результата на fit) и фильтрацией произ- ведения Другим четырехпо- рис §.23. Определение коэффициентов люсником С импульсивным разложения мгновенной функции авто- откликом kit). Эти опера- корреляции ции отражены на рис. 8.231). Коэффициенты а,(/), полученные согласно (8.21), описывают <р(т, t) для положительных значений аргумента (т>0). Если в соответствии с определением и обсуждением, приведенными в гл. V, ф(т, t) является четной функцией т, то корреляционная функция для отрицательных значений аргумента запишется в виде 00 <Роо (~т> t) =2 Ui W (— Т), т < О, т=о (8.22) ’) Впервые возможность применения этого метода для мгновенного кор- реляционного анализа показана * В. И. Кулей (прим, перев.).
372 СИСТЕМЫ синтетической телефонии так, что для всех значений т оо Ч> (т, t) =•- <р (+т, t) + <р (-Т, t) = V а< (t) [L (т) + ъ (- т)]. (8.23) 1=0 Преобразование Фурье от <р(т, t) является энергетическим спектром: ОО 00 Ф (и, t) = 2 at it) J & (г) + h (- т)] е~‘шт d т = Z=0 —оо оо =2 I s«- + 3z (“)} > (8-24) 1=0 где Hi(co)—преобразования Фурье от ^(т). Спектр Ф(со, t) связан с физически измеряемым спектром мощности (8.18), так что оо I р (®,t) I2=2 w I3*- и ЕГ (“)Ь (8-25> 1=0 где Hi (и)—преобразование Фурье от [е~ф| ?Дт)]. Представляя ЕДш) произведением амплитудного и фазового множителей E/(®) = al.(®)e-^(u’', (8.26) получим 00 ф (®, t) = 2 а‘ а‘(и) te-iP/ (ш) + е+'л (ШЧ = 1=0 = 2 at (f) at (и) cos £t- (и). (8.27) i=0 Таким образом, коэффициенты af(/) ортогонального разложения автокорреляционной функции (8.19) совпадают с коэффициен- тами разложения энергетического спектра в ряд Фурье. На им- пульсивные отклики ортогональных фильтров до сих пор не накладывалось никаких ограничений. Предполагается лишь, что они удовлетворяют требованию физической реализуемости. Простейшей системой ортогональных фильтров является уже упоминавшаяся идеальная линия задержки с отводами через
ДРУГИЕ МЕТОДЫ СОКРАЩЕНИЯ ПОЛОСЫ 373 интервалы Найквиста '/2В, где Б—полоса пропускания. Частот- ная характеристика для г-го отвода описывается выражениями: е \2В / ; 0 < со < В, st- (со) = i / ico \ е \2В J . — В < со < 0, 10 ♦ со > В; со < — В (8.28) Импульсивный отклик для i-го отвода, следовательно, имеет вид sin's/——) (() = — —-------— , (> 0. (8.29) л / „ I \ Из равенства (8.28) следует, что амплитудный множитель ai(co) = l, а фазовая характеристика определяется соотношени- ем рДсо) = Таким образом, разложение (8.27) для энер- гетического спектра представляется рядом Фурье Ф(со, Z) = 2 JVj^cos^. (8.30) I При этом коэффициенты аДО, вычисляемые согласно блок-схе- ме рис. 8.23, совпадают с отсчетными значениями функции авто- корреляции ср(т, t) для т= Эти коэффициенты могут слу- жить в качестве сигналов, управляющих синтезатором (рис. 8.22) для формирования спектра Ф(со, (). Получается синтезатор кор- реляционного вокодера, описанный в разделе 8.4. Следует отметить, что широкополосная идеальная линия за- держки физически неосуществима, а при конструировании ее приближенных эквивалентов встречается ряд трудностей. Поэ- тому представляет интерес рассмотрение других систем орто- нормированных функций, которые могут оказаться полезными для представления мгновенных функций автокорреляции или энергетического спектра. Желательно, чтобы эти функции удов- летворяли требованию физической реализации простыми це- пями с сосредоточенными параметрами. С этой точки зрения рядом преимуществ обладают функции Лагерра (Ли).
>74 СИСТЕМЫ синтетической телефонии Эту ортогональную систему будем обозначать, как {£/(()} = ={//(/)}, где 7» (О описывается выражением _L « Zz(Z) = (2Х) 2 л=0 [(i-n)lF If (2U)'~n (8.31) Соответствующие преобразования Фурье имеют вид: 1 I (<(>} — 2 = (___IV 1 ( \ У 2л (X + i <o)i+I ' ' n(2X)'/l \ i <0 Н-а, X ( Y = A[и (®)] [о (И)]‘. (8.32) \ 1 СО ~j~ Л j Рис. 8.24. Реализация функций Лагерра /?С-цепями [см. равенство (8.32)] Функции (8.32) можно реализовать каскадным соединением .АГС-цепей1) с усилителем А (рис. 8.24). Если выражение (8.32) представить в форме А (со) = а(. (со) е—<ш), (8.33) то — Г ш 1 Г9И2 1 I (2Z+l)arctg — Lt (И) = -----------!-----е L х J . (8.34) 2л 1 (0)2 + V) 2 Далее, I [А (со) + Г (со)] = ----------!----- cos Г(2,. + 1) arc tg-^-1. (0)2 + Л2) 2 (8.35) ) Возможно, а иногда и более целесообразно, применение Z.С-схем типа фазовых контуров (прим, перев.).
ДРУГИЕ МЕТОДЫ сокращения полосы 375 Согласно (8.24) и (8.27) „ спектр Ф(ы, () запишется в виде ОО Ф (со, t) = 2 2 ai (t) аг (со) cos (со) = ф-Н) arctg -- Л (8.36) Для иллюстрации спект- ральных свойств функций Ла- герра на рис. 8.25 показаны графики первых нескольких слагаемых суммы (8.36) (Мэн- ли— Manley). Как видно, по- добно спектру речи, эти функ- ции затухают с ростом часто- ты. Это является преимущест- вом рассматриваемой систе- мы ’). Можно построить систему передачи речевой информации, реализующую эти соотноше- ния. Предполагается, что «ква- дрирование» спектра, т. е. син- Рис. 8.25. Графики слагаемых ра- венства (8.36), показывающие, как первые несколько функций Лагерра охватывают область положительных частот (Мэнли) тез сигнала со спектром Ф (со, 0» допустимо для слухового восприятия (см. разделы 8.1 и 8.4, где имеются дополнительные замечания относительно «квадрирования»). Спектру ОО Ф (ш- О = 2 + L*i И] 1=0 (8.37) ’) Более существенным достоинством является то, что применение функ- ций Лагерра позволяет повысить точность аппроксимации спектра в обла- сти низких частот за счет снижения ее в области высоких частот (В. И. Ку- ля), что согласуется со свойствами слухового аппарата человека. Соотноше- ние (8.36) впервые выведено в цитированной работе (В. И. Куля), и, как показано в последующей статье (* В. И. Куля, 1963), сумма в правой части (8.36) может быть представлена в виде —у- ~ х V 1+S~ 1 ,—Ч ________х X(yi+^- У где Т2г+1 (х) четных порядков (прим, перев.). полиномы Чебышева 1-го рода не-
376 СИСТЕМЫ СИНТЕТИЧЕСКОЙ телефонии 00 соответствует сигнал ф(т,/) = 2 а<(0 Ui(T)+4(—T)L 1=0 Корреляционная функция ср(т, t) является четной функцией т и может быть получена из /Дт), т^О. Однако цепь, показан- ная на рис. 8.24, не может воспроизвести /Д—т). Ухо практиче- ски нечувствительно к умеренным расхождениям фазовых соот- ношений, и для соответствующего восприятия достаточно сфор- мировать спектр, совпадающий с Ф(со, t) лишь по модулю. Та- кой спектр можно получить за счет сложения [/т_г(т) +lm+t+i (т)1 Рис. 8.26. Вокодер Лагерровского типа: а) анализатор; б) синтезатор
ДРУГИЕ МЕТОДЫ СОКРАЩЕНИЯ ПОЛОСЫ 377 (Куля). Тогда соответствующий спектр представится в виде Ф' (“,/) = У az(/)[Lm_^®)+Lm+z + i(®)], где согласно (8.34) [bm_. (®) + Lm_i+1 (®)] = (2Х) * 2 (й2 +V) 2 i2 cos (2t +1) arc tg-y- Л (8.38) Равенство (8.38) с точностью до фазового множителя i2(m+D arc tg-^- e л совпадает с (8.35). В результате получается полная система передачи1), блок-схема которой показана на рис. 8.26. Коэффициенты разложения по функциям Лагерра получаются согласно равенству (8.37) способом, показанным на рис. 8.232). Выделяется также сигнал основного тона p(t). Коэффициенты разложения и параметр ОТ уплотняются и по линии связи пере- даются синтезатору (рис. 8.266) 3). Как и в других вокодерах, синтезатор возбуждается либо широкополосным шумом, либо им- пульсами, частота следования которых модулируется парамет- ром ОТ. Применение четных функций [1т-\ (г) +lm+i+\ (г)]4) позволяет при синтезе придать спектру широкополосного воз- буждения требуемую форму ф'(со, (). ') Вокодер этого типа в отечественной литературе был назван чебышев- ским (см. (примечание перев. на стр. 375) (* Куля, '19153) и подробно иссле- дован автором цитированной работы (прим, перев.). 2) Для устранения в чебышевском вокодере искажений типа «квадри- рование» спектра коэффициенты разложения можно получить с помощью полосового анализатора с матричной пересчетной схемой (Куля, *Куля, 1963) (прим, перев.). 3) Более экономичная с конструктивной точки зрения схема синтеза- тора предложена автором метода (Куля, Куля, 1963) (прим, перев.). 4) Это неточное выражение. Указанные функции не являются четными, но модули их преобразований Фурье совпадают со спектрами четных функ- ций (/{(т)+6(—т) (прим, перев.).
ЛИТЕРАТУРА Ahlfors L. V. Complex Analysis. New York; McGraw-Hill Book Co. (1953). Atal B. S. and Schroeder M. R. Perception of Coloration in Filtered Gaussian Noise. Proc. IV Int. Congr. Acoust., Copenhagen, Denmark (August 1962). Ayers E. W. Speech Synthesizers Using Formant Principles. British Post Office Res. Station. Report 20315 (August 1959). Barney H. L. and Dunn H. K- Speech Analysis; Speech Synthesis; Chap- ters 12 and >13, in : Manual of Phonetics (L. Kaiser, Ed.). Amsterdam; North-Holland Publ. Co. (1957). Baumann R. H., L i с к 1 i d e r J. C. R. and Howland B. Electronic Word Recognizer. J. Acoust. Soc. Am. 26, 137 (A) (1954). Bayston T. E. and Campanella S. J. Development of a Continuous Analysis Speech Compression System. Final Engineering Rpt., Project No. 6 (7—4313) —43004, Melpar, Inc. (July >1957). — — Continuous Analysis Speech Bandwidth Compression System. J. Acoust. Soc. Am. 29, 1255 (A), 1957. В ё к ё s у G. v. Uber die Schwingungen der Schneckentrenwand beim Praparat und Ohrenmodell. Akust. Z. 7, 173—186 (1942). — Uber die Resonanzkurve und die Abklingzeit der verschiedenen Stellen der Schneckentrennwand. Akust. Z. 8, 66—76 (1943). Shearing Microphonics Produced by Vibrations Near the Inner and Outer Hairs Cells. J. Acoust. Soc. Am. 25, 786—790 (1953). — Experiments in Hearing. New York ; McGraw-Hill Book Co. (1960). — and Rosenblith W. A. Chapter 27 in : Handbook of Experimental Psychology (S. S. Stevens, ed.). New York : John Wiley and Sons (1951). Bell A. G. Prehistoric Telephone Days. Natl. Geographic Mag. 41, 223—242 (1922). Bell C. G., F u j i s a к i H., Heinz J. M., Stevens K. N. and House A. S. Reduction of Speech Spectra by Analysis-by-Synthesis Techniques. A. Acoust. Soc. Am. 33, 1725—1736 (1961). Bennett W. R. Time-division Multiplex Systems. Bell System Tech. J. 20, 199—221 (1941). The Correlatograph. Bell System Tech. J. 32, .1173—1185 (1953). Beranek L. L. The Design of Speech Communication Systems. Proc. I. R. E. 35, 880—890 (1947). — Acoustics. New York : McGraw-Hill Book Co. (1954). Berg J. W. van den. Transmission of the Vocal Cavities. J. Acoust. Soc. Am. 27, 161—168 (1955). — An Electrical Analogue of the Trachea, Lungs and Tissues. Acta Physiol, et Pharmacol. Neer. 9, 361—385 (1960). — Zantema J. T. and Doornenbal P. jr. On the Air Resistance and the Bernoulli Effect of the Human Larynx. J. Acoust. Soc. Am. 29, 626—631 (1957). Bergeijk W. A. van. Studies with Artificial Neurons. 11. Analog of the External Spiral Innvervation of the Cochlea. Kybernetik 1, 102—107 (1961). Bi d du Ip h R. Short-term Autocorrelation Analysis and Correlatograms of Spoken Digits. J. Acoust. Soc. Am. 26, 539—541 (1954). Bjork L. Velopharyngeal Function in Connected Speech. Suppl. 202, Acta Radiol (Stockh.) (1961).
ЛИТЕРАТУРА 379 В14 s s J. C. Kinesthetic-Tactile Communications. IRE Trans, on Inform. Theory IT-8, 92—99 (1962). Bloch B. and Trager G. L. Outline of Linguistic Analysis. Linguistic Society of America. Baltimore : Waverly Press (1942). Bogert В. P. Determination of the effects of Dissipation in the Cochlear Partition by Means of a Network Representing the Basilar Membrane. J. Acoust. Soc. Am. 23, 151—154 (1951). — - The Vobanc—a Two-to-Опе Speech Bandwidth Reduction System. J. Acoust. Soc. Am. 28, 399—404 (1956). — and Kock W. E. Narrowband Transmisson of Speech. U. S. Patent 2, 890, 285 (June 1959). Bolt R. H. and MacDonald A. D. Theory of Speech Masking by Rever- beration. J. Acoust. Soc. Ami 21, 577—580 (1949). Borst J. M. The Use of Spectrograms for Speech Analysis and Synthesis. J. Audio Eng. Soc. 4, 14—23 (1956). — and Cooper F. S. Speech Research Devices Based on a Channel Vocoder J. Acoust. Soc. Am. 29, 777(A) (1957). Brady P. T., House A. S. and Stevens K. N. Perception of Sounds Characterized by a Rapidly Changing Resonant Frequency. J. Acoust. Soc. Am. 33, 1357—1362 (1961). Bullington K. and Fraser J. M. Engineering Aspects of TASI. Bell System Tech. J. 38, 353—364 (1959). Campanella S. J. A Survey of Speech Bandwidth Compression Techniques. IRE Trans, on Audio AU-6, 104—>116 (1958). С о u 11 e r D. C. and Irons R. Influence of Transmission Error on Formant Coded Compressed Speech Signals. Proc. Stockholm Speech Comin. Seminar, R. I. T., Stockholm, Sweden (September 1962). Chang S. H. Two Schemes of Speech Compression System. J. Acoust. Soc. AM. 28, 565—572 (1956). — P i h 1 G. and Essigmann M. W. Representations of Speech Sounds and Some of their Statistical Properties. Proc. I. R. E. 39, 147—153 (1951). Cherry C. On Human Communication. New York: John Wiley and Sons (1957). Chiba T. and Kajiyama M. The Vowel, Its Nature and Structure Tokyo : Tokyo Kaiseikan Pub. Co. (1941). Чистович Л. А. О различении сложных акустических оипналов Сообще- ние 1. «Проблемы физиологической акустики», 3, 18—26 (1955). — Временные характеристики слуха1. Докторская диссертация. АН СССР, Институт физиологии им. Павлова, Ленинград (1958). — Temporal Course of Speech' Sound Perception. Proc. IV Int Congr. Acoust. Copenhagen, Denmark (August 1962). Cohen A. and ‘THart J. Speech Synthesis of Steady-State Segments. Proc. Stockholm Speech Comm. Seminar, R.l.T. Stockholm, Sweden (September 1962). Coker С. H. Computer-Simulated Analyzer for a Formant Vocoder. J. Acoust. Soc. Am. 35, 1911 (A) (1963). Colton F B. Miracle Men of the Telephone. Natl. Geographic Mag. 41, 273—316 (1947). Cooper F. S. Spectrum Analysis. J. Acoust. Soc. Am. 22, 761—762 (1950). — Delattre P. C., Liberman A. M., Borst J. M. and G e г s t- m a n L. J. Some Experiments on the Perception of Synthetic Speech Sounds. J. Acoust. Soc. Am. 24, 597—606 (1952). — Liberman A. M. and Borst J. M. The Inter-Conversion of Audible and Visible Patterns as a Basis for Research in the Perception of Speech. Proc. Natl. Acad. Sci. 37, 318—325 (1951).
380 ЛИТЕРАТУРА — Peterson Е. and Fahringer G. S. Some Sources of Characte- ristic Vocoder Quality. J. Acoust. Soc. Am 29, 183 (A) (>1957). Daguet J. «Codimex» Speech Compression System. Proc. Stockholm Speech Comm. Seminar R.LT. Stockholm, Sweden (September 1962). David E. E. jr. Naturalness and Distortion in Speech-Processing Devices. J. Acoust. Soc. Am; 28,586—589 (1956). Computer-Catalyzed Speech Research Proc. IV Int. Congr. Acoust., Copenhagen, Denmark (August 1962). — and McDonald H. S. Note on Pitch Synchronous Processing of Speech. J. Acoust. Soc. Am. 28, 1261—1266 (1956,a). — Techniques for Coding Speech Signals for Transmission Over a Reduced Capacity Digital Channel. J. Acoust. Soc. AM. 28, 767 (A) (1956,b). — — Schroeder M. R., Logan B. F. and Prestigiacomo A. J. New. Applications of Voice-Excitation to Vocoders. Proc. Stockholm Speech , Comm. Seminar, R.LT., Stockholm, Sweden (September >1962). Davis H. Chapter 28 in : Handbook of Experimental Psychology (S. S. Ste- vens, ed.) New York: John Wiley and Sons (1951). — - Chapter 4 in: Handbook of Noise Control (С. M. Harris ed.) New York : McGraw-Hill Book Co. (1957). — A Mechano-electrical Theory of Cochlear Action Ann. Otol. Rhinol and Laryngol, 67, 789—801 (1958). Davis К. H., Biddulph R. and Balashek S. Automatic Recognition of Spoken Digits. J. Acoust. Soc. Am. 24, 637—642 (1952). Denes P. B. and Mathews M. V. Spoken Digit Recognition Using Time- Frequency Pattern Matching. J. Acoust. Soc. Am. 32, 1450—1455 (I960). Dennis J. B. Computer Control of an Analog Vocal Tract. Proc. Stockholm Speech Comm. Seminar R.LT. Stockholm, Sweden (September 1962). D’Eustachio D. and D’Eustachio I. Articulation Testing in Moderate Sized Rooms J. Acoust. Soc. Am. 32, 1525 (A) (1960). Dewey G. Relative Frequency of English Speech Sounds. Cambridge, Massachusetts : Harvard University Press (1923). Do lan sky L. O. An Instantaneous Pitch-Period Indicator. J. Acoust. Soc. Am. 27, 67—72 (1955). — Choice of Base Signals in Speech Signal Analysis. IRE Trans, on Audio 8, 221—229 (1960). Dreyfus-Graf J. Phonetograph und Schallwellen—Quantelung. Proc. Stockholm Speech Comm. Seminar, R.LT., Stockholm, Sweden (September 1962). Dudley H. Remaking Speech. J. Acoust. Soc. Am. 11, 169—177 (1939,a). The Vocoder. Bell Labs. Record 17, Г22—126 (1939,b). Phonetic Pattern Recognition Vocoder for Narrow-band Speech Transmission. J. Acoust. Soc. Am. 30, 733—739 (1958). — and Balashek S. Automatic Recognition of Phonetic Patterns in Speech. J. Acoust. Soc. Am. 30, 721—732 (1958). Dudley H. and Gruenz O., jr. Visible Speech Translators with External Phosphors. J. Acoust. Soc. Am. 18, 62—73 (1946). — Riesz R. R. and Watkins S. A. A Synthetic Speaker J. Franklin Inst. 227, 739—764 (1939). — and Tarnoczy T. H. The Speaking Machine of Welfgang von Kempelen. J. Acoust. Soc. Am. 22, 151—166 (1950). Dunn H. K- The Calculation of Vowel Resonances and an Electrical Vocal Tract. J. Acoust. Soc. Am. 22, 740—753 (1950). — Methods of Measuring Vowel Formant Bandwidths. J. Acoust. Soc. Am. 33, 1737—1746 (1961). - and Barney H. L. Artificial Speech in Phonetics and Communications. J. Speech Hear. Res. 1, 23—39 (1958).
ЛИТЕРАТУРА 381 — Flanagan J. L. and Ges tri n P. J. Complex Zeros of a Trian- gular Approximation to the Glottal Wave. J. Acoust. Soc. Am. 34, 1977 7A) (1962). - — and White S. D. Statistical Measurements on Conversational Speech. J. Acoust. Soc. Am. 11, 278—288 (11940). Egan J. Articulation Testing Methods II. OSRD Report No. 3802, November 1944 (U. S. Dept, of Commerce Report PB 22848). Estes S. E., Kerby H. R., Maxey H. D. and Walker R. M. Speech Synthesis from Stored Data. I.B.M. J Res. Devel 8, 2—12 (1964). Also J. Acoust. Soc' Am. 34, 2003 (A) (1962). Fairbanks G. Voice and Articulation Drillbook, second ed. New York: Harper and Brothers (1940). — Everitt W. E. and Jaeger R. P. Method for Time or Frequency Compression—Expansion of Speech. IRE Trans, on Audio AU-2, 7—12 (1954). Fa no R. M. Short-Time Autocorrelation Functions and Power Spectra. J. Acoust. Soc. Am. 22, 546—550 (1950). Fant G. On the Predictability of Formant Levels and Spectrum Envelopes from Formant Frequencies. In : For Roman Jakobson. ’s-Gravenhage : Mouton and Co. (1956). — Modern Instruments and Methods for Acoustic Studies of Speech. Acta Polytech. Scand. Ph. I, 1—81 (1958). — Acoustic Analysis and Synthesis of Speech with Applications to Swedish. Ericsson Technics 15, 3—108 (1959,a). — The Acoustics of Speech. Proc. Ill Int. Congr. Acoust., Stuttgart, Germany (1959,b). — • - Acoustic Theory of Speech Production. ’s-Gravenhage : Mouton and Co. (1960). — and Stevens K. N. Systems for Speech Compression. Fortschr. Hochfrequenztechn. 5, 2291—262 (1960). Farnsworth D. W. High-speed Motion Pictures of the Human Vocal Cords. Bell Labs. Record. 18, 203—208 (1940). Fischer F. A. VerSuche zuz rationellen Ubertragung gesprochener Information. Jahrbuch des elektrischen Fernmeldewesens 1956—1957, S. 103—112. Verlag fur Wissenschaft. Flanagan J. L. Difference Limen for the Intensity of a Vowel Sound. J. Acoust. Soc. Am. 27, 122'3—1225 (1955,a). — A difference Limen for Vowel Formant Frequency. J. Acoust. Soc. Am. 27, 613—617 (1955,b). — Automatic Extraction of Formant Frequencies from Continuous Speech. J. Acoust. Soc. Am. 28, 140—1'18 (1956,a). — Bandwidth and Channel Capacity Necessary to Transmit the Formant Information of Speech. J. Acoust. Soc. Am. 28, 592—596 (1956,b). — Difference Limen for Formant Amplitude. J. Speech Hear. Dis. 22, 205—212 (1957,a). — Estimates of the Maximum Precision Necessary in Quantizing Certain «Dimensions» of Vowel Sounds. J. Acoust. Soc. Am. 29, 533—534 (1957,b). — Note on the Design of «Terminal-Analog» Speech Synthesizers. J. Acoust. Soc. Am. 29, 306—310 (1957,c). — Some Properties of the Glottal Sound Source. J. Speech Hear. Res. 1, 99—116 (1958). — Analog Measurements of Sound Radiation from the Mouth. J. Acoust. Soc. Am. 32, 1613—1620 (1960,a). — Resonance-vocoder and Baseband Complement. IRE Trans, on Audio AU-8, 95—102 (1960,b). — Audibility of Periodic Pulses and a Model for the Threshold. J. Acoust. Soc. Am. 33. 1540—1549 (1961,a).
382 ЛИТЕРАТУРА — Some Influences of the Glottal Wave Upon Vowel Quality. Proc. 4th- Int. Congr. Phonetic Sciences, Helsinki, Finland (September 1961,b). — Models for Approximating Basilar Membrane Displacement-Part 11. Bell System Tech. J. 41, 959—1009 (1962,a). — Computer Simulation of Basilar Membrane Displacement. Proc. IV Int. Congr. Acoust. Copenhagen, Denmark (August 1962,b). — С о к e г С. H. and Bird С. M. Computer Simulation of a Formant- Vocoder Synthesizer. J. Acoust. Soc. Am. 35 2003 (A) (1962). — D a v i d E. E. jr. and Watson B. J. Physiological Correlates of Binaural Lateralization. Proc. IV Int. Congr. Acoust. Copenhagen, Denmark (August 1962). — and Guttman N. On the Pitch of Periodic Pulses. J. Acoust. Soc. Am. 32, 1308—1328 (1960). — and Watson B. J. Pitch of Periodic Pulses with Nonuniform Amplitudes. J. Acoust. Soc. Am. 34, 738 (A) (1962). — and House A. S. Development and Testing of a Formant-Coding Speech Compression System. J. Acoust. Soc. Am. 28, 1099—1106 (1956). — and S a slow M. G. Pitch Discrimination for Synthetic Vowels. J. Acoust. Soc. Am. 30, 435—442 (1958). — Schroeder M. R. and Bird С. M. Single Channel Speech Inter- polator for 2 : 1 Bandwidth Reduction. J. Acoust. Soc. Am. 34, 2003 (A) (1962). Fletcher W. W. A Study of Internal Laryngeal Activity in Relation to Vocal Intensity. Ph; D; Thesis, Northwestern Univ. Evanston, Ill (1950). Forgie J. W. and Forgie C. D. Automatic Method of Plosive Identifica- tion. J. Acoust. Soc. Am. 34, 1979 (A) (1962). — — and Dickey E. P. A Recognition Program for English Fricative Consonants. J. Acoust. Soc. Am. 33, 1676 (A) (1961). — —• and Hughes G. W. A Real-Time Input System for a Digital Compu- ter. J. Acoust. Soc. Am. 30, 668 (A) (1958). Franke E. K. Mechanical Impedance Measurements of the Human Body Surface. AF Tech. Rpt. No. 6469 (April 1951). U. S. Air Force, Wright Air Development Center, Wright-Patterson Air Force Base, Dayton, Ohio. French N. R. and Steinberg J. C. Factors Governing the Intelligibility of Speech Sounds. J. Acoust. Soc. Am. 19, 90—119 (1947). Frick F. C. Degarble. J. Acoust. Soc. Am. 34, 717 (A) (1962). Fry D. B. and Denes P. The Solution of Some Fundamental Problems in Mechanical Speech Recognition. Language and Speech 1, 35—58 (1958). Fujimura O. The Nagoya Group of Research on Speech Communication. Phonetica 7, 160—162 (1961). — Analysis of Nasal Consonants. J. Acoust. Soc. Am. 34, 1865—1875 (1962,a). — - Formant-Antiformant Structure of Nasal Murmurs. Proc. Stockholm Speech Comm. Seminar, Stockholm, Sweden (September 1962,b) Fujisaki H. Automatic extraction of fundamental period of speech by autocorrelation analysis and peak detection. J. Acoust. Soc. Am. 32, 1518 (A) (1960). Gabor D. Lectures on Communication Theory. Technical Report No. 238, Research Laboratory of Electronics, Mass. Inst, of Tech., Cambridge, Mass. (April 1952). Galambros R. Neural Mechanisms in Audition. Laryngoscope 68, 388—401 (1958). Gill J. S. Automatic Extraction of the Excitation Function of Speech with Particular Reference to the Use of Correlation Methods. Proc. Ill Int. Congr. Acoust. Stuttgart, Germany (September 1959). Gold B. Computer Program for Pitch Extraction. J. Acoust. Soc. Am. 34, 916—921 (1962).
ЛИТЕРАТУРА 383 Golden R. M. Digital Computer Simulation of a Sampled—Data Voice Excited Vocoder. J. Acoust. Soc. Am. 35, 1358—1366 (1963). — MacLean D. J. and Prestigiacomo A. J. A Frequency Mul- tiplex System for a Ten Spectrum Channel Voice—Excited Vocoder. J. Acoust. Soc. Am. 36, 1022 (A) (1964). Gould G. T. Design of a Speech Stretcher, FM—TV J. Rad. Comm. 11, 30—36 (1951). Gruenz jr. O. and Schott L. O. Extraction and Portrayal of Pitch of Speech Sounds. J. Acoust. Soc. Am. 21, 487—495 (1949). Griltzmacher M. and Lottermoser W. Uber ein Verfahren zur tragheitsfreien Aufzeichnung von Melodiekurven. Akust. Z. 2, 242—248 (1937). Guild S. R., CroweS, J., Bunch С. C. and P о 1 v о g t L. M. Correlations of differences in the density of innervation of the organ of Corti with differences in the acuity of hearing. Acta-Oto-Laryngol 15, 269—308 (1931). Guttman N. and Flanagan J. L. Pitch of Nonuniformly Spaced Pulses in Periodic Trains J. Acoust. Soc. Am. 34, 1994 (A) (1962). — Pitch of High-Pass Filtered Periodic Pulses. J. Acoust. Soc. Am. 36, 757—765 (1964). Halle M. Book Review C. F. Hockett, Manual of Phonology. J. Acoust. Soc. Am. 28, 509—510 (1956). — The Sound Pattern of Russian. The Hague : Mouton and Co. (1959). Halsey R. J. and Swaffield J. Analysis-Synthesis Telephony, with Special Reference to the Vocoder. Inst. Elec. Engrs. (London), 95, 391—411 pt. Ill (1948). Harlow A. F. Old Wires and New Waves. New York : Appleton—Century, Co. (1936). Harris С. M. ed. Handbook of Noise Control. New York: McGraw-Hill Book Co. (1957). Hecker M. H. L. Studies of Nasal Consonants with an Articulatory Speech Synthesizer. J. Acoust. Soc. Am. 34, 179—188 (19G2). Heinz J. M. Model Studies of the Production of Fricative Consonants. Quart. Progr. Rept. Research Laboratory of Electronics, Mass. Inst, of Tech., Cambridge Mass (July 15, 1958). — An Analysis of Speech Spectra in Terms of a Model of Articulation. Proc. IV Int. Congr. Acoust. Copenhagen, Denmark (August 1962,a.) Also Proc. Stockholm Speech Comm. Seminar R.LT. Stockholm, Sweden (Sep- tember 1962). — Reduction of Speech Spectra to Description in Terms of Vocal Tract Area Functions. ScD. Thesis Mass. Inst, of Tech. (August 1962,b). — and Stevens K. N. On the Properties of Voiceless Fricative Con- sonants. J. Acoust. Soc. Am. 33, 589—596 (1961). Helmholtz H. L. F. v. On the Sensations of Tone. New York : Dover Publ. Inc. 1954; Translation of the Fourth German Edition of 1877 by A. J. Ellis. Hildebrand F. B. Advanced Calculus for Engineers. New York : Prentice- Hall. Inc. (1948). — Methods of Applied Mathematics. New York : Prentice Hall, Inc. (1952). Holmes J. N. A Method of Tracking Formants Which Remains Effective in the Frequency Regions Common to Two Formants. Rept. JU 8—2 Joint Speech Res. Unit, British Post Office, Eastcote, England (December 1958). - Research on Speech Synthesis. Rept. JU 11—4, Joint Speech Res. Unit, British Post Office, Eastcote, England (July 1961). — An Investigation of the Volume Velocity Waveform at the Larynx During Speech by Means of an Inverse Filter, Proc. IV Int. Congr. Acoust., Copenhagen, Denmark (August 1962). Also, Proc. Stockholm Speech Comm. Seminar, R.LT. Stockholm, Sweden (September 1962).
384 ЛИТЕРАТУРА — and Kelly L. C. Apparatus for Segmenting the Formant Frequency Regions of a Speech Signal. Research Report No. 20566. British Post Office Research Station, Dollis Hill, London (January 1960). House A. S. Analog Studies of Nasal Consonants. J. Speech Hear. Disor- ders 22, 190—204 (1957). — Paul A. P., Stevens K. N. and Arnold J. B. Acoustical Descrip- tion of Syllabic Nuclei : Data Derived by Automatic Analysis Procedures. Proc. Stockholm Speech Comm. Seminar. R.I.T., Stockholm, Sweden (Sep- tember 1962). — and Stevens K- N. Auditory Testing of a Simplified Description» of Vowel Articulation. J. Acoust. Soc. Am. 27, 882—887 (1955). — — Analog Studies of the Nasalization of Vowels. J. Speech Hear. Disorders 21, 218—232 (1956). — — Estimation of Formant Bandwidths from Measurements of Transient Response of the Vocal Tract. J. Speech Hear Res. 1, 309—315 (1958). — — and Paul A. P. Acoustical Description of Syllabic Nuclei : An Inter- pretation in Terms of a Dynamic Model of Articulation. Proc. Stockholm» Speech Comm. Seminar, R.I.T. Stockholm, Sweden (September 1962). — — SandelT. T. and Arnold J. B. On the Learning of Speechlike- Vocabularies J. Verbal Learn and Verbal Behavior 1, 133—143 (1962). Howard C. R. Speech Analysis-Synthesis Schemes Using Continuous Para- meters. J. Acoust. Soc. Am. 28, 1091—1098 (1956). Howell A. S., Schneider G. О. K- and Stump T. M. A Military Semi-Vocoder for Analog Telephone Transmission. J. Acoust. Soc. Am. 33,. 1663 (A) (1961). — — — Analog Multiplexing of a Telephone Semi-Vocoder. J. Acoust. Soc. Am. 33, 1663 (A) (1961). Huggins W. H. A Phase principle for Complex-Frequency Analysis. J. Acoust. Soc. Am. 24, 582—589 (1952). — A Note on Autocorrelation Analysis of Speech Sounds. J. Acoust. Soc. Am. 26, 790—792 (1954). — Representation and Analysis of Signals, Part 1; the Use of Orthogo- nalized Exponentials, Johns Hopkins University, Report No. AF 19 (604)-1941, ASTIA No. AD 133741 (September 1957). Hughes G. W. The Recognition of Speech by Machine. Res. Lab. Elect. Tech. Rept. 395, Mass Inst. Tech., Cambridge, Mass (May 1961). — and Halle M. Spectral Properties of Fricative Consonants- J. Acoust. Soc. Am. 28, 303—310 (1956). I n g a r d U. On the Theory and Design of Acoustic Resonators. J. Acoustic Soc. Am. 25, 1037—1061 0953). Inomata S. A New Method of Pitch Extraction Using a Digital Computer J. Acoust. Soc. Japan 16(4), 283—285 (1960). Jager F. de and Greefkes J. A. «Frena» a System of Speech Transmission at High Noise Levels, Philips Tech. Rev. 19, 73—,108 (1957). Judson L. S. and Weaver A. T. Voice Science. New York: F. S. Crofts & Co. (1942). Katsuki Y. Neural Mechanism of Hearing in Cats and Insects. Pages 53—75 in : Electrical Activity of Single Cells. Tokyo : Igakushoin, Hon go, Tokyo (1960). Kautz W. H. Transient Synthesis in the Time Domain. I.R.E. Trans, on Circuit Theory CT-1, 29—39 (1954). Kelly J. L. jr. and Ger st man L. J. An Artificial Talker Driven from a Phonetic Input. J. Acoust. Soc. Am. 33, 835(A) (1961). — and Lochbaum C. Speech Synthesis. Proc. Stockholm Speech: Comm. Seminar, R.I.T. Stockholm, Sweden (September 1962).
ЛИТЕРАТУРА 385* — and Vyssotsky V. A. A Block Diagram Compiler. Bell System Tech. J. 40, 669—676 (1961). Kempelen W. v. Le Mecanisme de la Parole, suivi de la Description \^Tune Machine Parlante. Vienna : J. V. Degen 1791. К e r s t a L. G. Amplitude Cross-Section Representation with the Sound'* Spectrograph. J. Acoust. Soc. Am. 20, 796—801 (1948). — Voiceprint Identification Nature 196, 1253—1257 (1962,a). — Voiceprint-Identification Infallibility. J. Acoust. Soc. Am. 34, 1978 (A) (1962,b). Харкевич А. А. О возможностях сжатия спектра. Электросвязь, 12, № 11, 3-8 (1958). Kiang N. Y. S., Watenabe T., Thomas E. and Clark L. Stimulus Coding at the Periphery of the Auditory System (Book in preparation). — and Peake W. T. Components of Electrical Responses Recorded from the Cochlea. Ann. Otology, Rhinology and Laryngology 69, 448—458 (1960). Kock W. E. Speech Bandwidth Compression. Bell Labs. Record 34, 81—85 (1956). — Speech Communication Systems. Proc. I.R.E. 50, 769—776 (1962). — and Miller R. L. Dynamic Spectrograms of Speech J. Acoust. Soc. Am. 24, 783—784 (1952). Koeni g R. Quelque Experiences d’Acoustique. Paris (1882). Koenig W., Dunn H. K. and Lacey L. Y. The Sound Spectograph. J. Acoust. Soc. Am. 18, 19—49 (1946). Kraft L. G. Correlation Function Analysis. J. Acoust. Soc. Am. 22, 762—764 (1950). Kramer H. P. and Mathews M. V. A Linear Coding for Transmitting a Set of Correlated Signals I.R.E. Trans, on Inform. Theory IT-2, 41—46 (1956). Kratzenstein C. G. Sur la Raissance de la Formation des Voyelles. J. phys. 21, 358—380 (1782). Also, Tentamen Coronatum de Voce, Acta Acad. Petrog. 1780. Kry ter K- D. Methods for the Calculation and Use of the Articulation Index. J. Acoust. Soc. Am. 34, 1689—1697 (1962). Куля В .И. Применение функций Лагерра для параметрического кодирова- ния речевых сигналов. Электросвязь, 16, № 7, 33—39 (1962). Ladefoged Р. The Perception of Speech. Proc. Symp. on Mechanization of Thought Processes, National Physical Laboratory Teddington, England Nov. 24—27, 1958. — and Broadbent D. E. Information Conveyed by Vowels. J. Acoust. Soc. Am. 29, 98—104 (1957). Lawrence W. The Synthesis of Speech from Signals which have a Low Information Rate. Pages 460—469 in : Communication Theory (W. Jackson ed.). London : Butterworths Sci. Publ. (1953). — Formant Tracking by Self-Adjusting Inverse Filtering. Proc. Stockholm Speech Comm. Seminar R.I.T. Stockholm, Sweden (September 1962). Lee Y. W. Statistical Theory of Communication. New York : John Wiley and Sons (1960). Liberman A. M., Cooper F. S., Harris K- S. and M a c N e i 1 a g e P. F. A Motor Theory of Speech Perception. Proc. Stockholm Speech Comm. Seminar, R.I.T. Stockholm, Sweden (September 1962). — DelattreP. C., Cooper F. S. and Gerstman L. J. The Role of Consonant-Vowel Transitions in the Stop and Nasal Consonants. Psychol. Monographs 68, No. 379 (1954).
386 ЛИТЕРАТУРА — Н а г г i s К- S., Н о f f m a n Н. S. and Griffith В. С. The Discri- mination of Speech Sounds Within and Across Phoneme Boundaries. J. Expt. Psychol 54, 358—368 (1957). L i с к 1 i d e r J. C. R. The Intelligibility of Amplitude-Dichotomized, Time- Quantized Speech Waves. J. Acoust. Soc. Am. 22, 820—823 (1950). — On the Process of Speech Perception. J. Acoust. Soc. Am. 24, 590—594 (1952). — and Pollack I. Effects of Differentiation, Integration and Infinite Peak Clipping Upon the Intelligibility of Speech. J. Acoust. Soc. Am. 20, 42—51 (1948). — Stevens K- N. and Hayes J. R. M. Studies in Speech, Hearing and Communication. Final Report, Contract W 1912(2 ac — 14, September 30, 1954, Acoustics Lab. Mass. Inst, of Tech. Cambridge, Mass. Lieberman P. Perturbations in Vocal Pitch. J. Acoust. Soc. Am. 33, 597—603 (1961). Lindblom B. On Vowel Reduction. Rept. 29 Speech Transmission Labora- tory, Royal Inst. Tech. Stockholm, Sweden (May 1963). Malecot A. Acoustic Cues for Nasal Consonants. Language 32, 274—284 (1956). M a 1 m e С. I. Detectability of Small Irregularities in a Broadband Noise Spectrum. Quarterly Rept. Res. Lab. Elec., Mass. Inst, of Tech., Cambridge, Mass. (January 1959). Manley H. J. Fourier Coefficients of Speech Power Spectra as Measured by Auto-Correlation Analysis. J. Acoust. Soc. Am. 34, 1143—1145 (1962). — and Klein D. B. Analysis-Synthesis of Continuous Speech in Terms of Orthogonalized Exponentially Damped Sinusoids. J. Acoust. Soc. Am. 34, 724 (A) (1962). Also J. Acoust. Soc. Am. 35, 464—474 (1963). Marc ou P. and Daguet J. New Methods of Speech Transmission. Proc, of 3rd Symp. on Info Theory, London (1955). Pages 231—244 in : Information Theory (ed. C. Cherry). Butterworths Sci. Publ. London: 1956. Also Ann. Telecommun. 11, 118—126 (1956). Mathews M. V. External Coding for Speech Transmission I.R.E. Trans, on Inform. Theory IT-5, 129—136 (1959). — Miller J. E. and David E. E., jr. An Accurate Estimate of the Glottal Waveshape. J. Acoust. Soc. Am. 33, 843 (A) (1961,a). — — — Pitch Synchronous Analysis of Voiced Sounds. J. Acoust. Soc. Am. 33, 179—186 (1961,b). Mathews M. V. and Walker P. Program to Compute Vocal-Tract Poles and Zeros. J. Acoust. Soc. Am. 34, 1977 (A) (1962). Meeker W. F., Nelson A. L. and Scott P. B. Experiments in Automatic Speech Recognition. J. Acoust. Soc. Am. 34, 1996 (A) (1962). Meyer-Eppler W. Die Reliefdarstellung von Zeit-Frequenz-Spektren durch photographische Differentiation Akust. Beih. No. 1, AB-1-3 (1951). — Zum Erzeugungsmechanismus der Gerauschlaute Z. Phonetik 7, 196— 212 (1953). — Grundlagen und Anwendungen der Informationstheorie Berlin-Got- tingen-Heidelberg (Springer 1959). — and Ungeheuer G. Die Vokalartikulation als Eigenwertproblem. Z. Phonetik 10, 245—257 (1957). Miller D. C. Science of Musical Sounds. New York : Macmillan Co. (1916). Miller G. A. Sensitivity to Changes in the Intensity of White Noise and Its Relation to Masking and Loudness. J. Acoust. Soc. Am. 19, 609—619 (1947). — Decision Units in the Perception of Speech. I.R.E. Trans, of Inform. Theory IT-8, 81—83 (1962).
ЛИТЕРАТУРА 387 — Heise G. A. and Li ch ten W. : The Intelligibility of Speech as a Function of the Context of the Test Materials. J. Exptl. Psychol. 41, 329—385 (1951). Miller R. L. Improvements in the Vocoder. J. Acoust. Soc. Am. 25, 832 (A) (1953). — Nature of the Vocal Cord Wave. J. Acoust. Soc. Am. 31, 667—677 (1959). MjeHler A. R. Network Model of the Middle Ear J. Acoust. Soc. Am. 33, 168—176 (1961). — On the Transmission Characteristic of the Middle Ear. Proc. IV Int. Congr. Acoust. Copenhagen, Denmark (August 1962). Morse P. M. Vibration and Sound. New York McGraw-Hill Book Co. (1948). Munson W. A. and Montgomery H. C. A Speech Analyzer and Synthe- sizer. J. Acoust. Soc. Am. 22, 678 (A) (1950). Nakata K. Synthesis of Nasal Consonants by a Terminal-Analog Synthe- sizer J. Radio Res. Lab.; (Tokyo) 6, 243—254 (1959). — Synthesis and Perception of Japanese Fricative Sounds. J. Radio Res. Lab. (Tokyo) 7, 319—333 (11960). — and Suzuki J. Synthesis and Perception of Japanese Vowels and Vowel-like Sounds. J. Radio Res. Lab. (Tokyo) 6, 617—634 (1959). Net ter F. Anatomical drawings of the ear. In : Clinical Symposia 14, 39—73 (1962). Noll A. M. Short-time spectrum and «cepstrum» techniques for vocal pitch detection. J. Acoust. Soc. Am. 36, 296—302 (1964,a). Short-time «cepstrum» pitch detection. J. Acoust. Soc. Am. 36, 1030 (A) (1964,b). О c h i a i Y. Fondamentales des qualites phonemique et vocalique des paroles, par rapport au timbre, obtenues en employant des voyelles japonais voca- Ijsees par des sinets japonais. Mem. Fac. Eng., Nagoya Univ. 10, 197—201 (1958). — Pheneme and Voice Identification Studies Using Japanese Vowels Language and Speech 2, 132—136 (1959). — and Kato H. Sur la nettete et la naturalite de la voix humaine reflechies du point de vue de la qualite de transmission. Mem. Fac. Eng.,. Nagoya Univ. 1 105—115 (1949). О e t i n g e r R. and Hauser H. An Electrical Network for the Investigation of the Mechanical Vibrations of the Inner Ear. Acustica 11 (3), 161—177' (1961). Oizumi J. and Ku bo E. Synthesis of Speech. J. Acoust. Soc. Japan 10, 155—158 (1954). Olson H. F. Speech Machine Considerations. Proc. Stockholm Speech Comm.. Seminar R.I.T., Stockholm, Sweden (September 4962). — and Bel ar H. Phonetic Typewriter, III. J. Acoust. Soc. Am. 33, 1610— 1615 (1961). O’Neil E. F. TASI Bell Labs. Record 37, 83—87 (1959). Paget, Sir Richard- Human Speech. London and New York : Harcourt (1930). Peake W. T., Goldstein M. H. jr. and Kiang N. Y. S. Responses, of the Auditory nerve to Repetitive Acoustic Stimuli. J. Acoust. Soc. Am. 34, 562—570 (1962). — KiangN.'Y. S. and Goldstein M. H. jr.: Rate Functions for Auditory Nerve Responses to Bursts of Noise. J. Acoust. Soc. Am. 34, 571— 575 (1962). Peterson E. Frequency Detection and Speech Formants. J. Acoust. Soc. Am. 23, 668—674 (1951). — and Cooper F. S. Peakpicker: a Bandwidth Compression Device. J. Acoust. Soc. Am. 29, 777 (A) (1957).
388 ЛИТЕРАТУРА Peterson G. E. and Barney H. L. Control Methods Used in a Study of the Vowels. J. Acoust. Soc. Am. 24, 175—184 (1952). — and Lehiste I. : Duration of Syllable Nuclei in English. J. Acoust. Soc. Am. 32, 693—703 (1960). Peterson L. C. and В о ger t В. P. A Dynamical Theory of the Cochlea. J. Acoust. Soc. Am. 22, 369—381 (1950). Pickett J. M. Tactuel Vocoder as an Aid for the Deaf. Proc. Stockholm Speech Comm. Seminar R.I.T., Stockholm, Sweden (September 1962). Pierce J. R. and David E. E. jr. Man’s World of Sound. Garden City, New York: Doubleday and Co., Inc. (1958). — and Karlin J. E. Information Rate of a Human Channel. Proc. I.R.E. 45, 368 (1957). Pi mo now L. Coded Speech and Its Application in Aids for the Deaf. Proc. Stockholm Speech Comm. Seminar R.I.T. Stockholm, Sweden (September 1962). Пирогов А. А. Гармоническая система сжатия спектров речи. Электросвязь, 13, № 3, 8—17 (1959). Pollack I. The Information of Elementary Auditory Displays. J. Acoust. Soc. Am. 24, 745—749 (1952). and Ficks L. Information of Elementary Multidimensional Auditory Displays. J. Acoust. Soc. Am. 26, 155—158 (1954). Potter R. K., Kopp G. A. and Green H. C. Visible Speech. New York: D. van Nostrand Co. (1947). — and Steinberg J. C. Toward the Specification of Speech. J. Acoust. Soc. Am. 22, 807—820 (1950). .Presti gi acomo A. J. Plastic Tape Sound Spectrograph. J. Speech Hear. Disorders 22, 321—327 (1957). — Amplitude Contour Displays of Sound Spectrograms. J. Acoust. Soc. Am. 34, 1684—1688 (1962). .Pruzansky S. Pattern-Matching Procedure for Automatic Talker Recog- nition. J. Acoust. Soc. Am. 35, 354—358 (1963). Ragazzini J. R. and Franklin G. F. Sampled-Data Control Systems. New York : McGraw-Hill (1958). Ranke O. F. Das Massenverhaltnis zwischen Membran und Fliissigkeit im Innenohr. Akust Z. 7, 1—11 (1942). Rhodes F. L. Beginnings of Telephony. New York: Harper Bros. (1929). .-Richardson E. G. ed. Technical Aspects of Sound. Amsterdam: Elsevier Publ. Co. (1953). JR i e s z R. R. Differential Intensity Sensitivity of the Ear for Pure Tones. Phys. Rev. 31, 867—875 (1928). — and Schott L. Visible Speech Cathode-Ray Translator. J. Acoust. Soc. Am. 18. 50—61 (1946). .Rose J. E„ Gal ambos R. and Hughes J. R. Microelectrode Studies of the Cochlear Nuclei of the Cat. Bull. Johns Hopkins Hosp. 104, 211—251 (1959). Rosen G. Dynamic Analog Speech Synthesizer. J Acoust. Soc. Am. 30, 201—209 (1958). Rosenblith W. A. and Stevens К -N. On the DL for Frequency. J. Acoust. Soc. Am. 25, 980-—985 (1953). Russell G. O. The Vowel. Columbus: Ohio State Univ. Press 1928. Speech and Voice. New York : Macmillan Co. (1931). Сапожков M. А. Речевой сигнал в кибернетике и 1связ.и. Связьиздат ('1963). Schott L. О. A Playback for Visible Speech. Bell Labs. Record 26, 333—339 (1948).
ЛИТЕРАТУРА 389- Schroeder М. R. On the Separation and Measurement of Formant Frequen- cies. J. Acoust. Soc. Ami 28, 159 (A) (1956). — Recent Progress in Speech Coding at Bell Telephone Laboratories. Proc. III. Int. Congr. Acoust. Stuttgart, Germany (1959). — ' Correlation Techniques for Speech Bandwidth Compression. J. Audio Eng. Soc. 10, 163—166 (1962). — and Atal B. S. Generalized Short-Time Power Spectra and Autocor- relation Functions. J. Acoust. Soc. Am. 34, 1679—1683 (1962). — . and David E. E. jr. A Vocoder for Transmitting 10 kc/s Speech over a 3.5 kc/s Channel. Acustica 10, 35—43 (1960). — L о g a n B. F. and Prestigiacomo A. J. New Methods for Speech Analysis — Synthesis and Bandwidth Compression. Proc. Stockholm Speech Comm. Seminar R.LT. Stockholm, Sweden (September 1962). Seki H. A New Method of Speech Transmission by Frequency Division and Multiplication. J. Acoust. Soc. Japan 14, 138—142 (1958). Shannon С. E. Prediction and, Entropy of Printed English. Bell System Tech. J. 30, 50—64 (1951). — and Weaver W. The Mathematical Theory of Communication. Urbana : University of Illinois (1949). Shearme J. N. A Simple Maximum Selecting Circuit. Electronic Eng. 31, 353—354 (1959). — Analysis of the Performance of an Automatic Formant Measuring System. Proc. Stockholm Speech Comm. Seminar, R.LT. Stockholm, Sweden (September 1962). — and Homes J. N. An Experiment Concerning the Recognition of Voices. Language and Speech 2, 123—131 (1959). — Smith G. F. and Kelly L. C. A Formant Tracking System tor Speech Measurements. Joint Speech Research Unit Rept. JU 7-2 British Post Office, Eastcote, England. Simon, P e 1 a. Films radiologiques des articulations et les aspects genetiques des sons du langage. ORBIS 10, 1 (1961). Sivian L. J. Speech Power and Its measurement. Bell System Tech. J. 8, 646—661 (1929). Slaymaker F. H. Bandwidth Compression by Means of Vocoders I.R.E. Trans, on Audio AU-8, 20!—26 (1960). — and H о u d e R. A. Speech Compression by Analysis—Synthesis. J. Audio Eng. Soc. 10, 144—148 (1962). Smith С. P. A Phoneme Detector. J. Acoust. Soc. Am. 23, 446—451 (1951). — Speech Data Reduction. Air Force Cambridge Research Center Report TR-57-111, Asia No. AD 117290, Bedford Mass. (May 1957). — Voice-Communications Method Using Pattern Matching for Data Compression. J. Acoust. Soc. Am. 35, 805 (A) (1963). ' Smith S. Diphlophonic und Luft-Schall-Explosionen. Arch. Ohren-, Nasen- u. Kehlkopfheilk ver Z. Hals-, Nasen- u. Ohrenheilk. 173, 504—508 (1958), Stead L. G. and Jones E. T. The S.R.D.E. Speech Bandwidth Compression Project. Report 1133, Signals Research and Development Establishment Christchurch, England (March 1961). — and Weston R. C. Sampling and Quantizing the Parameters of a Formant Tracking Vocoder System. Proc. Stockholm Speech Comm. Semi- nar R.LT., Stockholm, Sweden (September 1962). Steele R. W. and Cassel L. E. Effect of Transmission Errors on the Intelligibility of Vocoded Speech. IEEE Trans. Comm. Sys. 11, 118—123 (1963). — - Dynamic Encoding as Applied to a Channel Vocoder J. Acoust. Soc.. Am. 35, 789 (A) (1963).
390 ЛИТЕРАТУРА Stevens К. N. Autocorrelation Analysis of Speech Sounds. J. Acoust. Soc. Am. 22, 769—771 (1950). — The Perception of Sounds Shaped by Resonant Circuits ScD. Thesis, Mass. Inst. Tech., Cambridge, Mass (1952). — Stop Consonants. Quart. Rept., Acoustics Laboratory Mass. Inst. Tech., Cambridge Mass. (December 1956). — Toward a Model for Speech Recognition. J. Acoust. Soc. Am. 32, 47—55 (1960). — В a s t i d e R. P. and Smith С. P. Electrical Synthesizer of Con- tinuous Speech. J. Acoust. Soc. AM. 27, 207 (A) (1955). — and House A. S. Development of a Quantitative Description of Vowel Articulation. J. Acoust. Soc. Am. 27, 484—493 (1955). — — Studies of Formant Transitions Using a Vocal Tract Analog J. Acoust. Soc. Am. 28, 578—585 (1956). — — Perturbation of Vowel Articulations by Consonantal Context. J. Speech Hear. Res. 6, 111—128 (1963). — Kasowski S. and Fant C. G. M. An Electrical Analog of the Vocal Tract. J. Acoust. Soc. Am. 25, 734—742 (1953). Stevens S. S. and Davis H. Hearing. New York: John Wiley and Sons (1938). Stewart J. Q. An Electrical Analogue of the Vocal Organs. Nature 110, 311—312 (1922). Stumpf C. Die Sprachlaute. Berlin : Springer (1926). Subrahmanyam D. L. and Peterson G. E. Time-frequency Scannirtg in Narrowband Speech Transmission. IRE Trans. Audio AU-7, 148—160 (1959). Sugimoto T. and Hashimoto S. The Voice Fundamental Pitch and Formant Tracking Computer Program by Short-term Auto correlation Function. Proc. Stockholm Speech Comm. Seminar R.I.T. Stockholm, Swe- den (September 1962). Suzuki J., К ad ok awa Y. and Nakata K. Formant Frequency Extraction by the Method of Moment Calculations. J. Acoust. Soc. Am. 35, 1345—1353 (1963). — - and Nakata K. Recognition of Japanese Vowels. J. Radio Res. Lab. (Tokyo) 8, 193—212 (1961). Titchmarsh E. C. The Theory of Functions. London: Oxford University Press (1932). Truby H. M. Acoustico-Cineradiographic Analysis Considerations, Suppl. 182, Acta Radiol (Stockh.) (1959). Tunturi A. R. Analysis of Cortical Auditory Responses with the Probability Pulse. Am. J. Physiol. 181, 630—638 (1955). Ungeheuer G. Elemente einer akustischen Theorie der Vokal—articulation. Berlin—Gottingen—Heidelberg: Springer (1962). V i 1 b i g F. An Apparatus for Speech Compression and Expansion and for Replaying Visible Speech Records. J. Acoust. Soc. Am. 22, 754—761 (1950). — Frequency Band Multiplication or Division and Time Expansion or Compression by Means of a String Filter. J. Acoust. Soc. Am. 24, 33—39 (1952). — and Haase K- Some Systems for speech—band Compression. J. Acoust. Soc. Am. 28, 573—577 (1956,a). — — Uber einige Systeme fur Sprachbandkompression. Nachr. techn. Fachber. 3, 81—92 (1956,b). Wagner K. W. Ein neues elektrisches Sprechgerat zur Nachbildung der menschlichen Vokale. Preuss. Akad. Wiss. Berlin Abh. 2, 44 p. (1936). Wathen-Dunn W. and L i p к e D. W. On the power gained by clipping speech in the audio band. J. Acoust. Soc. Am. 30, 36—40 (1958).
ЛИТЕРАТУРА 391 Watson Т. A. How Bell Invented the Telephone. Trans. Am. Inst. Elec. Engrs. 34, 1011—1021 (1915). Weber S. Modern Communication Methods. Electronics 32, 94—108 (1959). Webster A. G. Acoustical Impedance and the Theory of Horns. Proc. Nat. Acad. Sci. U.S. 5, 275—282 (1919). Webster J. C. Information in Simple Multidimensional Speech Messages. J. Acoust. Soc. Am. 33, 940—944 (1961). W e g e 1 R. L. Theory of vibration of the larynx. Bell System Tech. J. 9, 207— 227 (1930). Werner P. A. and Danielsson K. 17 kanals vocoder i laboratorient- forande FOA3, Laboratory for National Defense rapport A345, Stockholm (1958). Wheatstone, Sir Charles: The Scientific Papers of Sir Charles Wheatstone. London : Taylor and Francis (1879). Wiener F. M. and Ross D. A. The pressure distribution in the auditory canal in a progressive sound field. J. Acoust. Soc. Am. 18, 401—408 (1946). Wiener N. The Extrapolation and Smoothing of Stationary Time Series with Engineering Applications. New York: John Wiley and Sons (1949). Yaggi jr., L. A. Full-duplex digital vocoder. Texas Inst. Inc., Dallas, Report SP >14—A62 (June ,1962). — and Mason A. E. jr. Polymodal vocoder; a new approach to versa- tile and reliable voice communications. J. Acoust. Soc. Am. 35, 806 (A) 1963. Zwislocki J. Theorie der Schneckenmechanik. Diss. Eidg, Tech. Hochschule, Zurich (1948) (Buchdruckerei Gassman Solothurn). — • Some Impedance Measurements on Normal and Pathological Ears. J. Acoust. Soc. Am. 29, 1312—1317 (1957). — Electrical Model of the Middle Ear. J. Acoust. Soc. Am. 31, 841 (A) (1959).
.392 ЛИТЕРАТУРА Список литературы, добавленной редактором перевода 1) А к и и ф и е в Н. Н. Устройство для выделения артикуляционных сигнал-па- раметров и сигнал-остатка речевого сигнала. Изобретения по классу 21 %, 3622N, 142698 с приоритетом от 23 мая 1960 г. и № 143 430 от 24 декабря I960 г. Gabor D. New. possibilities in Speech transmission. Journ. Inst. Electr. Engineers, Vol. 94, Pt. Ill, № 32, Nov. 1947. Игнатьев H. К- Синтез амплитудно-частотной характеристики по коэф- фициентам ее разложения в ряд. «Электросвязь», т. 14, 1960, № 1. Куля В. И. Исследование вокодера чебышевского типа. Электросвязь, 11963, № 2. Куля В. И. Ортогональные фильтры. Киев, изд. «Техника», 1967. .Лебедев Д. С. и Цуккерман И. И. Телевидение и теория информации. Изд. «Энергия», 1965. Листов В. Н. Дальняя связь. Трансжелдориздат, 1945. Муравьев В. Е., Чечерникова Г. И. Корреляционный анализатор мгновенного спектра речевого сигнала. Свидетельство о регистрации НИР в Комитете по делам изобретений от 16 августа 1960 г. № 19783. Муравьев В. Е. Корреляционный анализ мгновенного спектра. Сб. трудов НИИ Мин. связи СССР. Вып. 2 (20), 1960. Муравьев В. Е. О влиянии фаз составляющих спектра звукового сигнала на его восприятие. Сб. трудов НИИ Мин. связи СССР. Вып. 3(39). 1965. Пирогов А. А. Синтетическая телефония. Связьиздат, 1953. Пирогов А. А. К вопросу о фонетическом кодировании речи. «Электро- связь», 1967, № 5. Покровский Н. Б. Расчет и измерение разборчивости речи. Связьиздат, 1962 Смердов А. А. Исследование метода сужения спектра сигнала, основан- ного на использовании статистического усреднения ансамбля источников информации. Кандидатская диссертация. Львовский политехнический ин- ститут, 1965. Трофимов Ю. К. Вопросы построения многоканальной частотно-фазовой системы уплотнения. Сб. трудов НИИ Мин. связи СССР. Вып. 1 (29). 1963. Фе льд келлер Р., Ц викер Э. Ухо как приемник информации. Изд. «Связь», 1965. .Харкевич А. А. Спектры и анализ. Физматгиз, 1962. ') В тексте ссылки иа указанные здесь работы помечены индексом »(прим. ред.).
ОГЛАВЛЕНИЕ Предисловие к русскому изданию................................... 5 От автора........................................................ 6 От редактора русского перевода.................................. 8 I. Речевая связь.................................................Н 1.1. Возникновение телефонии..................................12 .1.2. Эффективная передача речи...............................14 1.3. Пропускная способность человека как канала передачи ин- формации ....................................................17 1.4. Синтетическая 1 телефония: подход к повышению эффектив- ности ......................................................20 II. Процесс речеобразоваиия.......................................21 2.1. Физиология органов речи.................................21 .2.2. Звуки речи.............................................27 2.2.1. Общие сведения....................................27 2.2.2. Гласные...........................................29 2.2.3. Согласные.........................................31 2.3. Количественное описание печи............................36 JII. Акустические свойства ре че.в ого аппарата . 36 3.1. Речевой тракт как акустическая система................37 3.2. Эквивалентная схема для цилиндрической трубы с потерями 39 3.2.1. Общие соотношения..................................39 3.2.2. Акустическое «Г».................................42 3.2.3. Акустическое «7?».................................42 3.2.4. Акустическое «С».................................44 .3.2.5. Акустическое «G».................................45 3.2.6. Заключение по эквивалентным представлениям аку- стических величин........................................49 3.3. Нагрузочное сопротивление излучения через рот и ноздри 50 3.4. Распространение звука в пространстве вокруг головы . . 53 .3.5. Голосовой источник.................................57 3.5.1. Возбуждение голосовыми связками............57 3.5.2. Импеданс голосовой щели........................59 3.5.3. Эквивалентная схема голосового источника для пе- ременного тока.......................................66 .'3.6. Источник шумового и импульсного возбуждения тракта 70 3.7. Некоторые свойства передаточной функции речевого тракта 74 3.7.1. Определение передаточной функции............74 3.7.2. Влияние нагрузки излучения на распределение по- люсов траста.........................................78 .3.7.3. Влияние импеданса голосовой щели на распределение полюсов тракта...........................................80 .3.7.4. Влияние колебаний стенок полости............82 3.7.5. Аппроксимация голосового тракта двумя трубками . 86 .3.7.6 . Возбуждение источником, смещенным вперед по про- дольной оси тракта...................................89
3.7.7. Влияние носового тракта.............................94 3.7.8. Четырехтрубное, трехпараметровое приближение к ар- тикуляции гласных..........................................97 3.7.9. Многотрубные модели и электрические аналоги рече- вого тракта.............................................100 3.8. Применение основных свойств речи и слуха в синтетиче- ской телефонии.......................'........................103 IV. Ухоислух..................................................103 4.1. Устройство уха........................................103 4.1.1. Общая схема.....................................103 4.1.2. Наружное ухо....................................105 4.1.3. Среднее ухо.....................................105 4.1.4. Внутреннее ухо..................................109 4.1.5. Преобразование механических колебаний в нервное возбуждение............................................113 4.1.6. Проводящие пути в слуховой нервной системе . . 116 4.2. Математические модели уха.............................123 4.2.1. Постановка задачи...............................123 4.2.2. Модель базилярной мембраны......................125 4.2.3. Передаточная функция среднего уха...............127 4.2.4. Эквивалентная передаточная функция среднего уха и базилярной мембраны....................................130 4.2.5. Электрическая схема, модулирующая смещение бази- лярной мембраны........................................133 4.2.6. Моделирование движений мембраны на вычислитель- ной машине.............................................136 4.2.7. Моделирование улитки с помощью длинной линии . 139 4.3. Иллюстрация соотношений между субъективным и физио- логическим поведением......................................143 4.3.1. Основные предположения..........................143 4.3.2. Восприятие высоты звука.........................144 4.3.3. Бинауральная локализация........................147 4.3.4. Пороговая чувствительность......................154 4.3.5. Обработка сложных сигналов в слуховой системе . 159 V. Устройства для анализа речи 5.1. Спектральный анализ речи .... 5.1.1. Кратковременный частотный анализ . 5,1,2. 5.1.3. 5.1.4. 5.1,5. Измерение мгновенного спектра Выбор весовой функции . Звуковой спектрограф Кратковременная функция корреляции и мгновенный спектр мощности.............................. 5.1.6. Средний спектр мощности................. 5.1.7. Измерение среднего спектра мощности речи . 5.2. Формантный анализ речи..................... 5.2. '1. О формантной структуре речи........... 5.2.2. Выделение формантных частот............. 5.2.3. Измерение ширины формантных полос 5.3. Анализ основного тоиа голоса.................. 5.4. Артикуляторный анализ механизма речеобразования 5.5. Автоматическое распознавание речи............. 5.6. Автоматическое распознавание диктора . . . . 169 161 161 164 167 170 176 182 183 186 186 188 202 204 207 211 219
VI. Синтез речи....................................................222 6.1. /Леханические говорящие машины; исторический обзор . . 222 6.2. Электрические методы синтеза речи.........................227 6.2.1. Методы восстановления сигналов с заданным спект- ром .......................... . . .... 227 6.2.2. Синтезаторы-четырехполюсники........................232 6.2.3. Аналоги речевого тракта, построенные на основе ли- нии передачи............................................247 6.2.4. Возбуждение электрических синтезаторов .... 251 6.2.5. Факторы, связанные с излучением.....................266 6.2.6. Моделирование синтеза речи иа вычислительных ма- шинах ..................................................267 VII. Восприятие речи и речеподобиых звуков . . 275 7.1. Дифференциальное и абсолютное различения .... 276 7.2. Дифференциальная разрешающая способность по координа- там речевого сигнала ...................................... 278 7,2.1. О чувствительности слуха к изменению координат рече- вого сигнала.............................................278 7.2.2. Пороговые значения для частот формантных макси- мумов ..................................................279 7.2.3. Пороговые значения для амплитуд формантных мак- симумов ................................................279 7.2.4. Пороговая чувствительность к ширине формант . . 280 7.2.5. Пороговая чувствительность к частоте основного тона 280 7.2.6. Пороговые значения для интенсивности возбуждения 280 7.2.7. Порог чувствительности к нулям спектра импульсов ос- новного тона............................................281 7.2.8. Различимость максимумов и минимумов спектра шума 281 7.2.9. Другие оценки, полученные методом непосредственного сравнения...............................................283 7.2.10. Дифференциальная различимость в артикуляционной области.................................................287 7.3. Абсолютное различение речи и речеподобных звуков . . 288 7.3.1. Абсолютное опознавание звуков.......................288 7.3.2. Абсолютное опознавание слогов......................291 7.3.3. Влияние обучения и лингвистических ассоциаций иа аб- солютную опознаваемость речеподобных сигналов . . . 298 7.3.4. Влияние лингвистических ассоциаций на дифференци- альную различимость.....................................302 7.4. Влияние контекста и словаря иа восприятие речи . . . 305 7.5. Единицы восприятия речи...................................308 7.6. Артикуляционный метод оценки качества телефонных трак- тов .......................................................311 7.7. Расчет разборчивости по характеристикам тракта и уровню шума. Индекс артикуляции...................................313 7.8. Дополнительные сенсорные каналы восприятия речи . . 316 7.8.1. Спектрограф «видимой речи».........................316 7.8.2. Тактильный вокодер............................ . 317 7.8.3. Низкочастотный вокодер.............................317 VIII.Системы синтетической телефонии .... 318 8.1. Полосные вокодеры.........................................319 8.1.1. Изобретение Гомера Дадли...........................319 8.1.2. Уплотнение полосных вокодеров......................324 8.1.3. Эксплуатационные качества вокодера............328
8.2. Полосные вокодеры с сокращенной избыточностью . . . 329 8.2.1. Вокодер с селекцией максимумов.....................329 8.2.2. Линейное преобразование спектральных сигнал-пара- метров полосного вокодера .............................. 330 8.2.3. Вокодеры с эталонами спектральных функций . . 330 8.3. Полувокодеры........................................332 8.3.1. Проблема улучшения естественности..............332 8.3.2. Уплотнение и дискретизация.....................335 8.4. Корреляционные вокодеры.......................... 337 8.5. Формантные вокодеры........................... 340 8.5.1. Принцип формантного анализа и синтеза речи . . 340 8.5.2. Уплотнение и дискретизация формантных вокодеров . 345 8.5.3. Формантные полувокодеры........................348 8.6. Артикуляторные вокодеры.............................349 8.7. Другие методы сокращения полосы.....................350 8.7.1. Ограничение полосы .и соотношение сигнал/шум . . 350 8.7.2. Амплитудное квантование и кодирование. Клиппиро- ванная речь..........................................351 8.7.3. Частотное деление и умножение. Временное сжа- тие и расширение.....................................355 8.7.4. Метод статистического использования пауз речи (ТАСИ)...............................................358 8.7.5. Представление речи ортогональными функциями . . 363 Литература.......................................................378 Список литературы, добавленной редактором перевода .... 392 ДЖЕЙМС Л. ФЛАНАГАН АНАЛИЗ, СИНТЕЗ И ВОСПРИЯТИЕ РЕЧИ Перевод с английского под редакцией А. А. Пирогова Редактор Н..М. Улановская Техн, редактор Г. И. Шефер Корректор 3. И. Коростелева Сдано в .набор 8/II 4968 г. Подписано в печ. 26/VI 1968 г. Форм. бум. 60X 90/16 24,75 печ. л. 24,75 усл.чп. л. 24,43 уч.-изд. л. Тираж 5000 экз. Зак. изд. 13129 Цена 1 руб. 99 коп. Издательство «Связь», Москва-центр, Чистопрудный бульвар, 2. Типография издательства «Связь» Комитета по печати при Совете Министров СССР. MoteKBa-центр, ул. Кирова, 40. Зак. тип. 71