ЧАСТЬ III
  Анимация

   ГЛАВНАЯ

   ВВЕДЕНИЕ

   ЧАСТЬ 1
   ГОЛОВА ЧЕЛОВЕКА
   ГЛАВА 1. АНАТОМИЯ ГОЛОВЫ
   ГЛАВА 2. ПРОПОРЦИИ ГОЛОВЫ
   ГЛАВА 3. ЛИЦЕВЫЕ МЫШЦЫ

   ЧАСТЬ 2 ВЫРАЖЕНИЕ ЛИЦА
   ГЛАВА 4. ЧЕРТЫ ЛИЦА И ЕГО    ВЫРАЖЕНИЕ

   ЧАСТЬ 3 АНИМАЦИЯ
   ГЛАВА 5. СИНХРОНИЗАЦИЯ РЕЧИ С    ДВИЖЕНИЕМ ГУБ

   ГЛАВА 6. АНИМАЦИЯ МЕТОДОМ    ВЗВЕШЕННОГО МОРФИНГА

   ГЛАВА 7. СИНХРОНИЗАЦИЯ    ДВИЖЕНИЯ ГУБ С РЕЧЬЮ    ПЕРСОНАЖА ПРИ ПОМОЩИ    ПРОГРАММЫ MAGPIE

   ПРИЛОЖЕНИЕ A. МОДЕЛИ    ТИПИЧНЫХ ВЫРАЖЕНИЙ    ЧЕЛОВЕЧЕСКОГО ЛИЦА ДЛЯ    АНИМАЦИИ МЕТОДОМ    ВЗВЕШЕННОГО МОРФИНГА

   ПРИЛОЖЕНИЕ B. ВИЗУАЛЬНЫЕ    ПРЕДСТАВЛЕНИЯ ЗВУКОВ    ЧЕЛОВЕЧЕСКОЙ РЕЧИ

   ПРИЛОЖЕНИЕ C. МОДЕЛИ    ТИПИЧНЫХ ВЫРАЖЕНИЙ ЛИЦА    МУЛЬТПЕРСОНАЖА ДЛЯ АНИМАЦИИ    МЕТОДОМ ВЗВЕШЕННОГО    МОРФИНГА

   ПРИЛОЖЕНИЕ D. ВИЗУАЛЬНЫЕ    ПРЕДСТАВЛЕНИЯ ЗВУКОВ РЕЧИ    МУЛЬТПЕРСОНАЖЕЙ

   ПРИЛОЖЕНИЕ E. ПРИМЕРЫ    ВЫРАЖЕНИЙ ЛИЦА

   ПРИЛОЖЕНИЕ F. МИМИКА    МУЛЬТПЕРСОНАЖЕЙ

   ПРИЛОЖЕНИЕ G. МЫШЦЫ ЛИЦА    ЧЕЛОВЕКА
Глава 5. Синхронизация речи с движением губ

Знакомство с фонемами
Правила синхронизации
Процесс синхронизации движения губ и речи персонажа
Заключение


IY, IE
IH, EY, EH, AE,
AH, AY, AW, AN,
H, E, EE
AA, AO, AR
OW, UW,
OY, W, UE
UH, ER
R
L, T, D
R


Сначала работа над анимацией лица может показаться вам слишком сложной и даже отпугнуть. Однако это решаемая задача, если учесть два условия. Во-первых, вы должны хорошо представлять себе, как формируются различные выражения лица. Во-вторых, необходи мо знать фонетику того языка, на котором говорит персонаж. Неправдоподобная мимика и плохая имитация речи могут погубить все ваши усилия Например, американские зрители хорошо знакомы с трехмерной анимацией в стиле Ханны Барбары (Hanna Barbara). Возможно, он и неплох для мультфильмов, но таким героям недостает подлинного правдоподобия. Зритель ожидает, что трехмерный персонаж будет более реалистичным, чем его двумерная копия. Поэтому аниматор должен тщательнее прорабатывать мимику своих героев.

Еще совсем недавно считалось, что трехмерная анимация выражений лица - почти непосильная задача, которая по плечу только самым крутых профессионалам. Я заявляю, что это неверно. Каждый (я подчеркиваю: каждый) может научиться анимировать говорящих персонажей, освоив данную технику за достаточно короткое время. Нужно только знать не сколько простых правил, которые мы и обсудим в следующих главах. Во круг лицевой анимации сложилось множество мифов; мы их развеем. Вы с удивлением убедитесь, что суть работы очень проста: надо только син хронизировать мимику персонажа со звуковым файлом. Ну как, мне уда лось вас приободрить?

Тогда приступим!




В настоящей главе речь пойдет о том, как согласовать мимику персонажа с его речью, записанной в отдельном звуковом файле. Это делается так Сначала мы создаем базу данных своеобразную библиотеку выражений лица. Например, она содержит трехмерные модели, очертания рта которых соответствуют конкретным звукам того или иного языка, а лица передают определенные эмоциональные состояния (гневная гримаса, удивленно взметнувшиеся или нахмуренные брови и так далее). Обычно такие объекты создаются в программе моделирования. Все эти выражения лица: хранятся в библиотеке в виде отдельных файлов, которые можно повторно загрузить и отредактировать.

На следующем этапе работы записанная речь разбивается на компоненты. Иначе говоря, устанавливается соответствие между слышимыми звуками и выражениями лица. Поэтому при последовательном воспроизведении кадров зрителю будет казаться, что герой сам произносит звучащие фразы. Выбранные вами для анимации выражения лица и сопровождающие их ключевые кадры в определенном порядке войдут во временную диаграмму.

В соответствии с этим порядком вы будете располагать созданные модели на заключительной стадии анимации. Например, вы вводите в программу список файлов, содержащих те объекты, которые должны подвергнуться морфингу. Другой вариант: вы создаете модели, соответствующие тем или иным звукам или просто выражениям лица, методом взвешенного морфинга (подробнее о нем пойдет речь в главе 6).

На первый взгляд описанная работа может показаться механической. Однако вы убедитесь, что она потребует от вас немалой изобретательности. Синхронизация речи персонажа с движениями его губ - это лишь часть шоу. Следует учитывать также личность вашего героя. Произносимые им слова могут иметь разные значения в зависимости от того, например, что выражало лицо персонажа или его взгляд.

Прежде чем приступить к синхронизации речи с движениями губ героя, надо разобраться с основой языка - фонемами. Именно этот аспект лицевой анимации - верное воссоздание движения говорящих губ - связан для дизайнеров с наибольшими трудностями. Дело в том, что обычно аниматоры плохо знают фонетику. Поэтому наша ближайшая задача - ликвидировать этот досадный пробел. Приготовьтесь погрузиться в увлекательный мир звуков!

Итак, обратимся к изучению фонем и той роли, которую они играют в анимации губ.

Знакомство с фонемами

Что такое фонема? Это минимальная единица языка, звук, который мы произносим или слышим. Из фонем складываются слоги и слова. Важно не путать звуки и буквы, поскольку между ними но всегда есть точное соответствие. Звук - явление живой речи, а буква представляет собой письменное обозначение одной или нескольких фонем (а в некоторых случаях вообще не передает никаких звуков). Например, в английском слове «loot» («ступня») две буквы - «оо» - обозначают один звук, который в транскрипции передается так: [uh]. Следовательно, для языковеда это слово будет иметь следующий вид: [f-uh-t|.

В фонетике самое важное - именно звук, а не буква. Поскольку фонемы составляют основу речи, их необходимо знать, чтобы правильно показать движения рта говорящего персонажа. При работе над анимацией губ надо синхронизировать мимику героя и аудиозапись его речи. Очертания рта меняются в соответствии с произносимыми звуками, а не словами. Американский вариант английского языка включает 45 фонем, перечисленных в табл. 5.1. В британском английском их 44, а в русском - 40. (Однако следует учитывать, что классификации, которые основаны на разных научных теориях, могут несколько отличаться друг от друга.) Основные звуки русского языка (без учета их позиционных фонетических вариантов) приведены в табл. 5.2.

Таблица 5.1. Фонемы американского варианта английского языка

Тип фонемы по способу артикуляции Фонема Пример Номер визуального представления
Гласные(одиночные) IY Beat 1
IH Bit 2
АО Bought 3
EH Bet 2
AE Bat 2
AA Hot 3
UH Foot 5
UW Boot 4
AH But 2
ER Bird 5
AR Are 3
E Cutter 2
Дифтонги AY Buy 2
EY Bay 2
OY Boy 4
AW How 2
OW Boat 4
IE Hear 1
EE Daring 2
UE Poor 4
Фрикативные звуки F Fluff 11
V Valve 11
TH Thin 12
DH Then 12
S Sass 13
Y You 6
W What 4
Z Zoo 13
SH Shoe 14
R Rock 8
ZH Measure 14
H How 2
Взрывные звуки B Bib 9
T Top 7
D Did 7
K Kick 15
G Gig 15
P Pop 9
Аффрикативные звуки CH Church 14
J Judge 16
Носовые звуки M Maim 9
N None 10
AN Bang 2
Боковые звуки L Lull 7
R Roar 8


Таблица 5.2. Фонемы русского языка

Тип фонемы по способу артикуляции Фонема Пример Номер визуального представления
Гласные И Мир 1
Ы Сыр 1
Е Лес 2
А Дар 3
О Горсть 4
У Лук 5
Фрикативные звуки Ф Фетр 11
В Волк 11
С Сон 13
З Заря 13
Ш Шаг 14
Щ Щука 14
Ж Жар 14
Й Йод 6
Х Храм 2
Взрывные звуки П Пол 9
Б Бор 9
Т Том 7
Д Дом 7
К Кот 15
Г Горн 15
Аффрикативные звуки Ц Цирк 7
Ч Череп 14
Носовые звуки М Мама 9
Н Нос 10
Боковые звуки Л Лицо 7
Вибранты Р Рот 7

Как видите, при записи фонем часто используются специальные сочетания символов. Это делается для того, чтобы точно передать произносимые нами звуки. Как же выделить ту или иную фонему из потока речи? Очень просто: она всегда выполняет смыслоразличительную функцию. Иначе говоря, звук позволяет отличать друг от друга разные слова. Одна-единственная фонема, подставленная вместо другой, может менять значение всего слова. Допустим, когда в слове «pin» («булавка») мы заменяем звук [р] (его обозначает буква «р»)на звук [b] (буква «Ь»), то получаем «bin» («ящик»). Следовательно, [р] и [Ь] - фонемы. Приведем еще несколько примеров английских фонем:

• при замене уже знакомой нам фонемы [uh] (сочетание букв «оо») в слове «foot» на звук [ае] (буква «а») получаем слово «fat» («жирный, жир»). Следовательно, [uh] и [ае] фонемы;

• при замене фонемы [ch] (буква «ch») в слове «chat» («болтовня, болтать») на звук [г] (буква «r») мы получаем слово «rat» («крыса»). Следовательно, [ch] и [r] - фонемы.

Это универсальное правило, которое работает во всех языках. Возьмем несколько пар русских слов, например: «шар» - «жар», «пить» - «пять», «кров» - «кровь». Как видите, в каждую из перечисленных пар входят слова, которые имеют совершенно разные значения, но по фонетическому составу отличаются лишь одним звуком: [ш] - [ж], [и] - [а],[в] - [в'] (значок ' указывает на мягкость звука).

Теперь вы знаете, что такое фонемы. Давайте посмотрим, каким должно быть положение черт липа при произнесении разных звуков - иначе говоря, каково их визуальное представление.

Визуальное представление фонем

Визуальное представление фонемы - это положение губ, которое соответствует тому или иному произносимому звуку. Когда дизайнер работает нал синхронизацией речи трехмерного персонажа и движения его губ, то обязательно сначала моделирует визуальное представление фонем строительный материал лицевой анимации. Очень важно определить, сколько таких моделей потребуется вам для решения задачи. Чтобы создать анимацию среднего качества, достаточно и десяти; однако если вы хотите получить действительно отличный результат, лучше использовать шестнадцать моделей. Набор из шестнадцати визуальных представлений фонем показан на рис. 5.1 и 5.2.

Под каждой картинкой приведен список звуков, которые произносятся при соответствующем положении рта. Обратите внимание: на первый взгляд визуальные представления определенных групп фонем выглядят одинаково. Однако при ближайшем рассмотрении видно, что это касается лишь конфигурации губ; положение языка все-таки различно. Обратитесь к приложению В настоящей книги. В нем визуальное представление каждой фонемы дано крупным планом и отдельно показано положение языка в каждом конкретном случае.

Анимация получится удачной, если вы позаботитесь о том, чтобы язык персонажа находился в правильной позиции во время его речи. В обыденной жизни мы на подсознательном уровне замечаем движения языка нашего собеседника. Если в анимации были использованы лишь несколько визуальных представлений фонем, любой из нас сразу же почувствует, что речь героя неестественна. Л дело в том, что его язык будет совершать неуклюжие движения. Если вам все-таки очень нужно сэкономить время, воспользуйтесь теми десятью моделями, которые приведены на рис. 5.3.





Рис. 5.1. Визуальное представление фонем





Рис. 5.2. Визуальное представление фонем






Рис. 5.3. Визуальное представление фонем: сокращенный вариант

Число визуальных представлений фонем в данном варианте было сокращено за счет объединения нескольких моделей, которые выглядят очень похоже. Конечно, в результате язык персонажа иногда будет совершать движения, не соответствующие определенному звуку. Однако это не всегда так уж важно, особенно если лицо не показывают крунным планом. Зато применение сокращенного набора моделей поможет быстро завершить работу. И все-таки я хочу подчеркнуть: если вы хорошо усвоили изложенный выше материал, то использование полного варианта не займет у вас много времени.

Теперь подробно рассмотрим виды фонем, чтобы научиться правильно синхронизировать движения губ и языка персонажа с его речью.

Классификация фонем

Создавая синхронную анимацию, вы должны ясно представлять себе, с какой интонацией произносится тот или иной звук и какова продолжительность его звучания. Знание фонетической системы языка значительно упрощает вашу задачу. Давайте рассмотрим различные типы фонем, а затем поговорим о том, как они применяются в синхронной анимации.

Сначала вы по нескольким критериям определяете тип нужной фонемы. Он указан в первом столбце в табл. 5.1. Классификация помогает лучше понять природу звуков и грамотно использовать их при анимации лица. Разобравшись в этом вопросе, вы научитесь быстро синхронизировать движения губ даже со сложной речью. Итак, рассмотрим характеристики фонем. Начнем с точки артикуляции.

Точка артикуляции звука

Артикуляцией называется работа органов речи (губ, языка, мягкого нёба, голосовых связок), которая необходима для произнесения звуков языка. В общих чертах процесс описывается так. Человек делает вдох. Воздушная струя попадает из трахеи в гортань и проходит сначала между напряженными голосовыми связками по голосовой щели, а затем через ротовую полость, которая выступает в роли резонатора и может менять свою форму. Так образуются гласные звуки, состоящие только из голоса, поскольку в этом случае струя воздуха не встречает на пути никаких препятствий. Однако выдыхаемый воздух может наткнуться в ротовой полости на преграду, которая образуется в результате смычки или сближения органов речи. Это и есть точка артикуляции - место образования согласного звука, где натолкнувшаяся на препятствие воздушная струя превращается в шум и выходит через рот или нос. Если голосовая щель остается суженной, голосовые связки напряжены и колеблются выдыхаемым воздухом, то в произнесении согласного звука участвует и голос. Таким образом, согласные могут образовываться при помощи голоса и шума (звонкие) или только шума (глухие). Например, когда задняя часть спинки языка поднимается к мягкому нёбу и смыкается с ним, то получается звук [г] (если в производстве фонемы участвовали и воздух, и голос) или [к] (только воздух).

Согласные звуки классифицируются, во-первых, по месту образования. Иными словами, тип фонемы зависит от того, где находится точка ее артикуляции. По указанному критерию все согласные делятся на три группы.

1.Губные. Они образуются, когда струя воздуха проходит через смыч ку нижней и верхней губы (русские фонемы [п], [б], [м|, английские [w], [р], [Ь], [m]) или нижней губы и верхних зубов (русские звуки [в] и [ф], английские [f] и [v]).

2. Язычные. Их классификация значительно сложнее, поскольку язык может совершать в ротовой области множество движений к ее разным точкам. Язычные фонемы включают следующие основные разряды:

• переднеязычные. Как понятно из названия, в их произнесении ак тивно участвуют передняя часть и копчик языка. Он может обра зовывать преграду вместе с зубами и альвеолами, и тогда получа ются зубные согласные звуки - английские [z], [s],[d], [t], [n], [1], [r], [cj], [j], русские [с], [з], [т], [д], [ц], [л], [н]. Когда язык создает препятствие в околозубной части твердого нёба, возникают нёбно зубные звуки: английские [sh], [zh], русские [ш], [ж], [ч], [р]. Кро ме того, в английском выделяются межзубные фонемы, к которым принадлежат [th] (как в слове «there» - «там, туда») и [dh] (как в слове «think» - «думать»);

• среднеязычные, или палатальные. Второе название этот разряд фонем получил от латинского «palatum» - «твердое нёбо», с кото рым смыкается средняя часть спинки языка. Так образуются анг лийский звук [у] и русский [й];

• заднеязычные, или задненебные. При их произнесении задняя часть языка упирается в мягкое нёбо. Так получаются русские зву ки [к], [г], [х], английские [k], [g], [an] в словах на -ing.

3. Кроме того, в английском языке выделяется еще один разряд соглас ных фонем - гортанные. Они образуются в задней части гортани с помощью маленького язычка и голосовой щели. Это глухое приды хание [h], как в слове «house» «дом».

Чтобы правдоподобно передать речь персонажа, необходимо знать точку артикуляции всех произносимых им звуков. При составлении набора из шестнадцати визуальных представлений фонем учитывалось именно место образования каждого звука. Как уже говорилось, при двух одинаковых положениях губ язык может занимать совершенно разные позиции во рту. Это приводит к образованию различных звуков. Итак, если камера будет показывать героя анимации крупным планом, обязательно воспользуйтесь полным набором визуальных представлений фонем.

Способ образования звука

Кроме точки артикуляции фонемы, необходимо также знать способ ее образования, который зависит от характера препятствия на пути воздушной струи. (Естественно, данный критерий важен только для согласных звуков, потому что при их произнесении от столкновения воздуха с преградой возникает шум, а при артикуляции гласных струя выдыхаемого воздуха не встречает никаких препятствий.) Возьмем три английских слова: «nine» («девять»), «dine» («обедать») и «line» («линия»). Все они начинаются со звонких согласных, однако имеют разное звучан

ие и значение. По способу артикуляции все согласные делятся на следующие группы.

1. Фрикативные, или щелевые. Они образуются при прохождении вы дыхаемого воздуха через узкую щель между языком и каким-либо местом в ротовой полости. Шум получается в результате трения воздушной струи о стенки щели, поэтому фрикативный звук может длиться некоторое время, пока в легких есть воздух. Произнесите, на пример, слово «zoo» («зоопарк») и обратите внимание на то, как обра зуется фонема «z». В английском языке к фрикативным относятся звуки [f] (в слове «fun» - «забава, шутка»), [v] (в слове «victory» - «победа»), [th], [dh], [s], [z], [sh], [zh], [h], а также фонемы [у] («yes»- «да»), [w] («what» - «что»), которые иногда называют полугласны ми, и [r] («rock» - «камень, скала»). Русские фрикативные соглас ные- [ф], [в], [с], [з], [ш], [щ], [ж], [й],[х]. Фрикативные согласные звучат достаточно длительно. Чтобы убедиться в этом, медленно произнесите вслух английское слово «shop» («магазин») или русское «шаг». Обратите внимание, что в обоих случаях щелевая фонема [sh] или [ш] произносится дольше, чем остальные звуки в словах. При разметке временной диаграммы, которая необходима для синхронизации движений рта с речью персонажа, рекомендую вам отводить фрикативным фонемам и особенно полугласным большее число кадров анимации.

2. Смычные. Когда два органа ротовой полости плотно соприкасаются, они образуют полный затвор - смычку на пути струи воздуха. Он либо каким-то образом преодолевает преграду, либо обходит ее. В за висимости от этого выделяются следующие разряды смычных звуков:

• взрывные. Смычка как бы взрывается под напором воздушной струи, которая резко выходит из ротовой полости наружу. Взрывные фонемы иногда называют мгновенными, так как при артикуляции их нельзя растянуть, они произносятся быстро и резко. Если говорить о синхронизации движения губ персонажа с его речью, то взрывные звуки - это «выпавшие согласные»; при анимации их можно не заметить, поскольку их визуальное представление слишком скоро сменяется визуальным представлением других фонем. Чтобы правильно согласовать речь героя с движением его губ, помните о протяженности каждого звука во времени. Не всегда следует показывать мимику персонажа при произнесении каждого согласного, особенно взрывного. К данному разряду фонем в английском языке относятся [t] (например, в слове «tale» - «сказка, рассказывать»), [d] (в слове «dale» - «долина»), [р], [b], [k] и [g]. Русские взрывные- это [п], [б], [т], [д], [к], [г];

• аффрикаты. При их произнесении смычка не взрывается мгновен но, как в предыдущем описанном случае, а преобразуется в щель, которая затем размыкается. Таким образом, артикуляция аффри кативного звука достаточно сложна: смычное начало и щелевое окончание. И английский, и русский языки имеют по две аффри кативных фонемы: [ch] и [j], [ц] и [ч'], соответственно. Однако аффрикату нельзя рассматривать просто как сочетание смычного звука с фрикативным (щелевым), потому что она является одной неделимой фонемой. Чтобы убедиться в этом, сравните, например, звуковую комбинацию [тс] (в слове «отсадить») и аффрикату [ц] (в слове «поцарапать»). Они произносятся по-разному. Артикуляция аффрикативпых фонем сопровождается заметной мимикой. Поэтому обязательно позаботьтесь о том, чтобы показать ее в своей анимации. Аффрикаты ни в коем случае нельзя игнори ровать, поскольку они, так сказать, «бросаются в глаза»;

• носовые. При образовании носовых звуков воздушная струя ми нует смычку в ротовой полости и выходит через полость носа, ко торая служит резонатором наряду с ртом. Мягкое нёбо при этом опускается, чтобы пропустить воздух в нос. В английском языке три носовых фонемы: [m], [n], [an] (в словах на -ing, например, в «king» - «король»), а в русском две: [м] и [н];

• боковые. При артикуляции таких звуков кончик языка смыкается посередине рта с зубами (верхними резцами) и альвеолами, обра зуя преграду. Однако боковая сторона языка, одна или обе, опуще на вниз. Между ней и щекой свободно проходит воздух, минуя смычку и создавая трением легкий шум. В английском языке это звуки [1] (как в слове «lamp» - «лампа») и [r], в русском - [л];

• дрожащие, или вибранты. При их произнесении преграда перио дически то размыкается, то вновь смыкается. Следовательно, струя воздуха выходит наружу прерывисто, только в моменты размыкания. В русском языке так образуется звук [p]: кончик языка дрожит, соприкасаясь с твердым нёбом. И боковые фонемы, и вибранты произносятся довольно быстро, поэтому при анимации на них можно экономить кадры.

Звонкие и глухие звуки

Как уже говорилось, гласные звуки состоят только из голоса, поскольку при их образовании струя воздуха не встречает в ротовой полости ника ких препятствий. А вот согласные могут образовываться при помощи го лоса и шума или только шума. В зависимости от этого они делятся на звон кие и глухие. В человеческой гортани есть две наклонно расположенные натянутые мускулистые пленки в виде занавеса, которые сходятся и при крепляются к щитовидному хрящу. Пространство между этими эластичными пленками- голосовыми связками называется голосовой щелью Глухой звук возникает тогда, когда она раскрыта и голосовые связки во время артикуляции не вибрируют. Если голосовая щель сужена, то связки напряжены и колеблются под напором воздуха, который поступает из лег ких человека. Так образуются звонкие согласные.

Простейший пример глухого звука - шепот. Когда вы шепчете, голосо вая щель широко раскрыта, и все произносимые фонемы являются глухи ми. Однако если она сужается, то голосовые связки оказываются располо жен ными очень близко друг к другу. Воздух, проходящий сквозь щель заставляет их вибрировать, и образуется звонкий звук. Чтобы в буквальном смысле ощутить разницу между звонкими и глухими согласными, прикоснитесь указательным и большим пальцами к горлу. Сначала произ несите [ffff], затем [zzzz]. Вы убедитесь, что во втором случае голосовье связки вибрируют, а в первом этого не происходит.

Дрожание связок можно явственно услышать, если заткнуть уши пальца ми и сказать сначала [zzzz], а потом [ssss]. Во время первого опыта вы услы щите низкое жужжание, во время второго - почти ничего не заметите.

При работе над анимацией речи важно помнить, что в первую очередь необходимо показать мимику персонажа при произнесении гласных: и звонких согласных звуков. Поскольку в речи героя выделяются преж де всего гласные, не забывайте об их визуальном представлении. Но сна чала следует изучить классификацию гласных фонем.

Гласные фонемы

Как уже указывалось, при их произнесении в ротовой полости не возника ет препятствий. Хотя язык при образовании гласных звуков занимает раз личные положения, он не перекрывает путь воздушной струе, а голосовые связки вибрируют. Произнесите [аааа], [ееее], [iiii], [oooo] или [uuuu], и вы заметите это дрожание.

Различные гласные фонемы образуются при разных позициях губ, языка и нёба. Иногда изменения в положении указанных речевых органов бывают очень незначительными и едва заметными. В английском языке, в отличие от русского, есть особый разряд гласных звуков - дифтонги. Но прежде чем перейти к ним, давайте рассмотрим тины гласных фонем. Их два.

1. Монофтонги. Это гласные, во время произнесения которых органы речи не изменяют своего положения. Один слог всегда содержит один монофтонг. В русском языке все 6 гласных фонем являются мо нофтонгами: [fa], [о], [у], [е], [и], [ы]. В английском их 12: [iy], [ih], [eh], [ae], [aa], [ao], [uh], [uw], [ah], [er], [ar], [e].

2.Дифтонги. Это гласные со скользящей артикуляцией; при их обра зовании органы речи изменяют свое положение к концу произнесе ния. Таким образом, дифтонг представляет собой сочетание двух гласных в одном слоге, но функционирует в качестве единой слож ной единицы звуковой системы. Первая гласная является слоговой, вторая - неслоговой. Они отличаются тем. что слоговая обладает большей длительностью и на эту гласную может падать ударение. Первая часть дифтонга всегда звучит дольше и сильнее второй, пото му что по мере его артикуляции звук ослабевает. Естественно, диф тонг произносится медленнее, чем монофтонг. Аниматоры совершают ошибку, когда используют монофтонги вместо дифтонгов, поскольку в результате речь персонажа становится отрывистой. На артикуляцию дифтонговых фонем следует выделить большее количество кадров, чтобы слова не были рублеными. В английском языке выделяются следующие дифтонги: [ay]. [oy], [aw], [ey], [ow],[ie], [ee], [ue].

Вот и все основные сведения о классификации гласных фонем. Конечно, разобраться в них сложнее, чем в выражениях лица. С другой стороны, это и не так трудно, как кажется поначалу. Надо лишь уметь применять данную информацию на практике. В настоящей главе речь идет именно о том, как фонетический анализ используется в анимации. Но прежде всего познакомьтесь с очень простыми правилами, которые позволят облегчить вашу работу и успешно синхронизировать движения губ персонажа с аудиозаписью его речи.

Правила синхронизации

Вы должны создать полную иллюзию того, что ваш мультипликационный герой действительно разговаривает. Нелегкая задача; однако вы прекрасно справитесь с ней, если будете придерживаться нескольких основных прин ципов. Давайте перечислим их и обсудим каждое правило в отдельности.

Запись речи персонажа перед анимацией сцены

Прежде чем заняться анимацией сцены, запишите речь персонажа. На это есть две причины:

• вам будет намного легче «подогнать» выражения лица персонажа под его речь, чем приглашать талантливого артиста для точного дубляжа уже существующей анимации (если, конечно, вы не создаете фильм о боевом искусстве кун-фу: крики «а-а-а!» и устрашающий рык запи сать несложно). Игнорирование данного правила может стоить вам многих часов, которые вы проведете в студии звукозаписи, добиваясь точного соответствия аудио- и видеорядов;

• записанная речь поможет вам определить, какие кадры анимации должны стать ключевыми. Соответствующая программа редактиро вания даст вам визуальное представление аудиозаписи, то есть диаг рамму, но которой можно проследить момент появления каждого звука. В главе 7 мы рассмотрим одну из таких утилит - редактор Magpie. Это условно-бесплатная программа; с ее помощью произво дится разбивка звуковой дорожки при анимации губ.

Создание анимации с учетом артикуляции каждого звука

От артикуляции звука зависят и его продолжительность, и то, в какой мере вам понадобится выделить при анимации визуальное представление данной фонемы. Работая над временной диаграммой, постоянно сверяйтесь с табл. 5.1-5.2, где приведена классификация английских и русских фонем. Как вы помните, тип звука указывает на способ его произнесения, а это важно при визуальной передаче речи персонажа. Кроме того, в таблицах для облегчения вашей работы даны соответствующие номера морфинг-мишеней для каждой фонемы. Итак, обе вышеприведенные таблицы - неоценимый инструмент, который всегда должен быть у вас под рукой во время создания анимационного ролика.

Давайте обобщим полученные сведения и еще раз вспомним, как произносятся различные фонемы, поскольку от этого зависит их. визуальное представление.

Гласные звуки

1. Монофтонги - гласные фонемы, которые выделяются в речи. Час то они произносятся с ударением, и в этом случае им надо уделить особое внимание. Например, в слове «beat» («бить, колотить») самым сильным является звук [iy], в слове «hot» («горячий») - звук [аа], в русских словах «дорога» и «мир» - второе [о] и [и], соответственно. При анимации следует подчеркивать монофтонги с помощью визуального представления. Никогда не забывайте делать это! Вообще, визуальным представлениям гласных фонем нужно отвести главную роль в процессе морфинга. Однако надо также учитывать долготу и краткость отдельных звуков. Так, английская фонема [iyj произносится дольше, чем краткий по своей природе звук [ih] (например, в слове «milk» - «молоко»). А в русском языке более продолжительным является звучание ударных звуков. Например, в слове «караван» третья фонема [а] произносится дольше и сильнее, чем первая и вторая. Имейте в виду еще одно обстоятельство. Между английскими и русскими гласными есть существенное отличие. Русские монофтонги [о], [е], [а] в зависимости от ударной или безударной позиции в слове могут менять свое качество, то есть способ артикуляции. Например, в слове «молоко» вместо первого «о» произносится на самом деле слабый звук, похожий на что-то среднее между [а] и [ы]. Второе «о» звучит скорее как [а], и только третье «о», на которое падает ударение, действительно обозначает сильный звук [о]. В слове «деревья» второе, ударное «е» передает фонему [е], а первое, безударное, - звук, близкий к [и]. Данное явление называется редукцией, а русские безударные гласные -редуцированными, или ослабленными. Они произносятся более кратко и отличаются вялой артикуляцией, если только ваш персонаж не кричит на расстоянии: «Ла-ри-са!». Следует учесть это при анимации.

2. Дифтонги - «ленивые» звуки, которые произносятся сравнительно медленно. В русском языке дифтонгов нет. Зато при анимации англоязычного фильма им следует уделить особое внимание и отвести на визуальное представление таких фонем больше кадров. Например, в слове «about» (предлог «о») на произнесение дифтонга [aw] требуется больше времени, чем на артикуляцию других звуков. Помните также, что первая часть дифтонга всегда звучит дольше и сильнее второй. Это значит, что надо показать мимику персонажа при произнесении начала фонемы, а затем плавно заменить данную морфинг-мишень визуальным представлением следующего звука. Не пренебрегайте дифтонгами при анимации: они являются существенной частью слова, в состав которого входят. Например, если вы опустите [ow] в «bowling» («игра в мяч»), у вас останется «bling», и оно прозвучит как «блин».

Согласные звуки

1. Фрикативные согласные - звуки средней длительности. В одних слу чаях им необходимо уделить внимание, в других допустимо пренебречь ими. Например, в слове «vice» («порок»; «тиски»; «заместитель») звук [v] проговаривается быстро. Кроме того, за ним следует сильная гласная. Поэтому визуальное представление звука [v] можно не включать в анимацию. А вот в слове «voluptuous» («чувственный») эта фонема произносится медленно, придавая звучанию эмоциональную окраску. В последнем случае необходимо выделить визуальное представление фонемы [v] и отвести ему достаточное количество кадров. Так вы получите время, которое требуется для естественного перехода к сильной гласной фонеме [ah] во втором слоге. В результате произносимое слово прозвучит естественно, а не отрывисто. В русском слове «коварство» первое [в] артикулируется более отчетливо и ясно, чем второе. Однако помните, что так называемые полугласные (в английском это [у] и [w], в русском - [й]) звучат значительно дольше, чем другие фрикативные фонемы

2. Смычные взрывные звуки никогда не выделяются при имитации движения губ, поскольку произносятся быстро и резко. Например, в слове «talk» («говорить») фонемы [t] и [k] являются взрывными и, следовательно, звучат отрывисто. Если вы покажете визуальное представление фонемы [k], то мультперсонаж, едва успев открыть рот, мгновенно закроет его. Но вы ведь не хотите, чтобы ваш герой напоминал пародийных персонажей дешевых комиксов? Значит, звуком [k], который стоит после долгого ударного монофтонга [аа], следует пренебречь. Зато фонема [t] находится в сильной, заметной позиции - в начале слова. Поэтому ее нельзя проигнорировать, ина че пострадает достоверность изображения, нарушится синхрониза ция речи героя и его мимики. Как правило, визуальное представление взрывного звука необходимо, если он стоит в начале слова, но необя зательно или даже нежелательно, когда взрывной согласный стоит в его конце. Так, в слове «берег» [б] звучит перед ударным гласным ясно и отчетливо, и лучше показать в анимации визуальное представ ление данной фонемы. А в слове «короб» конечный звук оглушается в [и], которое произносится очень слабо, и им можно пренебречь.

3. Смычные аффрикативные звуки всегда сопровождаются заметной мимикой. Обязательно покажите ее в своей анимации. Аффрикаты ни в коем случае нельзя игнорировать. Фонемы данного разряда имеют длительное звучание, и их можно «тянуть». Поэтому отве дите аффрикатам необходимое количество кадров, иначе движения губ будут неестественно резкими.

4. Смычные носовые фонемы звучат дольше, чем большинство согласных, поскольку при их произнесении воздух проходит через хороший резо натор - носовые пазухи. Носовая фонема начинается медленно и за канчивается на высоком тоне. Например, в словах «mother» и «мама» начальные фонемы, [m] и [м], постепенно набирают скорость и силу, а затем обретают полноту звучания. При анимации носовым фонемам следует отводить достаточно большое количество кадров, чтобы положение губ не изменялось раньше, чем закончится артикуляция произносимого звука.

5. Смычные боковые и дрожащие звуки произносятся достаточно быс тро, поэтому при анимации вы можете экономить на них кадры.

Итак, найдите время на то, чтобы внимательно изучить артикуляцию разных типов фонем, и тогда вы значительно облегчите свою работу по синхронизации аудио- и видеорядов фильма. Достаточно будет просто отредактировать временную диаграмму, и вы добьетесь поразительной точности. Вам даже не придется производить многочисленные проверки полученных вариантов анимации.

Синхронизация движения губ с речью

Иногда движения губ выглядят более естественно, если они опережают речь на один-два кадра. Однако противоположного варианта следует избегать. Представьте себе такую картинку. Сначала персонаж произносит: «О-о-о!», и лишь затем его рот округляется. Конечно, это будет выглядеть ненатурально. Лучше всего формировать анимацию губ так, чтобы их движения точно совпадали с речью. При необходимости вы всегда сможете передвинуть какой-то фрагмент анимации на один-два кадра вперед, чтобы посмотреть, не будет ли она казаться более правдоподобной.

Экономия мимических усилий персонажа

Еще одно правило, которым часто пренебрегают. Приглядитесь к губам собеседника во время разговора, и вы поймете, что па самом деле диапазон их движений крайне ограничен. Утрированная мимика хороша разве что для героя комикса; во всех остальных случаях чересчур подвижные губы будут смотреться неестественно. Итак, здесь лучше немного недоработать, нежели переусердствовать. В повседневной жизни люди обычно говорят, лениво шевеля губами и «проглатывая» множество слогов. Часто во время вялой болтовни рты собеседников едва открываются. Поэтому следите, чтобы визуальное представление речи персонажей соответствовало тому, что мы наблюдаем в реальности.

Зеркало на рабочем столе

Работая, держите поблизости зеркало. Это не просто рекомендация, а насто ятельное требование. Опыт показывает: когда под рукой нет какой-либо модели, вы можете с успехом использовать при создании анимации свое собственное лицо! Вполне вероятно, что ваши друзья, домочадцы и коллеги будут давиться от смеха, глядя, как вы часами просиживаете у зеркала, гримасничаете и бесконечно повторяете бессмысленные слоги. Но есть простой способ, который позволит вам избавиться от иронических комментариев. Попросите весельчаков немного попозировать. Не сомневайтесь: после одного подобного эксперимента они перестанут хихикать, и вы спокойно продолжите прерванный разговор с отражением в зеркале.

Творческое отношение к правилам

Многие фонемы произносятся в процессе перехода от предшествующего звука к последующему. По мимике отследить образование таких промежуточных звуков трудно. Зачастую их визуальное представление требует единственного кадра, а положение рта существенно изменяется до и/или после этого краткого мгновения. В подобных случаях правильнее всего будет не включать промежуточный кадр в анимацию.

Как уже говорилось, в повседневной речи люди нередко «проглатывают» фрагменты слов. Из них частично или полностью исчезают те или иные слоги, что обычно объясняется особенностями местного диалекта. Учитывайте данное обстоятельство при работе над произношением персонажей. Их речь должна звучать так, как это происходит в жизни, а не в соответствии с толковым словарем Вебстера. Например, в штате Канзас, откуда родом один из авторов настоящей книги, Даррис Доббс, фразу «That was a good rain we had the other night» («На днях был неплохой дождик») произнесли бы как «'ad'z uh gud rain wee'ad thuther nite».

Если бы посторонний слушатель оказался свидетелем беседы местных жителей на родео где-нибудь в Западном Канзасе, этому чужаку показалось бы, что из языка исчезла добрая половина всех согласных звуков. Разговор звучал бы примерно так:

- 'ass a guh 'orse. (Это хороший жеребец.)
- Thanx, heez turn upparoun' Hays. (Спасибо, он из Хэйса.)
- Wha'ya giv foreem? (Сколько ты дал за него?)
- Roun'leben hunnerd. (Около одиннадцати сотен.)
- 'ad us a guh deel. (Это немало.)

В любой стране речь жителей определенного региона, социального слоя и т.д. имеет свои специфические черты. Например, в России 'характерными особенностями псковских говоров являются произношение сочетания звуков [дн] как [нн], замена в некоторых случаях фонемы [в] на [у]. Про псковичей даже придумана считалка-дразнилка: «Ну, да ланно, все онно менный коушик пал на нно». Во многих российских областях сохраняется так называемое «яканье», когда в безударном слоге после мягкого согласного буква «е» обозначает звук [а]: слово «несу» будет произноситься как [н'асу] вместо правильного литературного варианта- [н'ису]. С распространением радио и телевидения местные диалекты постепенно отмирают. И все-таки, занимаясь анимацией, прислушивайтесь к тому, как именно звучат слова в речи разных людей.

Ваша цель состоит в том, чтобы и движения рта персонажа, и изменения в выражении его лица выглядели естественно. Если возникнет необходимость пропустить визуальное представление какой-либо согласной фонемы, чтобы сохранить нужный темп речи героя и избежать гримасы на его лице, так и поступайте. Это намного лучше, чем заставлять персонажа ненатурально кривить рот или сбиваться с ритма.

Перечисленные выше принципы работы - основа реалистичной анимации. Конечно, нет правил без исключений. Однако в подавляющем большинстве случаев вы обнаружите, что соблюдение указанных требований дает прекрасные результаты. Со временем следование этим принципам станет вашей второй натурой. А пока неустанно упражняйтесь!

Теперь давайте посмотрим, как синхронизировать движения губ персонажа с его речью.

Процесс синхронизации движения губ и речи персонажа

Прежде чем приступить к анимации, обязательно заготовьте для модели все визуальные представления основных фонем. Примените на практике принципы, которые изложены в первой части настоящей книги. Надо правильно, с учетом движения мышц лица героя показать, как он произносит те или иные звуки. В противном случае анимация получится неуклюжей, даже если движения губ будут соответствовать речи персонажа.

Чтобы упростить разработку морфинг-мишени для каждой фонемы, обращайтесь к приложениям В и D. Они содержат визуальные представления звуков для двух моделей: человеческого лица и физиономии персонажа комиксов. Кроме этой «шпаргалки», вы также найдете на компакт-диске шаблоны, которые помогут сконструировать визуальные представления всех фонем.

Шаблоны для конструирования визуальных представлений фонем находятся в папке РhonemeTemplates на прилагаемом к книге компакт-диске.

Положение губ при произнесении фонемы представлено в видах спереди и сбоку, а положение языка - в виде сбоку. Эти изображения послужат основой при моделировании рта персонажа. Конечно, головы ваших героев могут отличаться от тех, что показаны на картинках. Главное в другом: наши образцы помогут вам определить, какой должна быть мимика персонажа при произнесении того или иного звука.

Спустя какое-то время представленные в приложениях модели станут вам так же знакомы, как и черты собственного лица. А пока рекомендую вам постоянно обращаться к нашей «шпаргалке», не забывая, что она содержит лишь вспомогательный материал, который требует доработки в каждом конкретном случае. Когда вы смоделируете выражения лица героя, соответствующие базовым фонемам, приступайте к процессу синхронизации движения губ и речи.

На самом деле это не такая уж трудная задача, если вы хорошо усвоили материал предыдущих разделов книги. Фактически вам нужно лишь использовать табл. 5.1-5.2, где приведены основные типы английских и русских фонем, а затем найти в готовом наборе их визуальных представлений именно то, которое соответствует конкретному звуку. Похоже на детскую игру-конструктор, правда? Разумеется, поначалу все будет не так просто, и у вас обязательно возникнут какие-то вопросы. Однако вы сами удивитесь, насколько легкой станет ваша работа, как только вы поймете ее суть и приобретете достаточный опыт.

Давайте рассмотрим основные этапы синхронизации движения губ и речи.

Этапы синхронизации движения губ с речью персонажа

1. Фонетическое представление и транскрипция произносимых фраз.
2. Анализ аудиозаписи и занесение фонем во временную карту.
3. Использование временной карты для выбора ключевых кадров анимации.
4. Проверка синхронности звука и изображения, корректировка анимации в случае необходимости.

Возможно, кому-то сказанное покажется чрезмерным упрощением. К счастью, знание основ фонетики действительно очень облегчает работу.

Чтобы понять, что следует делать на каждом этапе синхронизации мимики и речи персонажа, обратимся к уже знакомому нам герою - Костолому. Он отлично подойдет нам: речь этого парня невнятна, зато вы получаете прекрасную возможность попрактиковаться! Добавим, что у Костолома резкие, рубленые черты. Анимировать такую физиономию интереснее, чем правильное, пропорциональное, но стандартное лицо.

Итак, приступим.

Этап 1. Фонетическое представление и транскрипция речи персонажа

На первом этапе следует выяснить, как на самом деле звучит реплика героя. Мы уже обсуждали особенности говора жителей Канзаса, которые фразу «That was a good rain we had the other night» произносят следующим образом: «'ad'z uh gud rain wee'ad thuther nite». Чтобы определить, какие фонемы присутствуют в данном отрезке речи, запишем предложение так, как оно действительно звучит.

Обратите внимание: я говорю не о том, чтобы разложить фразу на фонемы и зафиксировать их последовательность. Пока мы лишь запишем фактическое звучание предложения с помощью букв обычного алфавита. Возьмем в качестве примера одну фразу Костолома. Она гласит: «Тебе не следовало так со мной разговаривать». Загрузите и проиграйте несколько раз аудиофайл knuckles.wav.

Аудиофайл knuckles.wav находится в папке Chapteг5 на прилагаемом к книге компакт-диске.

Обратите внимание на то, что в словах Костолома пропущено много согласных. Наша задача - записать фактическое произношение данной фразы (см. рис. 5.4).


Рис. 5.4. Фонетическое представление реплики Костолома

Как видите, полученный «перевод» не совсем совпадает с исходным текстом. Это очень важное обстоятельство: мы должны сделать транскрипцию фразы, т.е. ее фонетическую запись, которая соответствует живым звукам, а не письменному тексту. Например, в речи Костолома слова «shouldn't ought to» превратились в «shudnada». Если бы мы сразу стали выполнять транскрипцию текста «shouldn't ought to», то в результате сделали бы ошибку (см. рис. 5.5).


Рис. 5.5. Сопоставление письменного текста с транскрипцией живой речи

Существенные различия очевидны. Сразу после фрагмента [sh uh d n] в первом и втором случаях идут разные ряды звуков. Если бы мы сделали фонетическую транскрипцию только правильного, письменного варианта фразы, то в анимации не получилось бы синхронизировать движения губ со словами Костолома. Поэтому всегда начинайте фонетический анализ текста с записи реально звучащей речи. Затем следует разбить ее на фонемы.

Этап 2. Анализ аудиозаписи и выбор соответствующих фонем

Итак, мы знаем особенности речи Костолома и можем выделить в анализируемой фразе те фонемы, из которых она на самом деле состоит. Сначала загрузите аудиофайл в любую программу звукового редактирования: необходимо лишь, чтобы она позволяла устанавливать точный момент произнесения каждого отдельного звука. Кроме того, при выборе утилиты редактирования надо учесть две вещи. Во-первых, программа должна не только рассчитывать физическое время, но и измерять его в кадрах. Конечно, вы можете и самостоятельно определять, какому номеру кадра соответствует определенный момент звучания, но гораздо проще воспользоваться опциями программы. Чаще всего анимацию проводят со скоростью 30 кадров в секунду; эта частота задается в качестве основного параметра в программе звукового редактирования. Если вы установили неверную частоту смены кадров, вам не удастся правильно осуществить синхронизацию.

Во-вторых, утилита редактирования должна иметь инструмент прокрутки звукового файла. Этот процесс напоминает воспроизведение записи на магнитной ленте во время перемотки. Инструмент прокрутки позволяет воспроизводить аудиофайл в прямом и обратном направлениях, чтобы определить, где заканчивается одна фонема и начинается другая. Не будь в программе данной опции, на ту же операцию вы потратили бы значительно больше времени. Лично я для анализа звукозаписи пользуюсь программой Adobe Premiere, хотя есть и специальные утилиты, созданные для синхронизации речи и движения губ. - например. Magpie.

Загрузив файл knuckles.wav в программу редактирования, нужно под каждым услышанным звуком написать соответствующую фонему из списка, представленного в табл. 5.1 или 5.2. На рис. 5.6 показан результат разбивки аудиофайла на звуки.

Чтобы научиться правильно подбирать фонемы, соответствующие звукам речи персонажа, вам потребуется практика. Однако впоследствии это занятие станет для вас привычным. Для успешного решения данной задачи нужно записать живую речь вашего героя, а не ее литературный вариант, и осуществить ее фонетическую транскрипцию. Еще раз подчеркиваю: чтобы избежать ошибок, основывайтесь на звучании реплики, а не на письменном тексте.


Рис. 5.6. Разбивка звукового файла на фонемы

Разбив речь персонажа па фонемы, определите точное время произнесения каждого звука, или его местонахождение в аудиофайле. Сделайте это с помощью инструмента прокрутки, проигрывая запись вперед и назад. Двигаясь от одного фрагмента к другому, вы точно установите, когда был произнесен тот или иной звук. Дополнительный плюс использования подобных программ звукового редактирования состоит в том, что вы можете получить графическое представление каждой фонемы. А это позволяет определить тот момент, когда она была записана. На рис. 5.7 показан фрагмент графического представления звукового сигнала.

Снова и снова прослушивая небольшие отрывки речи, вы в конце концов установите связь между ними и конкретными отрезками диаграммы, что опять-таки поможет вам определить расположение фонем. Участки этой диаграммы, на которых звуковая волна имеет относительно большую амплитуду, соответствуют произносимым словам. Те фрагменты, где она почти нулевая, обозначают промежутки между словами. Например, амплитуда колебаний звукового сигнала значительно увеличивается при произнесении «should» (место, указанное на рис. 5.7 стрелкой A), «talk» (стрелка В) и «that» (стрелка С).

При ближайшем рассмотрении вы обнаружите, что на диаграмме выделяются сильные фонемы. Так, самые высокие пики, помеченные стрелками на рис. 5.8, соответствуют взрывным звукам.



Рис. 5.7. Анализ звукового сигнала



Рис. 5.8. Пики звуковой волны, соответствующие взрывным фонемам

Первая стрелка на рисунке указывает на пик звуковой волны, возникший в момент, когда произносилась фонема [t] в слове «talk». Вторая вершина диаграммы соответствует артикуляции звука [k] в том же слове а третья - фонемы [t] в предлоге «to». Крайние точки амплитуды звукового сигнала всегда свидетельствуют о присутствии взрывных согласных, которые образуются при резком проходе воздуха через препятствие в ротовой полости. По этим характерным пикам вы определяете, визуальные представления каких фонем наиболее важны при анимации данного фрагмента.

Пики немного меньшей высоты соответствуют гласным. На рис. 5.9 стрелками указаны места, где диаграмма фиксирует момент произнесения гласных звуков.


Рис. 5.9 Вершины амплитуды, соответствующие гласным звукам
A. Фонема [ah] в речевом фрагменте «Ya»
B. Фонема [uh] в речевом фрагменте «shu»
C. Фонема [аа] в речевом фрагменте «add»

Все три фонемы - гласные, четко произносимые монофтонги. Следовательно, их визуальное представление обязательно должно присутствовать в анимации. Однако вы помните, что Костолом «проглатывает» гласные. Обычно мы, наоборот, произносим их энергично и резко, если это не дифтонги. Вот еще одна причина, по которой мы должны обязательно проанализировать речь персонажа, чтобы учесть ее специфику.

Графическое представление звукового файла помогает нам определить время произнесения фонем. Исследуя небольшие фрагменты записи возле вершин амплитуды, можно довольно точно вычислить положение звуков, из которых состоит фраза. Давайте еще раз обратимся к файлу knuckles.wav, чтобы научиться использовать инструмент прокрутки.

Снова и снова воспроизводя начало файла, вы обнаружите, что звук [у] расположен во втором кадре, фонема [sh] (в слове «should») - в десятом и т.д. Продолжайте поиск звуков и их точного местонахождения, пока не дойдете до конца файла. Такие сильные фонемы, как гласные и взрывные согласные звуки, легко узнаются по вершинам диаграммы.

Напомню, что нас интересуют фонемы, а не слова. Произнесите реплику Костолома и проследите за движениями собственных губ. Это поможет вам определить, какое визуальное представление соответствует тому или иному звуку. Анализируя фразу «You should-a nod-a talked to me like dat», наблюдайте в зеркале за своей мимикой, чтобы точно выяснить, какое положение занимают рот и губы при артикуляции фонем. Хочу еще раз подчеркнуть, что необходимо просто отслеживать произносимые звуки, не задумываясь о смысле слов.

Как только запись речи разбита на составляющие фонемы, их нужно занести в таблицу, точно указав для каждой момент начала артикуляции. Обычно в такую временную карту вносятся фонетическая транскрипция произносимого персонажем звука, номер его визуального представления (морфинг-мишени) и кадр, в котором звучит данная фонема. Взгляните на табл. 5.3, составленную по фразе Костолома.

Таблица 5.3. Готовая временная карта реплики Костолома

Фонема Морфинг-мишень Кадр
Y 7 2
AH 8 6
SH 6 10
UH 7 15
D 2 19
N 2 20
AA 9 25
D 2 30
AH 8 32
T 2 37
AA 9 38
K 5 42
T 2 45
AH 8 46
M 1 48
IY 10 50
L 2 53
AY 8 57
K 5 61
D 2 62
AE 8 63
T 2 66

Как видите, таблица содержит всю перечисленную выше информацию. Визуальные представления фонем для анимации человеческого липа вы найдете в приложении В. Десять морфинг-моделей для Костолома, которые использовались в табл. 5.3, находятся в приложении D.

Приступая к разбивке фразы, учтите время звучания каждой фонемы. Хотя взрывные согласные скорее всего вам не понадобятся, поскольку произносятся быстро, все-таки сначала внесите их в таблицу: артикуляция некоторых взрывных существенно влияет на положение губ. От ненужных согласных легко избавиться позже.

Закончив составление временной карты, приступайте к определению ключевых кадров анимации.

Этап 3. Использование временной карты для определения ключевых кадров

Когда у вас есть временная карта, выявить ключевые кадры анимации очень просто. Вы уже установили соответствие между произнесенными звуками и их визуальными представлениями, а также определили для каждой фонемы номер кадра, в котором она звучит. Теперь вам остается только провести последовательный морфинг одного визуального представления в другое в соответствующих кадрах анимации.

Существует два типа морфинга: линейный и взвешенный. Как ясно из названия, в первом случае последовательность изменений объекта носит линейный характер, а уровень морфинга меняется в широких пределах от О до 100%, а часто даже превышает 100%. Единственный недостаток данного метода в том, что вы ограничены одним исходным морфинг-объектом и поэтому можете вносить в анимацию лица только незначительные дополнения: допустим, мигающий глаз. Зато вам не нужно конструировать множество морфинг-мишеней. В рассматриваемом примере мы используем именно метод линейного морфинга.

С другой стороны, второй способ позволяет вам работать сразу с многими объектами в одной операции морфинга, что очень важно, когда выражения лица меняются. Вы можете не только заставить глаз персонажа моргать, но и модифицировать всю мимику героя, показывая разные грани его характера. Разумеется, процесс анимации намного усложняется, но результат оправдывает затраченные усилия. В главе 6 мы подробно обсудим анимацию лица говорящего персонажа. А сейчас давайте вернемся к методу линейного морфинга.

Итак, на анимацию говорящего Костолома потребовалось 70 кадров при частоте 30 кадров в секунду. Вы можете загрузить кинофрагмент knucklesl. mov и посмотреть, что получилось в итоге.

Файл кинофрагмента knucklesl. mov находится в папке Chapter5 на прилагаемом к книге компакт-диске.

Этап 4. Корректировка анимации

Не падайте духом, если обнаружите в своей работе ошибки. Процесс синхронизации речи с движениями губ очень сложен, и почти всегда приходится уточнять те или иные детали. Возможно, надо подправить некоторые черты лица персонажа или лучше рассчитать время. Иногда герой выглядит более естественным, если движения губ па кадр или больше опережают речь, но ни в коем случае не наоборот. Это нюансы, но на них строится вся синхронизация. Ведь вы действительно хотите, чтобы зрители восприняли вашего героя как живое существо? Тогда трудитесь до тех пор, пока у вас и вправду не возникнет ощущение, что с экрана говорит сам персонаж.

В рассматриваемом случае синхронизация сделана правильно. Со временем вы убедитесь, что знание о типах фонем и об их артикуляции помогает с большой степенью точности решать стоящую перед вами задачу. Правда, иногда лицо Костолома заметно подрагивает. Это происходит из-за слишком большого числа задействованных визуальных представлений. Вот тут-то и требуется корректировка. Сначала вернемся к нашей временной карте и добавим в нее еще один столбец. В нем будет указан тип каждой фонемы по способу артикуляции (см. табл. 5.4).

Таблица 5.4. Включение в карту данных о типах произносимых фонем по способу артикуляции

Фонема Морфинг-мишень Кадр Тип фонемы по способу артикуляции
Y 7 2 Фрикативный
AH 8 6 Гласный
SH 6 10 Фрикативный
UH 7 15 Гласный
D 2 19 Взрывной
N 2 20 Носовой
AA 9 25 Гласный
D 2 30 Взрывной
AH 8 32 Гласный
T 2 37 Взрывной
AA 9 38 Гласный
K 5 42 Взрывной
T 2 45 Взрывной
AH 8 46 Гласный
M 1 48 Носовой
IY 10 50 Гласный
L 2 53 Боковой
AY 8 57 Дифтонг
K 5 61 Взрывной
D 2 62 Взрывной
AE 8 63 Гласный
T 2 66 Взрывной

Такой шаг поможет нам сразу выявить многие ошибки, допущенные при анимации. Опыт показывает, что если подобные поиски производятся «методом научного тыка», то мы теряем массу времени. Указывая тип фонемы по способу артикуляции, вы быстрее завершите процесс окончательной подгонки. Почему? Потому что с этого момента все сводится к тем принципам синхронизации, которые рассматривались выше. Иногда, чтобы анимация прошла гладко, какой-либо фонемой необходимо пожертвовать. Ведь мы четко произносим далеко не каждый звук, особенно если говорим с акцентом. Как правило, при невнятной речи страдают согласные. Однако в анимации их не всегда можно пропускать. Давайте рассмотрим установки, которые помогают нам определить, в каких случаях это допустимо, а в каких нет.

Правила работы с фонемами

1. Никогда не пренебрегайте фонемами, стоящими в начальной позиции. Можно пожертвовать согласными звуками в конце слова, но ни в коем случае не в начале. Исключив из анимации согласную фонему, с которой начинается слово, вы измените его звучание. В то же время пропуск согласного в конце слова останется практически незамеченным. Следуйте данному правилу, если хотите сделать анимацию правдоподобной. Большинство людей окончания слов произносят мягко, особенно если они содержат взрывные, которые звучат очень кратко. Из-за этого наблюдателю труднее заметить, как произнесение взрывной фонемы влияет на положение губ. Итак, взгляните на таблицу, куда мы добавили столбец с указанием типа фонемы по способу артикуляции. Мы обнаружим несколько взрывных звуков, однако не все из них можно удалить. Выбросить из анимации допустимо лишь те фонемы, из-за которых возникает запинка. Они выделены в табл. 5.5.

Таблица 5.5. Согласные, которые можно исключить из анимации

Фонема Морфинг-мишень Кадр Тип фонемы по способу артикуляции
Y 7 2 Фрикативный
AH 8 6 Гласный
SH 6 10 Фрикативный
UH 7 15 Гласный
D 2 19 Взрывной
N 2 20 Носовой
AA 9 25 Гласный
D 2 30 Взрывной
AH 8 32 Гласный
T 2 37 Взрывной
AA 9 38 Гласный
K 5 42 Взрывной
T 2 45 Взрывной
AH 8 46 Гласный
M 1 48 Носовой
IY 10 50 Гласный
L 2 53 Боковой
AY 8 57 Дифтонг
K 5 61 Взрывной
D 2 62 Взрывной
AE 8 63 Гласный
T 2 66 Взрывной

Как видите, мы отметили взрывные согласные в словах «talk», «like» и «dat». Именно из-за этих фонем речь персонажа в первой пробе получилась отрывистой. Убрав указанные звуки из анимационного ролика, мы добились того, чтобы слова плавно переходили друг в друга.

2. С той же целью часто приходится удалять визуальные представле- ния носовых фонем. При их формировании большая часть воздуха проходит через носоглотку, а рот совершает быстрые малозаметные движения. После того как положение рта изменится, звук еще длится, что обязательно следует учесть. Наиболее коварной из носовых фонем является [т], поскольку она произносится с закрытым и почти неподвижным ртом, который в анимации сразу же бросается в глаза. Дело в том, что в пределах одного кадра невозможно показать промежуточные положения рта.

В анимации Костолома трудности были связаны только с одной носовой фонемой. Еще раз просмотрите ролик. Обратите внимание на то, как рот мгновенно закрывается и тут же неожиданно открывается, когда Костолом произносит звук [т]. Этот кадр выглядит неестественно, хотя движения губ полностью совпадают со звучащей речью. Сначала рот закрывается из того положения, в котором произносится гласный звук, а затем открывается, чтобы снова прозвучала гласная фонема. Проблема в том, что из-за наличия носового между двумя гласными такой переход нельзя сделать плавным. В результате челюсть Костолома дергается, что недопустимо. Итак, обычно лучше исключить из анимации носовой согласный, который произносится между двумя гласными, поскольку при их артикуляции рот широко раскрывается, и его застывшее положение во время произнесения носового согласного слишком заметно. (Разумеется, если визуальное представление носовой фонемы похоже на морфинг-модель предшествующего или последующего звуков, совсем необязательно от него избавляться.) В табл. 5.6 выделена носовая фонема [m], визуальное представление которой следует исключить из рассматриваемой нами анимации. Тогда положение губ, произносящих звук [ah], плавно и естественно перейдет в то, которое соответствует артикуляции фонемы [iy].

Таблица 5.6. Выявление носовой фонемы, морфинг-модель которой необходимо исключить из анимации

Фонема Морфинг-мишень Кадр Тип фонемы по способу артикуляции
Y 7 2 Фрикативный
AH 8 6 Гласный
SH 6 10 Фрикативный
UH 7 15 Гласный
D 2 19 Взрывной
N 2 20 Носовой
AA 9 25 Гласный
D 2 30 Взрывной
AH 8 32 Гласный
T 2 37 Взрывной
AA 9 38 Гласный
K 5 42 Взрывной
T 2 45 Взрывной
AH 8 46 Гласный
M 1 48 Носовой
IY 10 50 Гласный
L 2 53 Боковой
AY 8 57 Дифтонг
K 5 61 Взрывной
D 2 62 Взрывной
AE 8 63 Гласный
T 2 66 Взрывной

Как видите, правила работы с согласными фонемами довольно просты. Вы по достоинству оцените описанные принципы, когда на практике вплотную столкнетесь с проблемами синхронизации. Вам нужно будет сделать две вещи: во-первых, по составленной вами таблице определить взрывные и носовые фонемы: во-вторых, удалить те из них, которые действительно снижают качество анимации. Вам даже не придется прослушивать аудиофайл. В итоге вы сэкономите уйму времени на корректировке полученного материала, обычно сопровождающей весь процесс синхронизации аудио- и видеорядов. К сожалению, до сих пор на многих киностудиях аниматоры продолжают трудиться по старинке, «до тошноты, до отвращения» прорабатывая неудавшиеся кадры. Что ж, такова печальная участь этих страдальцев. Зато вы можете в течение нескольких минут определить тип фонемы по способу артикуляции, а затем быстро и точно подкорректировать все недочеты.

Решив проблему с лишними визуальными представлениями фонем, мы можем создать еще одну анимацию, чтобы проверить, насколько верны паши выводы. Улучшенная анимация содержится в кинофрагменте knucklesfix.mov.

Файл кинофрагмента knucklesfix.mov находится в папке Chapter5 на прилагаемом к книге компакт-диске.

Загрузите этот файл и прокрутите его несколько раз. Вы убедитесь в том, что теперь движения губ выглядят очень естественно, а отсутствие визуального представления звука [m] совсем незаметно.

Итак, знание основ фонетики позволило преобразовать трудную задачу в довольно легкую. Смею вас уверить, что синхронизировать невнятную речь персонажа с движениями его губ и мимикой грубо тесанного лица - проблема не из самых простых. Однако грамотное использование изученных нами принципов работы с фонемами превратило ее решение в приятное и увлекательное занятие.

Советую вам несколько раз прочитать данную главу, пока вы не почувствуете, что усвоили ее основную информацию. Знание принципов работы с визуальными представлениями фонем понадобится вам, когда вы непосредственно займетесь синхронизацией речи какого-нибудь мультгероя с движениями его губ.

Заключение

Работа по синхронизации мимики и речи персонажа сложна, однако восторг зрителей, которые воспринимают вашего героя как живого, - большая награда, ради которой аниматору стоит попотеть. Тщательно следуя всем изложенным в этой главе правилам и методикам, вы сможете вполне эффективно решить стоящую перед вами задачу. Чем богаче будет со временем ваш практический опыт, тем легче вы начнете с ней справляться.

Разумеется, сам по себе процесс синхронизации бывает скучноват. Настоящее удовольствие вы получите, когда к анимации речи персонажа добавите имитацию его эмоций. Давайте перевернем страницу и посмотрим, как оживить мультипликационного героя с помощью анимации выражений лица.

Hosted by uCoz