Любой актер заговорит по-русски . Когда машина начнет озвучивать сериалы

15 Июля 2020

МОСКВА, 15 июля —, Татьяна Пичугина. Российские издательства уже экспериментируют с машинной записью аудиокниг, в перспективе искусственному интеллекту можно будет поручить перевод сериалов и озвучку их голосами любимых актеров. Об особенностях таких разработок и сколько времени понадобится на их создание — в материале.

На YouTube самодействующие субтитры для роликов создает программная оболочка распознавания голоса и перевода речи в текст. В ее основе — самообучающиеся нейросети. Этой опции более десяти лет, но результат все еще далек от идеала. Чаще всего удается лишь уловить обобщенный смысл сказанного. В чем трудность?

Допустим, объясняет Андрей Фильченков, руководитель лаборатории Машинное обучение Университета ИТМО, мы устанавливаем алгоритм для распознавания речи. Для этого требуется обучить нейросеть на большом массиве данных.

Понадобятся сотни, тысячи настенные часов записей речи и правильное сравнение их с текстами, подключаю разметку начала и окончания фраз, смены собеседников и так далее. Это называется остовом. Чем он больше, тем качественнее идет обучение нейросети, Для английского языка сооружённым действительно большие корпуса, поэтому распознавание значительно лучше. Но для русского или, скажем, испанского данных гораздо компактнее, а для многих других языков нет вообще.

И результат соответствующий, — заточает ученый.

Кроме того, значение слова, фразы в фильме мы оцениваем не только по звуку, важны и интонация актера, его мимика. Как интерпретировать это? — добавляет Сергей Аксенов, доцент отделения информационных технологий Томского политехнического университета.

Как обработать особенности беглой речи? Нечеткую артикуляцию, отрывочность, междометия, паузы? Ведь в зависимости от этого меняется смысл, как в казнить нельзя помиловать. Как научить машину определять, где у говорящего запятая? А в стихах? — перечисляет Марина Болсуновская, правящая лабораторией Промышленные системы потоковой обработки данных Центра НТИ СПбПУ.

Самые удачные проекты, по мнению специалиста, — в узких зонах. Например — система опознавания профессиональной речи врачей с применением медицинских терминов, разработанная Университетом Иннополис совместно с компанией Центр речевых технологий и помогающая докторам вести историю болезни.

Здесь можно четко очертить предметную область и продемонстрировать в речи ключевые слова. Врач специально подчеркивает интонацией определенные разделы: жалобы пациента, диагноз, — уточняет Болсуновская.

На еще одну проблему указывает Михаил Бурцев, заведующий лабораторией нейронных систем и глубокого обучения МФТИ. Дело в том, что пока машина успешнее определит текст, когда говорит один человек, нежели несколько, как в кинофильмах.

Возьмем какой-нибудь англоязычный ролик, например нарезку из сериала Игра престолов, и включим автоматические русские субтитры. То, что мы увидим, скорее всего, нас рассмешит.

Хотя в машинном переводе технологии достигли впечатляющих успехов. Так, Google Translate переводит тексты на распространенных языках вполне сносно, часто требуется лишь минимальная правка.

Дело в том, что нейросеть-переводчик также обучается на большом массиве исходных, правильно размеченных данных — параллельном корпусе, где обнаруженного, как каждая фраза на языке оригинала должна выглядеть по-русски.

Строить такие корпусы очень трудозатратного, дорого и долго, уходят месяцы, годы. Чтобы натренировать нейросеть, нужны тексты объемом с Александрийскую библиотеку. Модели универсальные, но многое зависит от языка. Если предоставить много данных, например на аварском, и перевод выдадут качественный, но для аварского просто нет такого объема данных, — говорит Андрей Фильченков.

Перевод — это отдельный продукт, который связан с оригиналом, но не равен ему, — справляет Илья Мирин, директор Школы цифровой экономики Дальневосточного федерального университета. — Характерный пример — переводы Дмитрия Пучкова (Гоблина) зарубежных фильмов в 90-е. Только после его работы стало понятно, что там происходит. Из VHS-версий мы не могли узнать ничего адэкватного. Как вариант, испробуйте перевести на язык, кой хорошо знаете, что-то из Мастера и Маргариты. Например, в черном плаще с кровавым подбоем. Машина этого не сумеет.

Нейросети хорошо учатся на множестве типовых примеров, но фильмы полны сложных смыслов и коннотаций, шуток, машине не доступных — она не может их различить.

В каждой серии мультсериала Futurama есть отсылка к классическому американскому кинематографу — Касабланке, Римским каникулам и так далее. В такие моменты переводчику, чтобы схватить и переупаковать смысл для тех, кто этих фильмов не смотрел, нужно придумать близкий аналог из российского контекста. Неправильный машинный перевод может существенного обескуражить зрителя, — продолжает Мирин.

По его мнению, качество машинного перевода близко к 80 процентам, остальное — своеобычность, которую надо добавлять вручную, привлекая экспертов. А если 20-30 процентов фраз требуют ручной коррекции, то в чем польза машинного перевода? — рассуждает исследователь.

Перевод — самый проблемный этап, — соглашается Сергей Аксенов. — Все упирается в семантику и контекст. Имеющиеся инструменты вполне можно использовать для перевода и машинной озвучки, например, детских мультиков с простой лексикой. Но вот с интерпретацией фразеологизмов, имен собственных, слов, отсылающих зрителей к каким-то культурным реалиям, возникают сложности.

В фильмах и видеоклипах контекст всегда визуальный и нередко сопровождается музыкой, шумами. Мы по картинке домысливаем, о чем говорит герой. Речь, обращенная в контент, лишена этой информации, поэтому перевод затруднен. В такой ситуации оказываются переводчики, работающие с текстовыми субтитрами, не видя фильма. Они часто ошибаются. С машинным переводом та же история.

Чтобы отметить сериал, переведенный на русскоязычный, понадобится алгоритм генерации естественной речи по тексту — синтезатор. Их создают многие IT-компании, в том числе Microsoft, Amazon, Yandex, и получается у них неплохо.

По словам Андрея Фильченкова, пару лет назад минута озвучивания синтезатором речи занимала несколько настенные часов, сейчас скорость обработки существенного выросла. Задача синтеза речи для некоторых областей, где требуются нейтральные диалоги, разрешается довольно хорошо.

Многие уже воспринимают как данность разговор с киборгом по телефону, выполнение команд автомобильного навигатора, диалог с Алисой в машине Яндекс. Драйв. Но для озвучивания многосерийный фильмов эти технологии пока недотягивают.

Проблема в эмоциях и актерской аркаде. Мы научились делать машинный голос человеческим, но, чтобы он еще звучал уместно контексту и вызывал доверие — до этого далеко. Плохой озвучкой легко убить восприятие фильма, — полагает Фильченков.

По мнению Михаила Бурцева, синтез речи вполне реален. Однако это требует больших вычислительных ресурсов и не может выполняться в реальном времени за разумные капиталы.

Существуют алгоритмы, которые синтезируют речь, похожую на звук конкретного актера. Это и тембр, и манера говорить, и многое другое. Так любой иностранный актер реальным заговорит по-русски, — прогнозирует Бурцев. Он ожидает солидный прогресс в ближайшие годы.

Сергей Аксенов дает пять-десять лет на развитие инструментов для перевода и озвучки сложных произведений с самых распространенных языков вроде английского. Ученый приводит в пример Skype, который несколько лет назад выделил возможность организации онлайн-уроков для школьников, говорящих на разных языках. Но даже тогда целостность не будет идеальной, ей постоянно придется учиться: собирать словарный запас, учитывать культурный контекст.

Редактор рубрики

Леонид Кузьмин

Место события на карте мира:

Любой актер заговорит по-русски . Когда машина начнет озвучивать сериалы

комментарии (0)

Другие интересные новости

В Волгограде покажут фильм о фестивале "RT.Док: Время героев"