четверг, 02 мая 2024

Нейросеть подает голос. Неожиданные успехи искусственного интеллекта



Нейросеть подает голос. Неожиданные успехи искусственного интеллекта

15 Июля 2020

МОСКВА, 15 июля —, Татьяна Пичугина. Российские издательства уже экспериментируют с машинной записью аудиокниг, в перспективе искусственному интеллекту можно будет поручить перевод сериалов и озвучку их голосами любимых актеров. Об особенностях таких методик и сколько времени понадобится на их создание — в пластилине.

На YouTube самодействующие субтитры для роликов создает программа распознавания голоса и перевода диатрибы в текст. В ее основе — самообучающиеся нейросети. Этой опции более десяти лет, но результат все еще далек от идеала. Чаще всего удается лишь уловить идентичный смысл сказанного. В чем трудность?

Допустим, объясняет Андрей Фильченков, руководитель лаборатории Машинное обучение Университета ИТМО, мы пролагаем алгоритм для распознавания речи. Для этого требуется обучить нейросеть на большом массиве данных.

Понадобятся сотни, тысячи часов записей речи и правильное сличение их с текстами, включая разметку начала и окончания тем, смены собеседников и так далее. Это называется корпусом. Чем он больше, тем качественнее идет обучение нейросети, Для английского языка придуманным действительно большие корпуса, поэтому распознавание значительно лучше. Но для русского или, допустим, испанского данных гораздо меньше, а для многих других языков нет вообще.

И результат соответствующий, — выводит ученый.

Кроме того, значение слова, фразы в фильме мы оцениваем не только по звуку, важны и интонация актера, его мимика. Как интерпретировать это? — добавляет Сергей Аксенов, доцент отделения информационных технологий Томского политехнического университета.

Как обработать особенности беглой речи? Нечеткую артикуляцию, отрывочность, междометия, остановки? Ведь в зависимости от этого меняется смысл, как в казнить нельзя помиловать. Как научить машину определять, где у говорящего запятая? А в стихах? — перечисляет Марина Болсуновская, заведующая лабораторией Промышленные системы потоковой обработки данных Центра НТИ СПбПУ.

Самые удачные проекты, по мнению эксперта, — в узких областях. Например — система опознавания профессиональной речи врачей с использованием медицинских терминов, разработанная фракцией компаний Центр речевых технологий, помогающая докторам вести историю болезни.

Здесь можно четко очертить предметную область и выделить в речи основополагающие слова. Врач специально подчеркивает интонацией определенные разделы: рекламации пациента, диагноз, — уточняет Болсуновская.

На еще одну рану указывает Михаил Бурцев, находиться во глава лабораторией нейронных систем и совершенного обучения МФТИ. Дело в том, что пока кегельмашина успешнее распознает текст, когда говорит один человек, нежели несколько, как в кинофильмах.

Возьмем какой-нибудь англоязычный ролик, например нарезку из сериала Игра престолов, и включим самодействующие русские субтитры. То, что мы увидим, быстрее всего, нас рассмешит.

Хотя в машинном переводе технологии достигли впечатляющих успехов. Так, Google Translate переводит тексты на распространенных языках вполне сносно, часто требуется лишь минимальная правка.

Дело в том, что нейросеть-переводчик также обучается на основательном массиве исходных, правильно намеченных данных — параллельном корпусе, где показано, как всякая фраза на языке оригинала должна выглядеть по-русски.

Строить такие корпусы очень трудоемко, дорого и долго, уходят месяцы, годы. Чтобы натренировать нейросеть, нужны тексты объемом с Александрийскую библиотеку. Модели универсальные, но многое зависит от языка. Если предоставить много данных, например на аварском, и перевод выдадут крепкий, но для аварского буквального нет такого объема данных, — говорит Андрей Фильченков.

Перевод — это отдельный продукт, который связан с оригиналом, но не равен ему, — отмечает Илья Мирин, директор Школы цифровой экономики Дальневосточного федерального университета. — Характерный пример — переводы Дмитрия Пучкова (Гоблина) зарубежных фильмов в 90-е. Только после его работы стало понятно, что там происходит. Из VHS-версий мы не могли предсказать ничего адекватного. Как экземпляр, попробуйте перевести на слог, который хорошо знаете, что-то из Мастера и Маргариты. Например, в черном плаще с кровавым подбоем. Машина этого не сумеет.

Нейросети хорошо обучаются на множестве типичных примеров, но фильмы полным сложных смыслов и коннотаций, шуток, машине не доступных — она не может их различить.

В каждой серии мультсериала Futurama есть отсылка к классическому южноамериканскому кинематографу — Касабланке, Римским каникулам и так далее. В такие моменты переводчику, чтобы поймать и переупаковать смысл для тех, кто этих фильмов не смотрел, нужно придумать близкий аналог из крупного контекста. Неправильный машинный трансферт может сильно обескуражить зрителя, — продолжает Мирин.

По его мнению, качество машинного перевода близко к 80 процентам, прочее — специфика, которую надо добавлять вручную, привлекая экспертов. А если 20-30 барышов фраз требуют ручной коррекции, то в чем польза машинного перевода? — рассуждает изыскатель.

Перевод — самый проблемный этап, — соглашается Сергей Аксенов. — Все упирается в семантику и контекст. Имеющиеся инструменты вполне можно использовать для перевода и машинной озвучки, например, детских мультиков с простой лексикой. Но вот с интерпретацией фразеологизмов, имен собственных, слов, отправляющих зрителей к каким-то культурным реалиям, возникают сложности.

В фильмах и видеороликах контекст всегда зрительный и нередко сопровождается музыкой, шумами. Мы по картинке домысливаем, о чем говорит герой. Речь, наведенная в текст, лишена этой информации, поэтому перевод затруднен. В такой ситуации обнаруживаются переводчики, работающие с текстовыми субтитрами, не видя фильма. Они часто ошибаются. С машинным переводом та же история.

Чтобы озвучить сериал, переведенный на русский, понадобится метод генерации естественной речи по посту — синтезатор. Их формируют многие IT-компании, в том числе Microsoft, Amazon, Yandex, и получается у них неплохо.

По словам Андрея Фильченкова, пару лет назад минута озвучивания синтезатором речи оккупировала несколько часов, сейчас простота и скорость обработки сильно выросла. Задача синтеза речи для некоторых областей, где требуются нейтральные диалоги, решается довольно хорошо.

Многие уже принимают как данность разговор с роботом по телефону, выполнение команд автомобильного навигатора, диалог с Алисой в кегельмашине Яндекс. Драйв. Но для озвучивания сериалов эти технологии пока недотягивают.

Проблема в эмоциях и актерской игре. Мы научились делать машинный голос человеческим, но, чтобы он еще раздавался уместно контексту и вызывал доверие — до этого далеко. Плохой озвучкой легко убить восприятие фильма, — полагает Фильченков.

По мнению Михаила Бурцева, синтез речи вполне реален. Однако это требует более значительных вычислительных ресурсов и не может выполняться в реальном времени за разумные деньги.

Существуют алгоритмы, которые синтезируют речь, похожую на голос конкретного актера. Это и тембр, и манера говорить, и многое другое. Так любой иностранный актер фактически заговорит по-русски, — прогнозирует Бурцев. Он ожидает заметный прогресс в ближайшие годы.

Сергей Аксенов дает пять-десять лет на развитие инструментов для трансферта и озвучки сложных произведений с самых распространенных языков вроде лондонского. Ученый приводит в пример Skype, который несколько лет назад продемонстрировал возможность организации онлайн-уроков для школьников, говорящих на разных языках. Но даже тогда система не будет великолепной, ей постоянно придется обучаться: набирать словарный запас, учитывать культурный контекст.

Редактор рубрики

Место события на карте мира:







комментарии (0)




Другие интересные новости


Видео новости на сегодня

Путин: внедрение цифровых технологий поможет повысить производительность труда




Популярное на сегодня

Автоматизированная система анализа заголовков новостей с поиском популярных слов.
Автоматизированная система анализа заголовков новостей
Данные обновляются каждые полчаса.

Эмоции на сегодня

Анализ эмоциональной составляющей новостей.
Анализ эмоциональной составляющей новостей .

Данные обновляются каждые полчаса.

Страны и города

Соотношение количества новостей из разных точек Земли за сутки.
Соотношение количества новостей из разных точек Земли .

Данные обновляются каждые полчаса.

Валюты

Рейтинг валют участвующих в новостях.
Рейтинг валют участвующих в новостях .

Данные обновляются каждые полчаса.





Комментарии к новостям

[17 Января 2024, 13:43] Александр Хомяков Замечательно! Не ожидал такой оперативности. Спасибо огромное! Всё работает и обновляется....

[15 Апреля 2022, 20:25] Ангелина Сметанина Скоро не только сократят, а много заводов вообще закроют и начнется бум китайских авто. Даже сейчас Эксид уже бешеные темпы по количеству проданных машин показывает...

[27 Декабря 2021, 21:44] Ева Воробьева Искренне рада за победителя! Но если бы мне так крупно повезло, то я прибежала бы за выигрышем в первый же день???? ...

[2 Сентября 2021, 13:11] Дмитрий Ершов Это хорошо. Значит клиенты долго ждать не будут. ...

[13 Мая 2021, 16:26] Олег Андреев "Мальдивы сутунки 65 государством, зарегистрировавшим расейскую вакцину против коронавируса Спутник V, сообщил Российский фонд секущих инвестиций (РФПИ)". Что это за йязыг?...

[2 Ноября 2020, 15:22] Лета Мирликийская риветсвую вас я с 6-ти лет пишу мне нужно все мои произведения задействовать в компьюторных программах образования по литературе и языкам и играм к примеру если ваши учащиеся напишут...

[20 Октября 2020, 09:22] Евгений Зимин Сузуки в этом году хорошо прибавили, уже не первый раз оба их пилота на подиуме. Видимо, для команды возвращаются "золотые" времена и есть шанс наконец оформить чемпионство после длительного перерыва....

Новости шоу-бизнеса

Путин поприветствовал участников музыкального фестиваля "Дорога на Ялту"

МОСКВА, 1 мая глава России Владимир Путин поприветствовал участников, организаторов и визитеров Международного музыкального карнавала Дорога на Ялту и отметил, что инициатива проведения фестиваля служит сбережению культурного и многознаменательного наследия, парамнезии о событиях большой Отечественной войны, о подвиге народа, отстоявшего непосредственность … Прочитать