Lyrebird - речевой синтезатор на основе искусственного интеллекта, который способен воспроизвести любой голос

Синтез речи


Воспроизведение человеческого голоса, со всеми его тембрами, интонациями и прочими нюансами, является исключительно трудной задачей даже для современных мощных компьютеров. Когда мы слышим речь таких программ, как Siri, Alexa или GPS-навигатора, сразу становится ясно, что с нами говорит машина. Это происходит из-за того, что большинство систем синтеза речи основываются на библиотеках записанных ранее слов и фраз. И в результате работы таких систем получается скучная "механическая" речь, состоящая из часто повторяющихся выражений. Достаточно сильным шагом к улучшению качества работы синтезаторов речи может стать использование в них принципов искусственного интеллекта. Это весьма наглядно продемонстрировала компании Lyrebird из Монреаля, разработавшая новый речевой синтезатор, способный воспроизвести голос любого человека и даже добавить ему соответствующую эмоциональную окраску.

Самым интересным является то, что для обучения голосу какого-либо человека системе Lyrebird требуется всего несколько десятков секунд аудиозаписей. И в качестве примера работы системы вы можете послушать приведенные ниже аудиоролики, на которых система Lyrebird воспроизводит голоса Барака Обамы, Дональда Трампа и Хиллари Клинтон. Такое точное копирование особенностей голоса конкретного человека стало возможным благодаря использованию искусственных нейронных сетей, которые работают подобно естественным биологическим нейронным сетям мозга человека. По сути, алгоритм нейронной сети учится опознавать особенности речи конкретного человека, а затем эти же данные используются для синтеза искусственного голоса.

"Мы обучили нашу программу на огромном наборе аудиоданных фрагментов выступлений тысяч различных людей" - рассказывает Хосе Сотело (Jose Sotelo), ведущий исследователь, - "Полученная информация сжимается до вида компактного цифрового ключа, своего рода "голосовой ДНК". И на основе этого ключа система может воспроизводить любые слова и предложения, даже те, которые не были задействованы в процессе ее обучения".

В настоящее время работа системы Lyrebird еще очень далека от идеала, в воспроизводимой речи присутствуют "цифровые артефакты", имеются проблемы с разборчивостью и некоторые другие странности, которые иногда ставят под сомнение то, кому именно подражает сейчас синтезатор. Тем не менее, все это работает сейчас в режиме реального времени, требует для обучения совсем небольшого количества исходных данных и, после соответствующих доработок, может превратиться с самый качественный речевой синтезатор на сегодняшний день.



Само собой разумеется, что наличие столь совершенного речевого синтезатора является источником ряда проблем этического плана и проблем с безопасностью. Если система позволит воспроизводить голос человека с точностью, не позволяющей отличить это от оригинала, то откроется широкое поле деятельности для недобросовестных людей, которые смогут шантажировать политических деятелей и других известных личностей. А хакеры смогут использовать такой синтезатор для обхода систем защиты, в которых используется технология голосовой идентификации.

Представители компании Lyrebird считают, что, благодаря появлению нового речевого синтезатора время, когда можно было безоговорочно доверять различным аудиозаписям, заканчивается, как в свое время с появлением Фотошопа нельзя стало доверять снимкам, демонстрируемым нам с экрана компьютера. "Мы понимаем, что вследствие высокого уровня развития современных технологий такой речевой синтезатор появился бы на свет рано или поздно" - пишут представители компании Lyrebird, - "Для исключения возможности злонамеренного использования речевого синтеза мы решили обнародовать все детали разработанной нами технологии. И мы призываем начать постепенный отказ от принятия в качестве доказательств различных аудиозаписей, полученных, в первую очередь, из сомнительных источников".

Но, не стоит отчаиваться. Даже при идеальном воспроизведении голоса человека остается несколько возможностей отличить фальшивую аудиозапись от оригинала. Существует множество аспектов, таких, как отсутствие фоновых шумом, несоответствующие или искусственно введенные фоновые шумы, присутствие фальшивого "акустического пространства" и многое другое, что можно выделить из аудиозаписи и по чем можно судить о ее достоверности. К сожалению, такой анализ возможен сейчас только при наличии специального оборудования, имеющегося далеко не везде. Но, с учетом темпов развития современной вычислительной техники, с подобной задачей в недалеком будущем сможет справиться и обычный компьютер, снабженный специализированным программным обеспечением.











Ключевые слова:
Речь, Синтез, Голос, Искусственный, Интеллект, Обучение, Lyrebird

Первоисточник

Другие новости по теме:
  • Искусственный интеллект научился выделять речь одного человека из общего шу ...
  • Искусственный интеллект Google DeepMind научился читать по губам лучше, чем ...
  • Google обучила искусственный интеллект говорить на естественном языке
  • Система искусственного интеллекта Microsoft Xiaoice становится ведущим теле ...
  • Новый ларингофон позволит избавиться от страшного механического голоса.




  • 7 мая 2017 22:34
    #1 Написал: Philosoph

    Публикаций: 0
    Комментариев: 63
    А ВТБ совсем недавно анонсировал успешное испытание голосовой идентификации клиентов для проведения банковский операций сомнительного характера - круто! Что-то как-то не совсем вовремя они всё это решили ввести - зато судя по всему деньги были успешно распилены, а через несколько месяцев/лет скажут что мол простите, но надо вкладывать НОВЫЙ многомиллионный бюджет на развитие другой системы идентификации пользователя для его же удобства=))
        

    Информация

    Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.