|  | 22 ноября 2016 | Информационные технологии

Искусственный интеллект Google DeepMind научился читать по губам лучше, чем любой человек-специалист в этом деле

Чтение по губам


Специалисты проекта DeepMind компании Google и исследователи из Оксфордского университета совместными усилиями обучили систему искусственного интеллекта на базе нейронных сетей искусству чтения по губам. Обучение системы производилось путем "скармливания" ей 5 тысяч часов записей различных программ телеканала BBC, включая Newsnight, BBC Breakfast и Question Time. И в результате этого система искусственного интеллекта стала способной распознавать слова по движениям губ человека с такой точностью, которая является недостижимой для людей-специалистов в этом деле.

После процедуры обучения система искусственного интеллекта оказалась способной расшифровывать даже самые сложные фразы, определять слова, произносимые людьми, которые склонны "глотать" окончания слов, и людьми, обладающими не очень типичной мимикой их лица. В качестве тестового задания из набора различных телепередач были выбраны 200 случайных фрагментов. Человек-профессионал смог безошибочно распознать всего 12.4 процента слов, в то время, как искусственный интеллект показал результат в 46.8 процента, безоговорочно выиграв не только у человека, но и у других автоматических систем чтения по губам.

"Все это является огромным шагом на пути к созданию полностью автоматических систем чтения по губам" - рассказывает Зиэнг Жоу (Ziheng Zhou), ученый из университета Оулу, Финляндия, - "И это стало возможным только благодаря огромному набору исходных данных, на которых эта система была обучена". О величине набора исходных данных говорит тот факт, что в вышеупомянутых 5 тысячах часов записей содержалось около 118 тысяч предложений, произнесенных разными людьми, лица которых снимались с различных ракурсов.

Успех совместного мероприятии исследователей из Оксфордского университета и компании Google основывается на исследованиях оксфордских ученых, благодаря которым в свое время была создана система чтения по губам GRID. В качестве исходных данных эта система использовала данные об артикуляции людей при произношении 51 ключевого уникального слова. Система компании Google, обученная на наборе данных, содержащем около 17 500 уникальных слов, имеет гораздо более богатый набор исходных данных, что ощутимо сказывается на качестве ее работы.

Кроме этого, система компании Google была обучена на образцах реальной человеческой речи, а не на 33 тысячах синтетических предложений, составленных специально для обучения система GRID. Поэтому система Google менее восприимчива к особенностям каждого конкретного человека и к эмоциям, которые периодически очень сильно проявляются на лице говорящего человека.

В настоящее время специалисты Google и исследователи из Оксфордского университета готовят использованный ими для обучения искусственного интеллекта набор данных для того, чтобы создать на его основе общедоступный учебный ресурс. Этим ресурсом смогут пользоваться все разработчики систем автоматического чтения по губам, в том числе группа Яниса Ассаеля (Yannis Assael), которая занимается разработкой системы LipNet. И, вполне вероятно, что все эти усилия, в конце концов, могут привести к тому, что бытовые и потребительские электронные устройства смогут понимать то, что мы говорим им, читая это по нашим губам.




Ключевые слова:
Чтение, Губы, Артикуляция, Система, Искусственный, Интеллект, Google, DeepMind, GRID

Первоисточник

Другие новости по теме:
  • Google AI Duet - искусственный интеллект в роли виртуального пианиста
  • Искусственный интеллект пробует свои силы в роли онлайн-психолога
  • Разработана новая технология высокоточного чтения по губам говорящего челов ...
  • Алгоритм искусственного интеллекта Google DeepMind научился проходить трехм ...
  • Внимательно следите за тем, что говорите.




  • 22 ноября 2016 08:19
    #1 Написал: FomaNeverujuwij

    Публикаций: 0
    Комментариев: 3873
    потребительские электронные устройства смогут понимать то, что мы говорим им, читая это по нашим губам

    Не думаю, что камера и все сопутствующее будет проще, чем микрофон. А распознавание речи по звукам или по губам - это задачи одного порядка. Так что преимущества описанного выше подхода чтения по губам весьма сомнительны


    --------------------
        
    22 ноября 2016 09:06
    #2 Написал: Zoabee

    Публикаций: 0
    Комментариев: 0
    FomaNeverujuwij,
    А если я завтра голос потеряю, то даже визит к врачу назначить не смогу по телефону?
        
    22 ноября 2016 09:30
    #3 Написал: gashev

    Публикаций: 0
    Комментариев: 83
    Я думаю что если объединить чтение по губам и микрофон, коэффициент будет повыше.
        
    22 ноября 2016 12:02
    #4 Написал: FomaNeverujuwij

    Публикаций: 0
    Комментариев: 3873
    Цитата: gashev
    коэффициент будет повыше

    Как и стоимость конечного изделия. А сейчас все гонятся за дешевизной, к сожалению.

    Цитата: Zoabee
    изит к врачу назначить не смогу по телефону

    Можно по эл.почте, вайберу и т.п.


    --------------------
        
    23 ноября 2016 16:03
    #5 Написал: Zerger

    Публикаций: 0
    Комментариев: 776
    Здорово! Теперь процент раскрытия преступлений снятых на уличные камеры (которые обычно без звука пишут) на порядок вырастет - шутка.

    Главное что глухонемые люди смогут общаться в обе стороны.


    --------------------
        

    Информация

    Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.