Голоса: как создают голосовых помощников и как из машины делают личность

Время на прочтение этой заметки: 4 минут(ы)

В 2013 году на экраны вышел фильм Спайка Джонса «Она» о романе одинокого писателя с операционной системой. Несмотря на кажущуюся абсурдность, это оказалась удивительно трогательная и пронзительная история любви. В оригинальном фильме операционную систему озвучивала Скарлетт Йоханссон, а в российской версии она говорила голосом Татьяны Шитовой.

Голоса: как создают голосовых помощников и как из машины делают личность

На днях «Сбер» представил сразу три новых голосовых ассистента – Сбера, Джой и Афину, причем две последние, судя по голосам, тоже томные красотки. На подходе Марвин из МТС. Оставив в стороне сложнейшие технологии распознавания и синтеза речи, мы расспросили создателей голосовых помощников, как из машины делают личность.

«Виртуальный ассистент – традиционный набор каких-то умений, – рассказывает Денис Филиппов, директор по технологиям и разработке SberDevices, компании экосистемы «Сбера», один из создателей Джой, Афины и Сбера. – Мы спрашиваем – виртуальный помощник отвечает, например, какая сегодня погода, курс доллара, или ставит музыку, то есть выполняет определенные задачи, «полезности»».

Разработчики идут разными путями. «Сбер», например, запустил сразу трех персонажей обоих полов, «Яндекс» – только Алису, а МТС – Марвина. Но при этом Алиса умеет распознавать голоса и, если понимает, что с ней говорит ребенок, включает специальный детский режим. В этом режиме у голосового ассистента меняется манера общения: Алиса начинает обращаться на «ты» и использовать другой словарный запас. Потому что для ребенка она прежде всего друг, а если разговаривать на «вы», беседа получится более отрешенной и холодной.

Создатель Марвина Аркадий Сандлер сформулировал требование к ассистенту так: «Пусть на этот раз помощник будет не роботом, не женского пола и, возможно, даже не человеком». «Он очаровательный, остроумный, иногда трогательный, иногда мудрый, – делится спичрайтер Марвина, киносценарист Ольга Никифорова. – Инопланетянин, философ из расы пухнашей, умеющий прыгать между мирами. Космический бродяга, чей свежий, часто оригинальный взгляд на многие земные процессы радует, веселит или изумляет пользователя».

Школа

Очень важно, на каких именно данных обучаются виртуальные помощники. «Если предложить им, условно, одну только «Википедию», получится очень скучно и сухо, словно говоришь с толковым словарем, – рассказывает руководитель продукта «Алиса» Андрей Законов. – Если обучать на «ВКонтакте», будет излишне молодежно и сленгово». Точно так, как в виноделии применяется купаж – смешивание в определенной пропорции разных видов алкоголя, в обучении голосовых ассистентов важно сочетание источников информации. Например, персонаж Алисы любит книги, ей изначально «скармливали» много русской литературы, поэтому в ее репликах порой проскакивают цитаты, что-то окололитературное. «Периодически нас спрашивают: что это за странная фраза? Откуда она тут появилась? – говорит Андрей. – А это из стихотворения Цветаевой или Бродского, например». Мужской персонаж Сбер – знаток современных технологий. Афина – интеллектуал, с которой интересно поговорить на разные темы. Джой больше про развлечения, она знает все о модных молодежных трендах. Ну и конечно, они прекрасно разбираются в финансах и музыке: большая часть запросов как раз из этой сферы. Сберовские персонажи и Алиса подключаются к телевизору и могут показывать фильмы, а потому специально натренированы на эту тематику – с ними интересно обсудить новинки проката, актеров и просто поболтать о кино. А Марвина можно попросить сказать тост – он обязательно выдаст что-нибудь небанальное, смешное, трогательное или поделится мудростью жителей другой планеты. И даже напишет стихи в только ему присущей манере.

Человек или машина

Голосовые помощники общаются двумя способами. Либо просто выдают информацию, как своеобразная голосовая «Википедия», либо работают в так называемом режиме болталки, который и делает их «живыми», – это связный разговор, самая сложная технология. И здесь тоже есть два способа.

У каждого персонажа имеется собственный спичрайтер – группа редакторов, которые пишут по 7–10 фраз-ответов на наиболее распространенные вопросы, чтобы пользователь, задавая один и тот же вопрос, слышал разные реплики. Но если заиграться в ручное написание, то через какое-то время неизбежно возникнет проблема масштабирования: придется нанимать целую армию редакторов, потому что пользователи вообще-то активно интересуются всякими разными темами. И здесь появляется комбинация. «Есть вопросы, которые особенно важны для персонажа. Например, для Джой это музыка, – говорит Денис Филиппов. – Поэтому редакторы должны очень тщательно продумать, какая именно музыка ей нравится. А дальше в игру вступает нейросеть». Причем нейросеть у каждого персонажа разная.

Самым перспективным сейчас считается генеративный подход, основанный на алгоритмах обработки естественной модели языка. Очередная версия гигантской языковой модели GPT-3 уже сегодня сама пишет эссе, статьи и даже стихи. Такие системы обучаются на огромном количестве разнообразного контента – от художественной литературы до текстов из интернета. А затем система берет реплику пользователя, изучает контекст и пытается продолжить ее. Пока получается просто забавно. Но ни у кого нет сомнений, что в ближайшем будущем новые нейросети типа GPT-3 научатся вести связный диалог на заданные темы – о музыке, кино, литературе или личных отношениях.

Денис Филиппов, который занимается этой темой более десяти лет, вспоминает: «Как-то предложили актрисе фонетически богатый текст, она читает – и вдруг мы понимаем, что все идет не так. В создании голосов кроме фонетики важна эмоция. Машина должна уловить в голосе эмоцию и потом использовать ее в своих репликах. А актеры, которые читают, максимально сосредоточены на тексте. В итоге получается даже не нейтральный новостной тон, а такой, будто человек сильно напрягся и пытается что-то сказать». Проблему решили, дав актерам «библию персонажа», – они вжились в роль, появились эмоции и игра. Причем для записи нужны не только фразы, но и разные междометия, типа «ха-ха», «ммм», «да-да», «ага», смех, вздохи – они заметно оживляют речь машины.

Голоса пишут месяцами, несколько раз в неделю по два часа, в строго определенное время. «У меня эфиры поздние, мы же на Дальний Восток вещаем. Вначале писались после них, ночами, – рассказывает Анастасия Чернобровина. – И оказалось, что между отдохнувшим дневным и уставшим ночным голосом огромная разница. Пришлось ночные записи отменить». Если человек приболел, у него насморк, запись тоже откладывается: сразу возникает неправильная интонация, другой тембр – и вся работа в корзину.

«Невозможно просто прочитать все слова и потом склеивать из них фразы, – говорит Андрей Законов. – Нужны эмоциональные ударения, вопросительные интонации, печаль, радость. Как правило, мы берем что-то из русской литературы, но смотрим, чтобы там были и правильные интонации, и правильные фонетические конструкции».

В первоначальном варианте голосовой помощник был более игривым, а сейчас словно сел на антидепрессанты. «В данный момент Алиса просто позитивная, – возражает Андрей Законов. – Мы сами выбрали такое настроение персонажа».

«Для каждого ассистента была сделана разная комбинация настройки нейросетей, – продолжает Денис Филиппов. – Где-то нейросеть выкручена в одну сторону, где-то – в другую. Мы хотим в эту историю поиграть. Главное, не загнать наших персонажей в какие-то уж совсем жесткие рамки». Поэтому одни виртуальные помощники более игривые, а другие – более чопорные. Но заводить с вами роман ни один ассистент не будет, хотя может. Конечно, если пользователь влюбится в персонажа, отказаться от такого устройства он сможет нескоро – тем более что ассистент с каждым разом будет понимать человека все лучше и лучше. Однако такое поведение машины чревато для компаний-разработчиков огромными репутационными рисками, а в голосовые помощники вкладываются гигантские деньги. Сегодня главная задача ассистентов не крутить романы, а продавать вам товары и услуги. А для этого нужны совсем другие настройки.

Александр Грек