О внедрении нейросетей в области аудиокниг, перспективах и барьерах рассказывает Сергей Анурьев, генеральный директор группы компаний «ЛитРес».
Комфортен ли слушателям «голос» ИИ
Сейчас пока рано давать окончательную оценку влияния технологий синтеза речи на качество речи в части озвучивания книг. Важно понимать, что технологии синтеза речи, те, о которых мы на сегодняшний день можем говорить, постоянно развиваются и завтра они, я верю, выйдут на новый уровень. Ведь сегодня в их развитие вовлечено несколько крупных игроков. Наибольших успехов на данный момент, на мой взгляд, в технологиях на основе машинного обучения и нейросетей добились Яндекс с технологией Яндекс SpeechKit, Сбер с SaluteSpeech, а также Тинькофф (Tinkoff VoiceKit) и МТС (MTS AI). Эти игроки показывают достаточно хороший результат, и здесь у каждого решения есть свои особенности, плюсы и минусы, так как они по-разному решают проблемы интонирования, расстановки ударений, естественного звучания речи. В итоге все напрямую зависит от того, какая технология использована. Например, сейчас мы в ГК «ЛитРес» работаем на основе Яндекс SpeechKit, и эта технология показывает хороший результат, который мы можем оценить по отзывам наших пользователей.
Если говорить о количественных оценках качества синтеза речи ИИ, то мы отслеживаем для себя два параметра: отношение пользовательских оценок по искусственно озвученным книгам к оценкам студийных аудиокниг и отношение пользовательских оценок по искусственно озвученным книгам к оценкам пользователей их текстовых версий
Первый параметр, на наш взгляд, показывает отношение пользователей в среднем к ИИ озвучиванию книг относительно качественных студийных записей. При этом мы отдаем себе отчет, что в ИИ «озвучку» заведомо попадают в основном менее популярные произведения, поэтому и оценка ИИ книг будет ниже, чем у студийных записей. Сейчас средняя оценка ИИ озвученных книг 4,46 при 4,64 у студийных записей.
Второй показатель позволяет оценить влияние ИИ озвучки на качество восприятия текста читателем. То есть если оценки ИИ озвученной аудиокниги в среднем статистически не отличаются от оценок книги в текстовом формате, то можно говорить о том, что ИИ не ухудшил восприятие книги читателем. В среднем оценка ИИ книг составляет те же 4,46, при том что их текстовые оригиналы оценены читателями на уровне 4,6.
Так выглядит динамика накопленной средней оценки книг, озвученных ИИ, по мере снижения их продаж у нас в сервисе. Видно, что топ-100 книг имеют значимо более высокую оценку, чем книги, следующие за ними в рейтинге. Тут можно говорить о влиянии самого качества произведения на оценку книги в целом и меньшем влиянии роли ИИ на оценку читателя. Также любопытно, что за пределами топ-1000 начинается плавный рост оценки ИИ книг читателями, что может говорить о том, что наши читатели ценят возможность прослушать книгу в аудиоформате, что, скорее всего, никогда бы не случилось без применения ИИ.
Может ли слушатель отличить голос актера озвучки от ИИ
Безусловно, слушатель способен отличить голос чтеца от нейросети, хотя и сами технологии продвинулись настолько далеко, что порой сделать это можно не сразу. Если еще несколько лет назад буквально с первых секунд становилось понятно, что озвучание выполнил не живой человек, а одно из программных решений, которое произвело синтез речи, то сейчас иногда нужно дождаться каких-либо ошибок, которые допустит технология, чтобы почувствовать эту разницу. Например, ИИ неправильно поставит ударение или выберет неверную интонацию, произойдет сбой в обеспечении естественного звучания речи.
В целом можно сказать, что с каждым годом эта разница скрадывается именно за счет развития алгоритмов, которые улучшают результат. Главное для нас — пользователи готовы воспринимать ИИ чтецов и, более того, ИИ озвучка не мешает им ставить высокие оценки книгам.
Способен ли ИИ полностью заменить чтеца
По мере развития технологий будет появляться все больше сфер, в которых синтез речи окажется настолько уместным и востребованным, что надобность в привлечении актера отпадет или по крайней мере станет целесообразнее использовать именно технологические решения, например когда нужно будет оперативно записать большой объем информации в аудиоформате с минимальными затратами. В вопросе скорости и себестоимости технологии синтеза речи будут выигрывать всегда.
Важно понимать, что «традиционное» озвучивание аудиокниг актерами озвучания осуществляется разными способами. Во-первых, актеры обладают разной степенью подготовленности и квалификации, а это напрямую влияет на результат. Во-вторых, существуют разные способы производства аудиокниг: от обычной начитки голосом одного чтеца до сложных многоголосых озвучек или даже аудиоспектаклей. Поэтому, если говорить именно о такой нестандартной озвучке — здесь будет непросто повторить живой голос, хоть это и гипотетически возможно при условии разработки озвучки с дополнительными голосами и спецэффектами. Другой вопрос, как это повлияет на себестоимость, поскольку довольно сложно автоматизировать корректный выбор реплик или добавление спецэффектов для создания полноценного спектакля. Если мы говорим о простом копировании и переносе текста в аудио — здесь можно допустить, что в отдельных сценариях у ИИ получится заменить актера, однако все же только чтец обладает неповторимым звучанием живого голоса, и при хорошей квалификации он никогда не станет в уязвимую позицию перед ИИ.
В конечном счете все будет сводиться к двум факторам: c одной стороны, к оценке общего качества, кумулятивного результата в виде того, как профессионально актер сделал свою работу и как технически выполнена эта запись. С другой — всегда будет иметь значение экономика, то есть сроки и стоимость записи. И естественно, возникнут регулярные сценарии использования синтеза речи для того, чтобы записать много и быстро, не сильно потеряв при этом в качестве.
Именно такой подход мы используем уже сегодня, применяя ИИ для записи тех книг, которые никогда скорее всего не были бы озвучены на студиях чтецами из-за низких прогнозируемых продаж. При этом часто ИИ озвучка дает нам сигнал, что книгу автора стоит перезаписать чтецом на студии и вкладываться в продвижение.