Создаем нейронную сеть, которая подделывает голос!

Scalper X6 - новейший форекс-индикатор с двойным фильтром!
10 часов назад
Остановитесь, пока это не убило вас и ваши деньги.
8 часов назад

Создание нейронной сети, которая портит голос!

Генерация голоса

Привет, подписчик! Здесь появляется интересная статья. Знаете ли вы, что есть все больше и больше способов идентифицировать людей по голосу? И параллельно исследователи объединяют, как обойти эти механизмы — как для защиты своих личных данных, так и взломать системы, защищенные таким образом. Я решил посмотреть на последние достижения ученых в этой области, чтобы рассказать вам все это.

Текст в речь

Человеческий голос является результатом движения струн, языка и губ. У компьютера есть только числа, представляющие пробег, зарегистрированный микрофоном. Так как же компьютер создает звук, который мы можем услышать через динамики или наушники?

Одним из самых популярных и изученных методов создания звука является прямое преобразование текста, которое должно быть воспроизведено в звуке. Самые ранние программы этого типа переплетены отдельные буквы словами и слова в предложения.

С разработкой программ синтезатора, набор, ранее записанный на буквах микрофона, стал набором слогов, а затем целых слов.

Звуки в речь

Преимущества таких программ очевидны: их легко писать, простые в использовании, простые в использовании, могут воссоздать все слова на языке, предсказуемы — все это в какой -то момент стало причиной их коммерческого использования. Тем не менее, качество голоса, произведенного этим методом, оставляет желать лучшего. Мы все помним отличительные черты такого генератора — речь, лишенная эмоций, неправильных акцентов, отдельных слов и букв.

Этот метод генерации речи быстро быстро выдвинул первое, потому что он лучше подражает человеческой речи: мы произносим звуки, а не буквы. Вот почему системы, основанные на международном фонетическом алфавите, IPA, лучше и приятнее слушать.

Речь в речь

Этот метод основан на отдельных, ранее записанных звуках, которые сшиваются в студии. По сравнению с первой попыткой, существует четкое улучшение качества: вместо обычных аудио -дорожек для швейного звука, методы смешивания звука, основанные как на математическом праве, так и на нейронных сетях.

Относительно новый подход полностью основан на нейронных сетях. Рекурсивная архитектура Wavenet, построенная исследователями из DeepMind, позволяет изменить звук или текст в другой звук напрямую, не включая ранее записанные строительные блоки (исследовательская статья).

Ключом к этой технологии является соответствующее использование рекурсивных длинных кратковременных нейронов памяти, которые хранят их состояние не только на уровне каждой ячейки отдельной нейронной сети, но и на уровне всего уровня.

Wavenet Diagram

В целом, эта архитектура работает с любым типом звуковой волны, независимо от того, является ли это музыка или человеческий голос.

Чтобы воссоздать речь, такие системы используют генераторы звуковых записей из генераторов текста и интонации (акценты, паузы), чтобы создать естественный голос.

Создание поддельного голоса

Это самая передовая технология создания речи: она не только придерживается или смешивает звуки, которые машина не понимает, но и создает переходы между ними, паузы между словами, изменяют высоту, силу и тембр голоса, чтобы адаптировать его к Правильное произношение — или любая другая цель.

Принцип работы имитатора голоса

Практически каждый метод подходит для самой простой идентификации — особенно эффективный хакер может удовлетворить пять секунд записанного голоса. Но чтобы обойти более серьезную систему, например, на основе нейронных сетей, нам нужен реальный, высококачественный голосовой генератор.

Создание надежной модели голоса — -пола сложно. Но есть еще один метод.

Основываясь на тех же принципах, что и технология звукового синтеза, вы можете получить одинаково реалистичное воспроизведение всех параметров голоса. Например, создана программа, которая клонирует голос из записи маленького голоса. Это именно то, что мы с вами будем использовать.

Кодирование голоса

Сама программа состоит из нескольких важных частей, которые выполняются последовательно, так что давайте разберемся с ней шаг за шагом.

Голос каждого человека имеет ряд характеристик – они не всегда узнаваемы на слух, но важны. Чтобы точно отличить одного говорящего от другого, потребуется создать специальную нейросеть, создающую свои наборы характеристик для разных людей.

Остановитесь, пока это не убило вас и ваши деньги.
8 часов назад
Густые и красивые волосы — это реально!
10 часов назад

Этот кодировщик не только передает голос, но и сравнивает результаты с желаемыми.

Создание спектрограммы

Это характеристики 256 голосов

На основе этих признаков можно построить меловую спектрограмму звука из текста. Это делается синтезатором на базе Tacotron 2 с использованием WaveNet.

Пример сгенерированной спектрограммы

Синтез звука

Сгенерированная спектрограмма содержит всю информацию о паузах, нотах и ​​произношении, и в нее уже встроены все предварительно рассчитанные характеристики голоса.

Теперь другая нейросеть — на основе WaveRNN — будет постепенно генерировать звуковую волну из спектрограммы мела. Эта звуковая волна будет воспроизводиться как законченный звук.

Тестирование метода

В синтезированном звучании сохранены все характеристики основного голоса, который хоть и не без усилий, но в любом тексте воссоздает оригинальный человеческий голос.

Теперь, когда мы знаем, как создать правдоподобный смоделированный голос, давайте попробуем применить его на практике. Возможно, вы слышали о двух очень простых, но работающих методах идентификации человека по голосу: с помощью анализа мелового коэффициента и с помощью специально обученных нейронных сетей для идентификации одного человека. Посмотрим, насколько хорошо мы сможем обмануть эти системы фальшивыми записями.

Возьмите пятисекундную запись мужского голоса и создайте две записи с помощью нашего инструмента.

Сравним эти записи, используя сохраненные мелом коэффициенты.

Посмотреть коэффициенты на графике

Разницу в коэффициентах можно увидеть и в цифрах:

Так как же нейросеть отреагирует на такую ​​хорошую подделку?

Выводы

Нейросетевое убеждение оказалось возможным, но не идеальным. Серьезные системы безопасности, вроде тех, что установлены в банках, скорее всего, обнаружат подделку, но человек, особенно по телефону, вряд ли сможет отличить настоящего звонящего от компьютерной имитации.

Имитация голоса уже не так сложна, как раньше, и открывает большие возможности не только для хакеров, но и для создателей контента: разработчики инди-игр могут делать качественную и дешевую озвучку, аниматоры — озвучивать своих персонажей, режиссеры фильмов может снимать подлинные документальные фильмы.

Хотя высококачественная технология преобразования текста в речь все еще находится в зачаточном состоянии, ее потенциал уже захватывает дух. Скоро все голосовые помощники обретут свой персональный голос — не холодный, металлический, а наполненный эмоциями и чувствами; чат поддержки перестанет раздражать, и вы сможете заставить свой телефон принимать неприятные звонки вместо вас.

Остановитесь, пока это не убило вас и ваши деньги.
8 часов назад
Остановитесь, пока это не убило вас и ваши деньги.
10 часов назад

Читайте также