Создаем нейронную сеть, которая подделывает голос!

Остановитесь, пока это не убило вас и ваши деньги.
7 часов назад
VIP Telegram-канал по торговле акциями США и криптовалютами
10 часов назад

Создание нейронной сети, которая портит голос!

Генерация голоса

Привет, подписчик! Здесь появляется интересная статья. Знаете ли вы, что есть все больше и больше способов идентифицировать людей по голосу? И параллельно исследователи объединяют, как обойти эти механизмы — как для защиты своих личных данных, так и взломать системы, защищенные таким образом. Я решил посмотреть на последние достижения ученых в этой области, чтобы рассказать вам все это.

Текст в речь

Человеческий голос является результатом движения струн, языка и губ. У компьютера есть только числа, представляющие пробег, зарегистрированный микрофоном. Так как же компьютер создает звук, который мы можем услышать через динамики или наушники?

Одним из самых популярных и изученных методов создания звука является прямое преобразование текста, которое должно быть воспроизведено в звуке. Самые ранние программы этого типа переплетены отдельные буквы словами и слова в предложения.

С разработкой программ синтезатора, набор, ранее записанный на буквах микрофона, стал набором слогов, а затем целых слов.

Звуки в речь

Преимущества таких программ очевидны: их легко писать, простые в использовании, простые в использовании, могут воссоздать все слова на языке, предсказуемы — все это в какой -то момент стало причиной их коммерческого использования. Тем не менее, качество голоса, произведенного этим методом, оставляет желать лучшего. Мы все помним отличительные черты такого генератора — речь, лишенная эмоций, неправильных акцентов, отдельных слов и букв.

Этот метод генерации речи быстро быстро выдвинул первое, потому что он лучше подражает человеческой речи: мы произносим звуки, а не буквы. Вот почему системы, основанные на международном фонетическом алфавите, IPA, лучше и приятнее слушать.

Речь в речь

Этот метод основан на отдельных, ранее записанных звуках, которые сшиваются в студии. По сравнению с первой попыткой, существует четкое улучшение качества: вместо обычных аудио -дорожек для швейного звука, методы смешивания звука, основанные как на математическом праве, так и на нейронных сетях.

Относительно новый подход полностью основан на нейронных сетях. Рекурсивная архитектура Wavenet, построенная исследователями из DeepMind, позволяет изменить звук или текст в другой звук напрямую, не включая ранее записанные строительные блоки (исследовательская статья).

Ключом к этой технологии является соответствующее использование рекурсивных длинных кратковременных нейронов памяти, которые хранят их состояние не только на уровне каждой ячейки отдельной нейронной сети, но и на уровне всего уровня.

Wavenet Diagram

В целом, эта архитектура работает с любым типом звуковой волны, независимо от того, является ли это музыка или человеческий голос.

Чтобы воссоздать речь, такие системы используют генераторы звуковых записей из генераторов текста и интонации (акценты, паузы), чтобы создать естественный голос.

Создание поддельного голоса

Это самая передовая технология создания речи: она не только придерживается или смешивает звуки, которые машина не понимает, но и создает переходы между ними, паузы между словами, изменяют высоту, силу и тембр голоса, чтобы адаптировать его к Правильное произношение — или любая другая цель.

Принцип работы имитатора голоса

Практически каждый метод подходит для самой простой идентификации — особенно эффективный хакер может удовлетворить пять секунд записанного голоса. Но чтобы обойти более серьезную систему, например, на основе нейронных сетей, нам нужен реальный, высококачественный голосовой генератор.

Создание надежной модели голоса — -пола сложно. Но есть еще один метод.

Основываясь на тех же принципах, что и технология звукового синтеза, вы можете получить одинаково реалистичное воспроизведение всех параметров голоса. Например, создана программа, которая клонирует голос из записи маленького голоса. Это именно то, что мы с вами будем использовать.

Кодирование голоса

Сама программа состоит из нескольких важных частей, которые выполняются последовательно, так что давайте разберемся с ней шаг за шагом.

Голос каждого человека имеет ряд характеристик – они не всегда узнаваемы на слух, но важны. Чтобы точно отличить одного говорящего от другого, потребуется создать специальную нейросеть, создающую свои наборы характеристик для разных людей.

Густые и красивые волосы — это реально!
8 часов назад
Остановитесь, пока это не убило вас и ваши деньги.
6 часов назад

Этот кодировщик не только передает голос, но и сравнивает результаты с желаемыми.

Создание спектрограммы

Это характеристики 256 голосов

На основе этих признаков можно построить меловую спектрограмму звука из текста. Это делается синтезатором на базе Tacotron 2 с использованием WaveNet.

Пример сгенерированной спектрограммы

Синтез звука

Сгенерированная спектрограмма содержит всю информацию о паузах, нотах и ​​произношении, и в нее уже встроены все предварительно рассчитанные характеристики голоса.

Теперь другая нейросеть — на основе WaveRNN — будет постепенно генерировать звуковую волну из спектрограммы мела. Эта звуковая волна будет воспроизводиться как законченный звук.

Тестирование метода

В синтезированном звучании сохранены все характеристики основного голоса, который хоть и не без усилий, но в любом тексте воссоздает оригинальный человеческий голос.

Теперь, когда мы знаем, как создать правдоподобный смоделированный голос, давайте попробуем применить его на практике. Возможно, вы слышали о двух очень простых, но работающих методах идентификации человека по голосу: с помощью анализа мелового коэффициента и с помощью специально обученных нейронных сетей для идентификации одного человека. Посмотрим, насколько хорошо мы сможем обмануть эти системы фальшивыми записями.

Возьмите пятисекундную запись мужского голоса и создайте две записи с помощью нашего инструмента.

Сравним эти записи, используя сохраненные мелом коэффициенты.

Посмотреть коэффициенты на графике

Разницу в коэффициентах можно увидеть и в цифрах:

Так как же нейросеть отреагирует на такую ​​хорошую подделку?

Выводы

Нейросетевое убеждение оказалось возможным, но не идеальным. Серьезные системы безопасности, вроде тех, что установлены в банках, скорее всего, обнаружат подделку, но человек, особенно по телефону, вряд ли сможет отличить настоящего звонящего от компьютерной имитации.

Имитация голоса уже не так сложна, как раньше, и открывает большие возможности не только для хакеров, но и для создателей контента: разработчики инди-игр могут делать качественную и дешевую озвучку, аниматоры — озвучивать своих персонажей, режиссеры фильмов может снимать подлинные документальные фильмы.

Хотя высококачественная технология преобразования текста в речь все еще находится в зачаточном состоянии, ее потенциал уже захватывает дух. Скоро все голосовые помощники обретут свой персональный голос — не холодный, металлический, а наполненный эмоциями и чувствами; чат поддержки перестанет раздражать, и вы сможете заставить свой телефон принимать неприятные звонки вместо вас.

VIP Telegram-канал по торговле акциями США и криптовалютами
7 часов назад
Scalper X6 - новейший форекс-индикатор с двойным фильтром!
6 часов назад

Читайте также