Google розробила унікальну систему WaveNet

57 Views Comment Off

Фахівці підрозділу DeepMind компанії, що займається розробкою і дослідженнями, пов’язаними з штучним інтелектом, розробили нову систему під назвою WaveNet, що дозволяє системам штучного інтелекту розмовляти мовою, максимально наближеною до природної людської мови. В рамках цього проекту реалізований якісно новий підхід до синтезу мови, який працює за рахунок бази даних аналізу звукових хвиль людського голосу замість того, щоб зосередитися на інтерпретації і імітації природної мови.

Це стало можливим завдяки застосуванню нейронних мереж і процесів глибинного машинного вивчення. Однак, область синтезу природної мови значно відстає від області розпізнавання мови.

Існуючі технології перетворення текст-мова (text-to-speech, TTS), як правило, засновані на двох принципах, компіляційного (concatenative TTS), в якому мова створюється шляхом компіляції раніше записаних фрагментів мови, і параметричного (parametric TTS), в якому мова відтворюється пристроєм-вокодером, на вхід якого передається необхідний набір цифрових даних. Останній метод відтворює “механічну” мову, яка дуже далека від природного звучання.

Система WaveNet працює дещо по-іншому, нейронна мережа, яка входить у її склад, працює з образами звукових коливань, а не тільки з елементами самої мови. Як і будь-яка нейронна мережа, мережа системи WaveNet пройшла процес попереднього навчання шляхом аналізу масиву необробленої аудіоінформації, включаючи мову, музику і записи інших звуків. Для якісної роботи процесу навчання системі потрібно аудіосигнал з частотою оцифровки мінімум 16 кГц, аналіз якого в режимі реального часу є досить складним завданням, що вимагає великої кількості обчислювальних ресурсів.

В ході подальших експериментів фахівці DeepMind “згодували” системі WaveNet записи мовлення англійською і китайською мовами. Після цього в порівняльних цілях були створені зразки штучної мови на цих мовах, синтезовані за допомогою трьох різних методів, стандартного компіляційного TTS, параметричного TTS і WaveNet.

Експерти, які прослухали записи синтезованої мови, визнали, що мова WaveNet є ближчою до природної мови, ніж усі інші зразки. Проте, поки що дуже важко сплутати синтезовану мову з природною.

Проте, система WaveNet, навіть в тому вигляді, в якому вона існує на сьогоднішній день, на думку представників DeepMind, відкриває безліч можливостей для реалізації технологій взаємодії людини з комп’ютером, для виробництва музики, комп’ютерних ігор і ряду інших областей.

... ... .
In : Техно

Related Articles

404