Озвучення у вагонах метро за допомогою штучного інтелекту
Цього тижня на синій гілці у метро можна почути вже нове озвучення від Так Треба Продакш (офіційно ніхто не казав чий він, але, здається, це голос Євгена Малухи, більш відомий як голос Гомера Сімпсона, Альфа та інших; зробив кілька записів, бо вони вже є у вагонах).
До цього 27 років у метро звучав голос Миколи Івановича Петренка, заслуженого працівника культури і мистецтв, директора театру ляльок. Його голос був дуже рідним і став невід’ємною частиною бренду метро. На жаль, у 2016 році Микола Іванович помер. Оскільки відкриття нових станцій не планувались, відповідно у новому озвученні не було сенсу, але Петрівку переіменували на Почайну.
Ідея
Зрозуміло, що хтось новий має озвучити не тільки станцію, а як мінімум всю гілку, щоб голос був всюди однаковий . Я замислився, чи є альтернатива перезапису. Хотілося б зберегти «голос метро» і, здавалось, нераціонально заради однієї станції змінювати озвучення всюди. 21-ше сторіччя на дворі, вже купа робіт були зроблені за допомогою штучного інтелекту та нейромереж, це може спрацювати і тут.
З підказки Ilya Gogolev знайшов хлопців, які займаються саме темою генерації голосу — respeecher.com (Respeecher, Dmytro Bielievtsov та Aleksandr Serdiuk).
Технологія
Модель треба навчити голосу оригіналу, який вона має емітувати. Для цього її необхідно тренувати на якомога довшому записі голосу (бажано не менше години для нормальної якості). Потім береться голос другої людини, яка начитує такий самий текст і модель навчається розуміти різницю між двома голосами. Коли є всі дані, друга людина може записати будь-яку фразу, а модель конвертує голос у цільовий, наближений до оригіналу.
Послухайте на сайті приклади роботи:
- в першій колонці — початковий чоловічий голос, який будуть змінювати;
- в другій — жіночий живий голос, який треба емітувати;
- в третій — результат нейромережі.
Мене вразила якість, результат складно відрізнити від оригіналу. Зустрівся з хлопцями і їх зацікавила моя ідея, вони з радістю погодились спробувати.
Спроба
Метрополітен начебто теж зацікавила ідея, але відповідей я так і не отримав. UPD: метро немає прав на записи Петренка, права у родичів:
Написав і в театр ляльок, вони теж нічим не допомогли. Тому ми пошукали у відкритому доступі всі записи Миколи Петренка достатньо високої якості.
Модель натренована всього на ~5–10 хвилинах чистого запису голосу і цих даних, звісно, дуже мало, але все ж спробували.
Перша спроба:
Хоч і не вдалося, вважаю цю спробу дуже цікавою. Приклад використання сучасних технологій для таких прикладних задач, як озвучування у транспорті. І не тільки однієї станції, а всіх майбутніх.
P.S.
Окрім технічних питань було і етичне: наскільки доречно використовувати так голос померлої людини, чи не буде це втручанням у пам’ять про Миколу Івановича. Треба було також поспілкуватися з родичами і отримати згоду, але до цього діло не дійшло.
Хоча це було б здорово — голос людини, що пішла, залишається живим і може продовжувати виконувати покладену на нього задачу.