Новый ИИ от Google может создавать естественно звучащую речь и музыку после нескольких секунд звукового запроса

Google представил AudioLM – большую языковую модель (large language model, LLM), которая работает со звуками, продолжая устную, а не письменную речь (без преобразования речь в текст и обратно). Также модель способна продолжать музыкальные фразы, исполненные на фортепиано. Хотя музыкальные системы с искусственным интеллектом, такие как Jukebox от OpenAI, уже дали впечатляющие результаты, большинству существующих методов нужны люди для подготовки транскрипций и маркировки текстовых обучающих данных, что требует больших затрат времени и человеческого труда. Однако AudioLM генерирует звуки без необходимости человеческого комментирования.