Google spouští model Lyria 3 pro generování hudby

Souhrn

Google spustil model umělé inteligence Lyria 3, který generuje 30sekundové hudební skladby na základě textových popisů, obrázků nebo videí. Tento algoritmus je dostupný v aplikaci Gemini a v nástroji Dream Track pro tvůrce na YouTube. Skladby obsahují neviditelný vodoznak SynthID pro ověření původu.

Klíčové body

Generování skladeb z přirozeného jazyka s možností specifikace žánru, tempa a jazyka textu; podporuje i vstupy z obrázků nebo videí.
Automatické vytváření textů, což eliminuje potřebu vlastních textů jako u předchozí verze Lyria 2.
Zlepšená kvalita a složitost hudby oproti Lyria 2 z května minulého roku.
Vodoznak SynthID, ověřitelný v aplikaci Gemini.
Možnost generování obalu skladby pomocí modelu Nano Banana pro tvorbu obrázků.

Podrobnosti

Model Lyria 3 umožňuje dospělým uživatelům vytvářet krátké hudební úseky rychle a snadno bez nutnosti hudebních dovedností. Uživatel zadá popis v přirozeném jazyce, například „rychlý elektronický track v tempu 120 BPM s texty v češtině o létě“, a model vygeneruje 30sekundovou skladbu včetně melodií, rytmu a automaticky vytvořených textů. Alternativně lze nahrát obrázek nebo video, které algoritmus analyzuje a přizpůsobí hudbu jeho vizuálnímu stylu – například energická melodie k akčnímu videu.

Oproti Lyria 2, která vyžadovala vlastní texty, je Lyria 3 autonomnější. Google zlepšil kvalitu výstupu, což znamená bohatší aranžmá, přirozenější přechody mezi tóny a lepší soulad s požadavky. Architektura modelu se liší od jiných přístupů: zatímco některé AI nejprve vytvářejí spektrogram – vizuální reprezentaci tónů jako čar – Lyria 3 pravděpodobně využívá audio tokeny, podobně jako open-source model MusicML od Google. Tyto tokeny jsou komprimované jednotky audia, které umožňují efektivní generování.

Skladby označené vodoznakem SynthID lze ověřit nahráním do Gemini, což pomáhá bojovat proti neoprávněnému šíření AI obsahu. Aplikace Gemini navíc integruje Nano Banana, model pro generování obrázků z roku 2025, který slouží k tvorbě obalů pro skladby. Nano Banana je dostupný i přes API pro vývojáře, což umožňuje jeho začlenění do vlastních aplikací. Lyria 3 zatím není otevřená přes API, ale Google naznačuje budoucí dostupnost.

Tato funkce je omezena na krátké úseky, což omezuje použití na reklamy, sociální sítě nebo prototypy, nikoli plnohodnotné alba. Pro tvůrce na YouTube v Dream Track usnadňuje rychlou produkci podkresové hudby.

Proč je to důležité

Lyria 3 posiluje postavení Google v oblasti generativní AI pro kreativní obory, kde konkuruje modelům jako Suno nebo Udio. Integrace do Gemini a YouTube zvyšuje dostupnost pro miliony uživatelů, demokratizuje tvorbu hudby a urychluje obsahovou produkci na platformách. Nicméně vyvolává otázky autorského práva – AI trénovaná na existujících skladbách může vést k plagátům. Vodoznak SynthID je krok k transparentnosti, ale nestačí na soudní spory. V širším kontextu urychluje to vývoj multimodálních AI, kde text, video a audio konvergují, a může ovlivnit hudební průmysl tím, že sníží poptávku po stockové hudbě. Pro uživatele znamená levný nástroj na experimenty, pro profesionály hrozbu konkurence nízkonákladové AI produkci.

Číst původní článek

Zdroj: 📰 SiliconANGLE News