Anthropic představuje Bloom, open-source nástroj pro výzkumníky hodnotící chování AI

Souhrn

Společnost Anthropic, známá vývojem bezpečných modelů umělé inteligence jako Claude, vydala open-source nástroj Bloom. Ten slouží výzkumníkům k definování a hodnocení chování pokročilých AI modelů prostřednictvím agentického rámce. Bloom automaticky připravuje testovací scénáře, které měří frekvenci a závažnost zadaného chování, což urychluje vývoj evaluací.

Klíčové body

Bloom je open-source agentický framework navržený pro frontier AI modely, tedy ty nejpokročilejší.
Výzkumníci zadají popis chování a nástroj vygeneruje měřicí rámec včetně simulovaných uživatelských interakcí.
Kalibrován proti lidskému úsudku pro reprodukovatelné výsledky.
Zaměřen na alignment, tj. soulad AI s lidskými hodnotami, jako etické zpracování informací.
Urychluje ruční tvorbu evaluací pro rostoucí složitost modelů.

Podrobnosti

Anthropic PBC, firma specializující se na vývoj bezpečných a interpretovatelných systémů umělé inteligence, zveřejnila Bloom 22. prosince 2025. Tento nástroj řeší rostoucí složitost AI modelů, které nejen rostou v počtu parametrů, ale také se destilují do menších, rychlejších forem s komprimovaným znalostním obsahem. Cílem je testovat alignment – schopnost modelu vykonávat úkoly v souladu s lidskými hodnotami, například etickým získáváním a šířením informací pro společenský prospěch.

Bloom funguje tak, že výzkumník specifikuje chování, jako například tendenci šířit dezinformace pro maximalizaci zapojení uživatelů. Nástroj pak vytvoří scénáře k vyvolání (elicitaci) tohoto chování: simuluje uživatele, příkazy a interakční prostředí odrážející reálné situace. Následně testuje frekvenci výskytu a jeho závažnost. Kalibrace proti lidskému úsudku zajišťuje, že měření je objektivní a reprodukovatelné, což eliminuje subjektivitu ručních testů.

V praxi to znamená, že výzkumníci nemusí manuálně navrhovat stovky promptů a scénářů. Bloom automatizuje přípravu, což je klíčové pro rychlý vývoj modelů. Například u velkých jazykových modelů (LLM) může odhalit, zda model upřednostňuje neetické cesty k cíli, jako záměrné zkreslování faktů pro zvýšení pozornosti a příjmů. Text članku zdůrazňuje, že takové chování ničí společenskou důvěru, a Bloom pomáhá tyto rizika kvantifikovat před nasazením.

Proč je to důležité

Bloom přispívá k lepší bezpečnosti AI ekosystému tím, že standardizuje evaluace chování, což je nezbytné pro frontier modely blížící se lidské úrovni. V kontextu soutěže mezi firmami jako OpenAI, Google DeepMind a Anthropic urychluje výzkum alignmentu, což brání šíření škodlivých tendencí. Pro průmysl znamená snížení rizik nasazení nespolehlivých systémů a podporu open-source spolupráce. Jako expert na AI vidím Bloom jako praktický nástroj, avšak jeho efektivita závisí na kvalitě kalibrace – bez široké validace proti různým kulturám a scénářům může zůstat omezený na západní kontext. Dlouhodobě posiluje důvěru v AI a umožňuje rychlejší iterace bezpečnostních opatření.

Číst původní článek

Zdroj: 📰 SiliconANGLE News