Jak Apple Visual Intelligence může změnit všechno

Souhrn

Funkce Visual Intelligence v zařízeních Apple umožňuje kamerám iPhonu rozpoznávat objekty, text a místa v reálném světě a poskytovat kontextové informace. Generální ředitel Tim Cook ji veřejně chválí a naznačuje další rozvoj, včetně vývoje vlastních vizuálních modelů AI, které by snížily závislost na externích službách jako ChatGPT od OpenAI nebo Google. Tento posun signalizuje ambice Apple přetvořit interakci uživatelů s okolím.

Klíčové body

Visual Intelligence je dostupné na iPhone 16 Pro a novějších modelech, případně iPhone 15 Pro přes iOS 18.4; funguje jako reverzní vyhledávání obrázků s AI dotazy.
Pod kapotou využívá ChatGPT a Google, ale Apple vyvíjí vlastní modely, jak hlásí Mark Gurman z Bloomberg.
Tim Cook ji označil za jednu z nejoblíbenějších funkcí Apple Intelligence během telefonátu o výsledcích za svátky.
Historicky Cook předpovídal trendy jako senzory (před Apple Watch) nebo AR/VR (před Vision Pro).
Funkce umí číst a shrnovat text, identifikovat objekty, překládat jazyky a poskytovat kontext.

Podrobnosti

Visual Intelligence představuje součást Apple Intelligence, sady AI funkcí integrovaných do iOS. Uživatel zaměří kameru na objekt, jako je rostlina, text na plakátu nebo budovu, a systém okamžitě poskytne informace: identifikuje druh rostliny, přeloží text do češtiny nebo navrhne restauraci na základě místa. Tato schopnost vychází z on-device zpracování pro rychlost a soukromí, ale pro složitější úlohy spoléhá na cloudové modely od OpenAI (ChatGPT) a Google. Například při analýze scény systém pošle anonymizovaný obrázek do cloudu, kde AI vygeneruje odpověď, která se vrátí na zařízení.

Podle reportáže Marka Gurmana v newsletteru Power On z 21. ledna Apple urychluje vývoj vlastních vizuálních modelů AI. Tyto modely by měly nahradit externí závislosti, což by umožnilo plně on-device zpracování a lepší integraci s ekosystémem Apple, včetně Vision Pro nebo budoucích zařízení. Gurman spekuluje o hardwaru, který by to podpořil, jako vylepšené Neural Engine v čipech A-série nebo M-série. Tim Cook během earnings callu pro sváteční kvartál Visual Intelligence označil za funkci, která “pomáhá uživatelům učit se a dělat více než kdy dřív s obklopujícím světem”. Dříve Cook podobně naznačoval senzory v roce 2013 (před spuštěním Apple Watch) nebo AR/VR před Vision Pro.

Pro uživatele to znamená praktické využití: rychlé identifikace produktů v obchodě, překlad cedulí v zahraničí nebo analýzu umění v galerii bez nutnosti samostatné aplikace. V porovnání s konkurencí, jako Google Lens, je Visual Intelligence hluboce integrováno do systému – aktivuje se dlouhým stiskem tlačítka fotoaparátu. Kriticky lze říci, že současná verze ještě není plně autonomní kvůli cloudové závislosti, což zvyšuje latenci a potenciální soukromí rizika, ale přechod na vlastní modely by to řešil. Apple tak navazuje na trend velkých firem směrem k suverénním AI stackům.

Proč je to důležité

Vývoj vlastních vizuálních modelů posiluje pozici Apple v AI závodě proti Google, OpenAI a Meta. Snížení závislosti na partnerech umožní lepší kontrolu nad daty a výkonem, což je klíčové pro miliardy uživatelů iPhonu. V širším kontextu to urychluje adopci multimodálních AI, kde vizuální vstupy doplňují textové – podobně jako u GPT-4o nebo Gemini. Pro průmysl to znamená tlak na hardware s pokročilým NPU (neural processing unit), jako Apple Neural Engine, a potenciální nové zařízení zaměřená na AR. Dlouhodobě by to mohlo změnit, jak lidé interagují s realitou, přibližujíc se k konceptům jako “spatial computing” z Vision Pro, ale bez hype – spíš pragmatickým způsobem pro masový trh.

Číst původní článek

Zdroj: 📰 Cult of Mac