Immersive Voice and Audio Services
IVAS je standardizovaný mediální kodek a servisní rámec 3GPP pro poskytování imerzivních prostorových zvukových zážitků s více kanály přes mobilní sítě za účelem vytvoření realistických zvukových scén pro hovory, hudbu a aplikace rozšířené reality.
Popis
Immersive Voice and Audio Services (IVAS) je komplexní standard 3GPP zavedený ve vydání Release 16, který definuje nový mediální kodek a související servisní rámec určený pro poskytování vysoce kvalitních imerzivních zvukových zážitků přes sítě 5G a vyvinuté paketové jádro. Jeho jádrem je kodek IVAS, vysoce efektivní a flexibilní zvukový kodek schopný kódovat nejen tradiční stereo nebo mono signály, ale také komplexní prostorové zvukové scény sestávající z více zvukových kanálů (např. 5.1, 7.1.4) a diskrétních zvukových objektů s přidruženými metadaty (jako pozice, velikost a zesílení). To umožňuje vykreslování zvuku v trojrozměrném prostoru kolem posluchače.
Z architektonického hlediska se IVAS integruje do služby Multimedia Telephony Service for IMS (MTSI) 3GPP a dalších rámců pro streamování médií. Funguje v mediální rovině IP Multimedia Subsystem (IMS). Mezi klíčové komponenty patří kodér IVAS, který komprimuje imerzivní zvukovou scénu; dekodér IVAS, který ji rekonstruuje; a renderer IVAS, který využívá funkce přenosu hlavy (HRTF) a informace o přehrávacím systému ke správné prostorizaci zvuku pro konkrétní nastavení posluchače (sluchátka, reproduktorové pole). Servisní rámec, podrobně popsaný v specifikacích jako 26.114 a 26.119, definuje procedury vyjednávání relace pomocí Session Description Protocol (SDP) k navázání mediálních relací podporujících IVAS, včetně podpory dynamického přepínání mezi režimy kodeku na základě síťových podmínek.
Jak to funguje: Během hovoru nebo streamovací relace si koncové body vyjednají podporu IVAS. Zachytávací zařízení (např. 360stupňové mikrofonní pole nebo XR headset) zachytí prostorovou zvukovou scénu. Kodér IVAS tuto scénu komprimuje a efektivně reprezentuje ambientní kanály a pohyblivé zvukové objekty. Tento bitový proud je paketizován a přenášen přes síť 5G, využívající výhod ultra-spolehlivé komunikace s nízkou latencí (URLLC) pro aplikace v reálném čase. Dekodér IVAS přijímacího zařízení scénu rekonstruuje a renderer ji přizpůsobuje v reálném čase na základě orientace hlavy posluchače (pomocí dat sledování hlavy), aby udržel stabilní zvukové pole a vytvořil přesvědčivý pocit přítomnosti. Jeho úlohou je být umožňující zvukovou technologií pro teleprezenci, sociální XR a imerzivní zábavu.
K čemu slouží
IVAS byl vytvořen, aby řešil omezení tradičních hlasových a zvukových kodeků (jako AMR, EVS) v nastupující éře rozšířené reality (XR), teleprezence a imerzivních médií. Starší kodeky byly navrženy pro mono nebo stereo přehrávání a nebyly schopné přenášet prostorové signály nezbytné pro realistická virtuální prostředí nebo skupinovou komunikaci, kde je kritické porozumět tomu, kdo mluví a odkud. Motivací bylo definovat jediný efektivní standard pro všechny případy použití imerzivního zvuku a vyhnout se fragmentaci.
Historický kontext představuje vývoj 5G, který slibuje vylepšené mobilní širokopásmové připojení (eMBB), masivní IoT a URLLC. Zatímco 5G poskytuje přenosovou cestu, IVAS poskytuje zvukový obsah nové generace, který ospravedlňuje potřebu vysoké šířky pásma a nízké latence. Řeší problém doručování kinokvalitního zvuku založeného na objektech přes bezdrátové sítě pro aplikace jako víceuživatelské VR hry, vzdálená spolupráce ve virtuálních prostorech a imerzivní streamování živé hudby. Předchozí přístupy vyžadovaly proprietární kodeky nebo objemný nekomprimovaný vícekanálový zvuk, které byly neefektivní a neinteroperabilní.
IVAS navíc umožňuje nové servisní paradigmy, jako je ’telefonie s rozšířenou realitou’, kde mohou být vzdálení účastníci reprezentováni jako prostorové zvukové objekty v uživatelově prostředí. Řeší potřebu kodeku, který je zároveň vysoce kvalitní pro hudbu a nízkobitový pro konverzační řeč, s plynulým přepínáním mezi režimy. Jeho vytvoření bylo motivováno konvergencí průmyslu z telekomunikací, vysílání a spotřební elektroniky za účelem vytvoření univerzálního standardu pro imerzivní zvuk pro 5G.
Klíčové vlastnosti
- Kódování prostorového zvuku: Podporuje kódování kanálového zvuku (až 22.2), objektového zvuku a smíšených scén s metadaty.
- Vysoká efektivita a škálovatelnost: Poskytuje vysokou zvukovou kvalitu při datových tocích od 32 kbps pro řeč až přes 512 kbps pro bohaté hudební scény, se škálovatelnou složitostí.
- Dynamické přepínání režimů: Umožňuje plynulé přepínání mezi vyhrazeným režimem pro řeč a obecným zvukovým režimem v rámci probíhající relace pro optimální kvalitu.
- Provoz s nízkou latencí: Navržen pro služby konverzace v reálném čase s cílovými hodnotami celkové latence vhodnými pro XR aplikace.
- Rendering se sledováním hlavy: Integruje se s daty sledování hlavy pro vykreslování binauračního zvuku, který se přizpůsobuje pohybu hlavy posluchače a zachovává stabilitu zvukového pole.
- Standardizovaná integrace s IMS: Definován jako mediální kodek v rámci MTSI a streamovacích služeb 3GPP, což zajišťuje interoperabilitu napříč sítěmi a zařízeními.
Související pojmy
- EVS – Enhanced Voice Services (specifically, the AMR-WB IO mode: AMR-WB Interoperable)
- MTSI – Multimedia Telephony Services for IMS
- IMS – IP Multimedia Subsystem
Definující specifikace
- TS 23.333 (Rel-19) — MRFC-MRFP Mp Interface Requirements
- TS 23.334 (Rel-19) — IMS-ALG to IMS-AGW Interface (Iq) Stage 2
- TS 26.114 (Rel-19) — IMS Multimedia Telephony Media Handling
- TS 26.119 (Rel-19) — XR Media Capabilities for AR Devices
- TS 26.244 (Rel-19) — 3GPP File Format (3GP) Specification
- TS 26.249 (Rel-19) — Immersive Audio Split Rendering (ISAR)
- TS 26.250 (Rel-19) — IVAS Codec Introduction
- TS 26.251 (Rel-19) — IVAS Codec Fixed-Point C Code Specification
- TS 26.252 (Rel-19) — IVAS Codec Test Sequences Specification
- TS 26.254 (Rel-19) — IVAS Rendering Functions Specification
- TS 26.255 (Rel-19) — IVAS Frame Loss Concealment Procedure
- TS 26.256 (Rel-19) — Jitter Buffer Management for IVAS
- TS 26.258 (Rel-19) — IVAS Codec Floating-Point C Code Specification
- TS 26.260 (Rel-19) — Immersive Audio Objective Test Methods
- TS 26.261 (Rel-19) — Electro-acoustic specs for immersive terminals
- … a dalších 16 specifikací
📖 Anglický originál a plná specifikace: IVAS na 3GPP Explorer