Učenie zvuku a videa od nuly po celok - pochopenie kódovania videa v rámci VideoToolBox
Audio Video Learning From Zero Whole Understanding Video Coding With Videotoolbox Framework
Učenie zvuku a videa od nuly po celú (1)
Učenie zvuku a videa od nuly po celé (2)
Učenie zvuku a videa od nuly po celú (3)
A .. rozumieť pevnému kódovaniu VideoToolBoxu
Oficiálna dokumentácia VideoToolBox
V systéme iOS 4.0 už Apple podporuje pevné kódovanie. Ale tvrdé kódovanie je v tom čase proprietárne API. Nie je k dispozícii vývojárom.
Na konferencii WWDC 2014, po iOS 8.0, Apple otvorilo API pre tvrdé dekódovanie a tvrdé dekódovanie. Je VideoToolbox.framework
API. VideoToolbox
Je čisté API v jazyku C. Obsahuje veľa funkcií v jazyku C.
VideoToolBox
V skutočnosti patrí do nízkoúrovňového rámca, ktorý má priamy prístup k hardvérovým kódovačom a dekodérom. Existuje v kompresii a dekompresii videa, ako aj v službách konverzie dát uložených v vyrovnávacej pamäti pixelov.
Výhody pevného kódovania: zlepšenie výkonu, zvýšenie efektivity a rozšírenie spotreby energie
Tento rámec sa tiež často používa pri vývoji audio a video projektov. Ak máte nápad vyvinúť audio a video, potom bude tento rámec zameraný na vašu štúdiu.
2. Pochopte video
Ako sprostredkovanie medzi vývojármi a testovaním produktov je nevyhnutné. To robíme počas procesu vývoja, ale stále musíme nad tým premýšľať. Či je dopyt neprimeraný, alebo si nie sme istí týmto dopytom.
Ako som už uviedol predtým, príchod éry 5G bude určite najvzrušujúcejším dopadom na mobilný internet. Prečo? Akonáhle rýchlosť siete + rýchlosť zariadenia nie je obmedzená, predstavte si, že dočasná nenahraditeľnosť mobilných zariadení nie je. Je to ešte zrejmejšie. Aspoň zatiaľ nemôže žiadny hardvér nahradiť polohu mobilných zariadení v používateľovi.
Potom sa pozrime na všeobecné vedomosti o videu. Iba ak pochopíte podstatu videa, pravdepodobne budete čeliť požiadavkám odpovede.

2.1 Zloženie videa:
- obrázok
- Zvuk
- Meta informácie
obrázok: Samotný video obsah je zložený z jednej snímky a jednej snímky. Ľudskému oku stačí prehrať viac ako 16 obrázkov za 1 sekundu, čo sa považuje za súvislé video. Tento fyzikálny jav sa nazýva vizuálna perzistencia.
Zvuk: Video musí pozostávať z audio + obrazového obsahu. Zvuk je teda samostatnou súčasťou videa. Pre tento kúsok musíme kódovať zvlášť.
Meta informácie: Meta informácie sú vlastne informácie popisujúce tieto informácie. Používa sa na popísanie štruktúry informácií sémantika použitie využitie atď. Video meta informácie napríklad obsahujú konkrétne informácie o videu, ako je formát kódovania, rozlíšenie atď.
2.2 Formát kódovania vo videu
-
Formát kódovania videa
- Výhody kódovania H264:
- Nízka bitová rýchlosť
- Vysoko kvalitný obraz
- Silná odolnosť voči chybám
- Silná adaptabilita siete
- zhrnúť: Najväčšou výhodou H264 je vysoký kompresný pomer dát. Pri rovnakej kvalite obrazu je kompresný pomer H264 viac ako dvojnásobný ako v prípade MPEG-2 a 1,5 až 2-násobný v porovnaní s MPEG-4.
- Príklad: Ak je pôvodná veľkosť súboru 88 GB, bude komprimovaný 3,5 GB štandardom kompresie MPEG-2, kompresný pomer je 25: 1 a po kompresii štandardom kompresie H.264 to bude 879 MB, z 88 GB na 879 MB, H. 264 Kompresný pomer dosahuje úžasných 102: 1
- Výhody kódovania H264:
-
Formát kódovania zvuku:
-
AAC je v súčasnosti najpopulárnejšia technológia kódovania stratovej kompresie a odvodila tri hlavné formáty kódovania: LC-AAC, HE-AAC a HE-AAC v2.
- LC-AAC je tradičnejší AAC, ktorý sa používa hlavne na kódovanie scén so strednou a vysokou bitovou rýchlosťou (> = 80 Kbit / s).
- HE-AAC sa používa hlavne na kódovanie scén s nízkou bitovou rýchlosťou (<= 48Kbit/s)
Výhoda : Vynikajúci výkon pri kódovacích rýchlostiach menej ako 128 Kbit / s a väčšinou sa používa na kódovanie zvuku vo videu
Vhodné pre scénu : Kódovanie zvuku pod 128 Kbit / s, väčšinou sa používa na kódovanie zvukových stôp vo videu
-
2.3 Kontajner (formát zapuzdrenia videa)
Formát balenia: Jedná sa o vloženie komprimovaných obrazových a zvukových údajov do súboru podľa určitého formátu. Tento súbor sa dá nazvať kontajner. Samozrejme, dá sa pochopiť, že je to iba škrupina.
Spravidla nielen ukladáme zvukové a obrazové údaje, ale ukladáme aj metaúdaje synchronizácie videa. Napríklad titulky. Tento druh údajov budú spracované rôznymi programami, ale keď sa prenesú a uložia, všetky druhy údajov sú navzájom spojené.
- Spoločný formát kontajnera pre video :
AVI
: Bolo spustené v tom čase proti formátu quicktime (mov) a môže podporovať iba pevné zvukové súbory kódované s konštantnou bitovou rýchlosťou CBR.MOV
: je balík QuicktimeWMV
: Spoločnosť Microsoft bola uvedená na trh ako konkurencia na trhumkv
: Univerzálny baliaci program, s dobrou kompatibilitou a rôznymi platformami, s opravou chýb, s externými titulkamiflv
: Tento druh zapuzdrenia môže veľmi dobre chrániť pôvodnú adresu a nie je ľahké ho stiahnuť. Niektoré webové stránky na zdieľanie videa v súčasnosti používajú túto metódu zapuzdrenia.MP4
: Používa sa hlavne v balíku mpeg4, hlavne v mobilných telefónoch.
Po tretie, možnosť kompresie videa
Kompresia videa, ktorá kompresia údajov z týchto smerov? Podstata kompresie je v skutočnosti komprimovaná od začiatku nadbytočných informácií. Medzi videami existuje silná korelácia. To znamená, že sa vygeneruje Veľké množstvo nadbytočných informácií. Takáto nadbytočnosť zahŕňa priestorové nadbytočné informácie a časové nadbytočné informácie.
- Na odstránenie nadbytočných informácií v čase, vrátane nasledujúcich, je možné použiť technológiu medzisnímkového kódovania
- Pohybová kompenzácia : Kompenzáciu pohybu predpovedá predchádzajúca čiastočná grafika, aby kompenzovala súčasný čiastočný obraz. Je to veľmi efektívny spôsob, ako znížiť informácie o nadbytočnosti sekvencie rámcov.
- Pohybová reprezentácia : Obrázky z rôznych oblastí musia na opis informácií o pohybe používať rôzne vektory pohybu
- Odhad pohybu : Odhad pohybu je sada techník na extrahovanie informácií o pohybe z videosekvencie.
3.1 koncepcia kódovania
Rám IPB
Pri kompresii videa predstavuje každá snímka statický obraz. Pri vykonávaní skutočnej kompresie sa na zníženie dátovej kapacity používajú rôzne algoritmy. V skutočnosti sú rámce IPB najbežnejšie používané. cesta:
- Zarámujem : Intra picture, I snímka je zvyčajne prvá snímka každého GOP (technológia kompresie videa používaná MPEG). Po miernom stlačení. Ako referenčný bod pre náhodný prístup ho možno použiť ako statický obraz. Na rám I sa dá pozerať ako na komprimovaný produkt obrazu. Kompresia I frame dokáže dosiahnuť kompresný pomer 6: 1 bez výrazného rozmazania. Kompresia I frame odstráni nadbytočné informácie o video priestore.
- Rám P. : Prediktívny rámec, ktorý komprimuje kódovaný obraz prenášaných dát úplným odstránením časovej redundancie informácií predtým kódovaného rámca v postupnosti obrázkov.
- B rám : Obojsmerný interpolovaný predikčný rámec, ktorý zohľadňuje tak kódovaný rámec pred sekvenciou zdrojového obrazu, ako aj časovo nadbytočné informácie medzi kódovanými rámcami za sekvenciou zdrojového obrazu na kompresiu množstva prenášaných dát. Kódovaný obrázok.
Čitateľova perspektíva
Ak dostaneme svoje postupné uvažovanie z pohľadu kódovania, bude to ťažké. Ale ak uvažujeme z pohľadu dekódovania, nie je to také nepochopiteľné.
- Zarámujem Môže byť dekomprimovaný do jedného úplného obrazového obrazu pomocou algoritmu dekódovania videa. Preto sa I snímka odstráni z nadbytočných informácií videozáznamu v priestorovej dimenzii.
- Rám P. , je potrebné odkazovať na predchádzajúci I rámec alebo P rámec, aby sa mohol dekódovať do úplného obrazového obrazu
- B rám Ak chcete vygenerovať kompletný videozáznam, musíte odkazovať na predchádzajúci I rámec alebo P rámec a na ďalší P rámec.
- Preto nadbytočné informácie o video snímkach odstránené z P a B snímok v časovej dimenzii .
3.2 Dekódovanie PTS a DTS
DTS(Decoding Time Stamp)
Používa sa hlavne na dekódovanie videa
PTS(Presentation Time Stamp)
Používa sa hlavne na dekódovanie uzlov pre synchronizáciu a výstup videa.
Pri absencii B rámcov je výstupné poradie DTS a PST rovnaké. Pretože B snímky budú rušiť dekódovanie a poradie zobrazenia. Preto akonáhle existujú B rámce, PTS a DTS sa budú určite líšiť. V skutočnosti väčšina kodekov v norme nie je poradie kódovania a poradie vstupu konzistentné. Preto sú potrebné dve rôzne časové značky, PTS a DST.
3.3 Koncept GOP
Sada obrázkov vytvorených medzi dvoma I snímkami je GOP (skupina obrázkov).
Zvyčajne sa musí nastaviť, keď kódovač nastavuje parametre gop_size
Hodnota je vlastne počet snímok medzi dvoma I snímkami. Najväčšou kapacitou v skupine GOP je I rámec. Relatívne povedané, gop_size
Čím väčšie je nastavenie, tým lepšia je kvalita celého videozáznamu. Dekódovací koniec však musí správne dekódovať pôvodný obrázok z prvého prijatého rámca. Inak sa nedá správne dekódovať.