Diskret cosinustransform -
Discrete cosine transform

En diskret cosinustransform ( DCT ) uttrycker en ändlig sekvens av datapunkter i termer av en summa av cosinusfunktioner som oscillerar vid olika frekvenser . DCT, som först föreslogs av Nasir Ahmed 1972, är en mycket använd transformationsteknik inom signalbehandling och datakomprimering . Den används i de flesta digitala medier , inklusive digitala bilder (som JPEG och HEIF , där små högfrekventa komponenter kan kasseras), digital video (som MPEG och H.26x ), digitalt ljud (som Dolby Digital , MP3 och AAC ), digital-tv (såsom SDTV , HDTV och VOD ), digital radio (såsom AAC+ och DAB+ ) och talkodning (såsom AAC-LD , Siren och Opus ). DCT är också viktiga för många andra tillämpningar inom vetenskap och teknik , såsom digital signalbehandling , telekommunikationsanordningar , minskad nätverksbandbreddanvändning och spektralmetoder för numerisk lösning av partiella differentialekvationer .

Användningen av cosinus snarare än sinusfunktioner är avgörande för komprimering, eftersom det visar sig (som beskrivs nedan) att färre cosinusfunktioner behövs för att approximera en typisk signal , medan cosinus uttrycker ett särskilt val av gränsvillkor för differentialekvationer . I synnerhet är en DCT en Fourier-relaterad transform som liknar den diskreta Fourier-transformen (DFT), men använder endast reella tal . DCT: erna är i allmänhet relaterade till Fourier Series -koefficienter för en periodiskt och symmetriskt utökad sekvens medan DFTs är relaterade till Fourier Series -koefficienter med endast periodiskt förlängda sekvenser. DCT: er motsvarar DFT: er med ungefär dubbelt så lång längd, som fungerar på verkliga data med jämn symmetri (eftersom Fourier -transformationen av en verklig och jämn funktion är verklig och jämn), medan i vissa varianter skiftas in- och/eller utdata med hälften ett prov. Det finns åtta vanliga DCT -varianter, varav fyra är vanliga.

Den vanligaste varianten av diskret cosinustransform är typ II DCT, som ofta kallas helt enkelt "DCT". Detta var den ursprungliga DCT som först föreslogs av Ahmed. Dess omvända, typ III-DCT, kallas på motsvarande sätt ofta helt enkelt "den inversa DCT" eller "IDCT". Två relaterade transformationer är den diskreta sinustransformen (DST), som motsvarar en DFT av verkliga och udda funktioner, och den modifierade diskreta kosinustransformen (MDCT), som är baserad på en DCT med överlappande data. Flerdimensionella DCT (MD DCT) är utvecklade för att utvidga konceptet DCT till MD -signaler. Det finns flera algoritmer för att beräkna MD DCT. En mängd snabba algoritmer har utvecklats för att minska beräkningskomplexiteten vid implementering av DCT. En av dessa är heltalet DCT (IntDCT), ett heltal approximation av standard DCT, som används i flera ISO/IEC och ITU-T internationella standarder.

DCT -komprimering, även känd som blockkomprimering, komprimerar data i uppsättningar av diskreta DCT -block. DCT -block kan ha ett antal storlekar, inklusive 8x8 pixlar för standard DCT, och varierade heltal DCT -storlekar mellan 4x4 och 32x32 pixlar. DCT har en stark "energipackning" -egenskap som kan uppnå hög kvalitet vid höga datakomprimeringsförhållanden . Emellertid kan blockiga komprimeringsartefakter visas när tung DCT -komprimering appliceras.

Historia

Nasir Ahmed , uppfinnaren av den diskreta cosinustransformen (DCT), som han först föreslog 1972.

Den diskreta cosinustransformen (DCT) var först tänkt av Nasir Ahmed , medan han arbetade vid Kansas State University , och han föreslog konceptet till National Science Foundation 1972. Han avsåg ursprungligen DCT för bildkomprimering . Ahmed utvecklade en praktisk DCT -algoritm med sin doktorand T. Natarajan och vännen KR Rao vid University of Texas i Arlington 1973, och de fann att det var den mest effektiva algoritmen för bildkomprimering. De presenterade sina resultat i ett papper från januari 1974 med titeln "Discrete Cosine Transform". Den beskrev vad som nu kallas typ-II DCT (DCT-II), liksom typ-III invers DCT (IDCT). Det var en riktmärkepublikation och har nämnts som en grundläggande utveckling i tusentals verk sedan publiceringen. Det grundläggande forskningsarbetet och händelser som ledde till utvecklingen av DCT sammanfattades i en senare publikation av Ahmed, "How I Came Up with the Discrete Cosine Transform".

Sedan introduktionen 1974 har det gjorts betydande forskning om DCT. År 1977 publicerade Wen-Hsiung Chen ett papper med C. Harrison Smith och Stanley C. Fralick som presenterade en snabb DCT-algoritm, och han grundade Compression Labs för att kommersialisera DCT-teknik. Ytterligare utveckling inkluderar ett papper från 1978 av MJ Narasimha och AM Peterson, och ett papper från 1984 av BG Lee. Dessa forskningsartiklar, tillsammans med det ursprungliga 1974 års Ahmed -papper och 1977 års Chen -papper, citerades av Joint Photographic Experts Group som grunden för JPEG : s förlorade bildkomprimeringsalgoritm 1992.

I 1975, John A. Röse och Guner S. Robinson anpassat DCT för inter-frame rörelsekompenserade videokodning . De experimenterade med DCT och den snabba Fourier-transformen (FFT), utvecklade inter-frame hybridkodare för båda och fann att DCT är den mest effektiva på grund av dess minskade komplexitet, som kan komprimera bilddata ner till 0,25- bitar per pixel för en videotelefonscene med bildkvalitet som kan jämföras med en inomramskodare som kräver 2-bitar per pixel. DCT tillämpades på videokodning av Wen-Hsiung Chen, som utvecklade en snabb DCT-algoritm med CH Smith och SC Fralick 1977, och grundade Compression Labs för att kommersialisera DCT-teknik. År 1979 vidareutvecklade Anil K. Jain och Jaswant R. Jain rörelsekompenserad DCT-videokompression, även kallad blockrörelsekompensation. Detta ledde till att Chen utvecklade en praktisk videokomprimeringsalgoritm, kallad rörelsekompenserad DCT eller adaptiv scenkodning, 1981. Rörelsekompenserad DCT blev senare standardkodningsteknik för videokomprimering från slutet av 1980-talet och framåt.

Heltalet DCT används i Advanced Video Coding (AVC), som introducerades 2003, och High Efficiency Video Coding (HEVC), som introducerades 2013. Heltalet DCT används också i High Efficiency Image Format (HEIF), som använder en delmängd av HEVC -videokodningsformatet för kodning av stillbilder.

En DCT -variant, den modifierade diskreta cosinustransformen (MDCT), utvecklades av John P. Princen, AW Johnson och Alan B. Bradley vid University of Surrey 1987, efter tidigare arbete av Princen och Bradley 1986. MDCT används i de flesta moderna ljudkomprimeringsformat , till exempel Dolby Digital (AC-3), MP3 (som använder en hybrid DCT- FFT- algoritm), Advanced Audio Coding (AAC) och Vorbis ( Ogg ).

Den diskreta sinustransformen (DST) härleddes från DCT genom att ersätta Neumann -tillståndet vid x = 0 med ett Dirichlet -tillstånd . DST beskrevs i 1974 års DCT -tidning av Ahmed, Natarajan och Rao. En typ-I DST (DST-I) beskrevs senare av Anil K. Jain 1976, och en typ-II DST (DST-II) beskrevs sedan av HB Kekra och JK Solanka 1978.

Nasir Ahmed utvecklade också en förlustfri DCT -algoritm med Giridhar Mandyam och Neeraj Magotra vid University of New Mexico 1995. Detta gör att DCT -tekniken kan användas för förlustfri komprimering av bilder. Det är en modifiering av den ursprungliga DCT -algoritmen och innehåller element av invers DCT- och delta -modulering . Det är en mer effektiv förlustfri komprimeringsalgoritm än entropikodning . Förlustfri DCT är också känd som LDCT.

Ansökningar

DCT är den mest använda transformeringstekniken vid signalbehandling och den överlägset mest använda linjära transformationen i datakomprimering . Okomprimerade digitala medier såväl som förlustfri komprimering hade opraktiskt höga krav på minne och bandbredd , vilket reducerades avsevärt med den mycket effektiva DCT lossy-komprimeringstekniken , som kan uppnå datakomprimeringsförhållanden från 8: 1 till 14: 1 för nära studiokvalitet, upp till 100: 1 för innehåll av acceptabel kvalitet. DCT-komprimeringsstandarder används i digitala mediatekniker, såsom digitala bilder , digitala foton , digital video , strömmande media , digital-tv , strömmande tv , video-on-demand (VOD), digital bio , HD-video (HD-video) och HD-tv .

DCT, och i synnerhet DCT-II, används ofta vid signal- och bildbehandling, särskilt för förlustkomprimering, eftersom den har en stark "energipackning" -egenskap: i typiska applikationer tenderar det mesta av signalinformationen att koncentreras i några lågfrekventa komponenter i DCT. För starkt korrelerade Markov-processer kan DCT närma sig komprimeringseffektiviteten för Karhunen-Loève-transformen (vilket är optimalt i avkorrelations bemärkelse). Som förklaras nedan härstammar detta från de gränsförhållanden som är implicita i cosinusfunktionerna.

DCT används också i stor utsträckning för att lösa partiella differentialekvationer med spektrala metoder , där de olika varianterna av DCT motsvarar något olika jämna/udda gränsförhållanden i gruppens två ändar.

DCT är också nära besläktade med Chebyshev -polynom , och snabba DCT -algoritmer (nedan) används vid Chebyshevs approximation av godtyckliga funktioner efter serier av Chebyshev -polynom, till exempel i Clenshaw – Curtis kvadratur .

.

Allmänna tillämpningar

DCT används ofta i många applikationer, vilket inkluderar följande.

Standarder för visuella medier i DCT

. I det här fallet är det typiskt 8 och DCT-II-formeln tillämpas på varje rad och kolumn i blocket. Resultatet är en 8 × 8-transformkoefficientmatris där elementet (uppe till vänster) är DC-komponenten (nollfrekvens) och poster med ökande vertikala och horisontella indexvärden representerar högre vertikala och horisontella rumsfrekvenser.