Baixe Compressão de Sinais de Voz: Representação Eficiente de Áudio e outras Notas de estudo em PDF para Engenharia Elétrica, somente na Docsity! compressão voz marcelo bj 1 compressão de sinais de voz compressão voz marcelo bj 2 o porque da compressão número sempre crescente de usuários e de serviços oferecidos. dados => exigem grandes recursos de memória e largura de faixa. transmissão de vídeo - voz - áudio em uma única plataforma. o número de parâmetros é proibitivamente grande para armazenar ou transmitir sem algum tipo de compressão. a capacidade dos sistemas continua aumentando, mas é limitada => ultrapassando a capacidade => erros. • Disco rígido: > 1 Tb ... • CDROM > 640 Mb ... • DVD > 4.7Gb • Blu-ray: 25/50/200 Gb • Pendrive: 16 / 32 / ... / 128 Gb compressão voz marcelo bj 5 Compressão da voz: em telefonia digital: permite mais usuários compartilhar o sistema, armazenamento: permite mensagens maiores serem armazenadas. • pcm – 64 kbps → vocoders – 10 kbps, • cd – 1.5 Mbps → mp3 – 128 kbps. Compressão de video: • dvd qualidade vhs: 250 Mbps → enquanto que um sinal de tv analógico ocupa uma banda de 6 MHz. • usa bitrate < 19 Mbps, • Mp4: de 8 até 15 Mbps, compressão voz marcelo bj 6 Taxas de transmissão e armazenagem Sinais de voz sobre canais telefônicos: 8000 Hz x 8 bits/amostra => 64 Kbps Trinta e dois canais telefônicos: 32 x 64 kbps => 2,048 Mbps Áudio qualidade CD: 44.1 kHz x 16 bits/amostra x 2 canais => 1.4 Mbps Vídeo digital (NTSC): 30 q x 485x720 pixels x 8 bits x 3 cores => 250 Mbps compressão voz marcelo bj 7 Armazenando três minutos de sinais de áudio em CD: 3 x 60 s. x 44.1 kHz x 2 bytes x 2 canais => 32 Mbytes Armazenado 1 hora (= 60 minutos) de áudio em CD: 60 x 60 s. x 44.1 kHz x 2 bytes x 2 canais => 635 Mbytes Armazenando um filme com duração de 90 minutos, sem considerar o áudio: 90 x 60 s. x 30 q x 485x720 x 1 byte x 3 cores => 170 Gbytes. Este último exemplo mostra que sem compressão é praticamente impossível armazenar ou transmitir um sinal de vídeo em uma mídia comum. OBS: alguns algoritmos de compressão podem reduzir em mais de dez vezes a quantidade de dados, sem grandes perdas na qualidade do sinal original. compressão voz marcelo bj 10 Largura de banda para sinais de tempo contínuo Voz para telefonia: Bw ≤ 4 kHz Taxa de amostragem: 8 kHz Radio AM: Bw ≤ 5 kHz Largura de faixa para transmissão: 10 kHz Radio FM: Bw ≤ 15 kHz Largura de faixa para transmissão: 200 kHz Sinais de áudio: Bw ≤ 20 kHz Taxa de amostragem: 44.1 kHz • 50 Hz x 294 x 3 = 44.1 kHz (2 x 294 linhas efetivas de vídeo) • 60 Hz x 245 x 3 = 44.1 kHz (2 x 245 linhas efetivas de vídeo) compressão voz marcelo bj 11 Tipos de codificação VOCODERS COD. HÍBRIDOS C. F. DE ONDA LPC Homomórfico Formante Codif. de Canal PCM DM/ADM APCM DPCM ADPCM SBC ATC Senoidal MBE RELP MPLPC CELP APC VSELP Sinais no domínio do tempo Analisar e sintetizar Tentam incorporar as vantagens dos CFO e vocoders compressão voz marcelo bj 12 codificadores de forma de onda compressão voz marcelo bj 15 Outros tipos de codificação digital DPCM ADPCM Modulação Delta Linear Modulação Delta Adaptativa Estudadas anteriormente em Comunicação Digital I Vocoders e codificadores híbridos
compressão voz marcelo bj
o 3
compressão voz marcelo bj 17 Vocoders Vocoders voice coders (codificadores da voz) O objetivo é codificar os aspectos da voz que são importantes para a percepção. Utiliza o modelo (LPC) de produção da voz. Analisa e sintetiza. Aplicações: mensagens. Transmissão de faixa estreita. Telefonia celular digital. Saída de computador. Telefonia na internet. O vocoder é utilizado particularmente para sinais de voz. compressão voz marcelo bj 20 o processo de fonação: O fluxo de ar, forçado pelos pulmões, passa pelo trato vocal e na saída dos lábios produz a fala. Para determinados sons (voiced - sonoros) as cordas vocais vibram (pitch) (abrem e fecham). Para outros sons (fricativos e plosivos) as cordas vocais permanecem abertas, não vibram. O formato do trato vocal determina o som que se ouve (fala). Conforme se fala o formato do trato vocal se modifica, produzindo diferentes sons. O formato do trato vocal varia levemente com o tempo, permanecendo relativamente constante entre 10ms e 100ms. O sinal da fala pode ser considerado quase-estacionário sobre intervalos de tempo curto (5 – 20 ms). compressão voz marcelo bj 21 exemplos de sinais de voz bom dia vocálico não vocálico compressão voz marcelo bj 22 exemplos de sinais de voz 0 0.005 0.01 0.015 0.02 0.025 -0.5 0 0.5 0 1000 2000 3000 4000 5000 -60 -40 -20 0 20 0 0.005 0.01 0.015 0.02 0.025 -0.4 -0.2 0 0.2 0.4 0 1000 2000 3000 4000 5000 -60 -40 -20 0 20 sinal sonoro (vocálico) (apresenta periodicidade) sinal não sonoro (não vocálico) (semelhante ao ruído) compressão voz marcelo bj 25 O sinal é analisado em blocos (segmentos) de 20ms a 30 ms. Parâmetros do modelo LPC: Coeficientes do filtro, Natureza do sinal de excitação, Ganho G. Relação entre os modelos físico e matemático: Trato vocal H(z): filtro LPC Fluxo de ar Sinal de excitação Vibração das cordas vocais Sinais sonoros (pitch) Cordas vocais abertas Sons plosivos e fricativos Volume do ar Ganho G compressão voz marcelo bj 26 Modelo LPC 0 0.005 0.01 0.015 0.02 0.025 -0.5 0 0.5 0 1000 2000 3000 4000 5000 6000 0 0.5 1 0 0.005 0.01 0.015 0.02 0.025 -0.2 0 0.2 Parâmetros do Modelo: Coeficientes [ak] do filtro. Natureza da excitação. • Pitch (sinais sonoros). • Ruído (sinais não- sonoros). Ganho (G). s(n) H(z)=1/A(z) e(n) compressão voz marcelo bj 27 Estimativa do sinal s(n) (análise LPC) O modelo de predição linear (análise) = -+=-= P k k knsansnŝnsne 1 zE zA zS 1 = Pnsansansanŝ P -------= 21 21 Sinal de erro e(n) Transformada z 1/A(z) e(n) ŝ(n) compressão voz marcelo bj 30 não temos disponível a função de autocorrelação do sinal, mas a partir do sinal podemos fazer uma estimativa da função de autocorrelação. P,,l;lnsns N lr̂ lN n s 0 1 1 0 =+= -- = -= -- - - Pr̂ r̂ r̂ Pa a a r̂Pr̂Pr̂ Pr̂r̂r̂ Pr̂r̂r̂ 2 1 2 1 021 201 110 na forma matricial temos: ss raR̂ -= compressão voz marcelo bj 31 Solução da equação anterior: utiliza as propriedades da matriz de autocorrelação. tem-se disponível algoritmos rápidos: de Levinson, Cholesky, ... Representação do modelo: S = [ s(0), s(1), s(2), ...., s(N-1) ] • N valores para representar o sinal (160); A = [ a1, a2, ..., aP, V/UV (pitch), G ] • P+2 valores para representar o sinal (12) Observe a redução no número de parâmetros compressão voz marcelo bj 32 Algoritmo de Levinson 11 121 1 00 1021 2 1 1 1 1 1 1 --= -=-= - --== = == - - - - = - i.ki i,,,jakaa i/jirairka r P,,ipara i i ji i j i j i j i ji i i Para i = P temos os coeficientes do filtro preditor de ordem P Codificação P = 10 Análise P = 12 a 16 compressão voz marcelo bj 35 LPC com excitação enriquecida Filtro Variante no Tempo VETOR 1 VETOR 2 MPLPC VETOR C CELP RPELPC s(n) 0, 1 ... L-1 RELP Objetivo: melhorar o sinal de excitação (resíduo) do LPC. Alguns esquemas: RELP (AaS) Residue... Codifica-se uma subbanda do resíduo (1kHz). MPLPC (AbS) codifica-se de 4 a 6 pulsos que minimizam o erro entre o sinal original e o reconstruído. RPELPC (AbS) codifica-se pulsos regularmente espaçados CELP (AbS) armazena-se vetores de excitação compressão voz marcelo bj 36 LPC multipulso Determina-se os coeficientes do filtro preditor. Determina-se uma sequência de pulsos para se aproximar melhor o resíduo. Vantagem: não é necessário determinar se a voz é sonora ou não Padrão: sistema GSM 13kbps 260 bits por quadro (20ms) -- 72 para os coeficientes e 188 para a excitação. Análise LPC análise dos pulsos coeficientes MUX compressão voz marcelo bj 37 Code-excited LPC Utiliza um livro de códigos para codificar o resíduo. Seleciona um vetor (palavra código) que minimiza o erro. Também é conhecido com VQ-LPC (vetor quantization). VSELP: (‘vector sum excited LPC’) A excitação é uma soma de palavras códigos sequencialmente determinadas Análise LPC síntese coeficientes + ganho MUX + Minimização do erro ‘codebook’ índice + - sinal compressão voz marcelo bj 40 Alguns padrões ADPCM PCM LPC-10 CELP MPLPC VSELP MPLPC Padrão QSELP LDCELP 64 32 2.4 8.0 9.6 7.95 13 kbps 13 PSTN 16 Padrão USA Skyphone Aeronautical Telephone Service * GSM - Celular Europeu Sistema celular USA Celular digital CDMA da Qualcom SBC ADPCM ADM 16 22 19.5 sistemas equivalentes * INMARSAT – maritime satelite compressão voz marcelo bj 41 Para consulta Kondoz A. M., ‘Digital Speech: Coding at low bit rate communication systems’, Wiley, 1995. Bellamy J. ‘Digital Telephony’ Wiley, 1991. Rabiner, L. R. & Schafer, R. W. “Digital Processing of Speech”Prentice Hall, 1978. International Telecommunication Union: www.itu.ch Andreas S. Spanias, “Speech coding: a tutorial review”, Proceedings of the IEEE vol. 82, nro. 10, oct. 1994. Lawrence R. Rabiner & Ronald W. Schafer, “Introduction to Digital Speech Processing”, Foundations and Trends in Signal Processing, 2007.