Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

Compressão de Sinais de Voz: Representação Eficiente de Áudio, Notas de estudo de Engenharia Elétrica

Este documento aborda a compressão de sinais de voz, um processo essencial para economizar recursos de memória e largura de faixa em sistemas de telecomunicações e armazenamento digital. O texto explica por que a compressão é necessária, como funciona e quais algoritmos são usados para compressão de voz, como celp, mplpc, jpeg, mpeg e mp3. Além disso, são discutidos os conceitos de taxas de transmissão e armazenamento, exemplos de sinais de voz e modelos de produção da voz.

Tipologia: Notas de estudo

2017

Compartilhado em 10/11/2017

marcelo-bj-prof-aposentado-1
marcelo-bj-prof-aposentado-1 🇧🇷

4.4

(11)

77 documentos

1 / 41

Documentos relacionados


Pré-visualização parcial do texto

Baixe Compressão de Sinais de Voz: Representação Eficiente de Áudio e outras Notas de estudo em PDF para Engenharia Elétrica, somente na Docsity! compressão voz marcelo bj 1 compressão de sinais de voz compressão voz marcelo bj 2 o porque da compressão  número sempre crescente de usuários e de serviços oferecidos.  dados => exigem grandes recursos de memória e largura de faixa.  transmissão de vídeo - voz - áudio em uma única plataforma.  o número de parâmetros é proibitivamente grande para armazenar ou transmitir sem algum tipo de compressão.  a capacidade dos sistemas continua aumentando, mas é limitada  => ultrapassando a capacidade => erros. • Disco rígido: > 1 Tb ... • CDROM > 640 Mb ... • DVD > 4.7Gb • Blu-ray: 25/50/200 Gb • Pendrive: 16 / 32 / ... / 128 Gb compressão voz marcelo bj 5  Compressão da voz:  em telefonia digital: permite mais usuários compartilhar o sistema,  armazenamento: permite mensagens maiores serem armazenadas. • pcm – 64 kbps → vocoders – 10 kbps, • cd – 1.5 Mbps → mp3 – 128 kbps.  Compressão de video: • dvd qualidade vhs: 250 Mbps → enquanto que um sinal de tv analógico ocupa uma banda de 6 MHz. • usa bitrate < 19 Mbps, • Mp4: de 8 até 15 Mbps, compressão voz marcelo bj 6 Taxas de transmissão e armazenagem  Sinais de voz sobre canais telefônicos:  8000 Hz x 8 bits/amostra => 64 Kbps  Trinta e dois canais telefônicos:  32 x 64 kbps => 2,048 Mbps  Áudio qualidade CD:  44.1 kHz x 16 bits/amostra x 2 canais => 1.4 Mbps  Vídeo digital (NTSC):  30 q x 485x720 pixels x 8 bits x 3 cores => 250 Mbps compressão voz marcelo bj 7  Armazenando três minutos de sinais de áudio em CD: 3 x 60 s. x 44.1 kHz x 2 bytes x 2 canais => 32 Mbytes  Armazenado 1 hora (= 60 minutos) de áudio em CD: 60 x 60 s. x 44.1 kHz x 2 bytes x 2 canais => 635 Mbytes  Armazenando um filme com duração de 90 minutos, sem considerar o áudio:  90 x 60 s. x 30 q x 485x720 x 1 byte x 3 cores => 170 Gbytes.  Este último exemplo mostra que sem compressão é praticamente impossível armazenar ou transmitir um sinal de vídeo em uma mídia comum.  OBS: alguns algoritmos de compressão podem reduzir em mais de dez vezes a quantidade de dados, sem grandes perdas na qualidade do sinal original. compressão voz marcelo bj 10 Largura de banda para sinais de tempo contínuo  Voz para telefonia: Bw ≤ 4 kHz  Taxa de amostragem: 8 kHz  Radio AM: Bw ≤ 5 kHz  Largura de faixa para transmissão: 10 kHz  Radio FM: Bw ≤ 15 kHz  Largura de faixa para transmissão: 200 kHz  Sinais de áudio: Bw ≤ 20 kHz  Taxa de amostragem: 44.1 kHz • 50 Hz x 294 x 3 = 44.1 kHz (2 x 294 linhas efetivas de vídeo) • 60 Hz x 245 x 3 = 44.1 kHz (2 x 245 linhas efetivas de vídeo) compressão voz marcelo bj 11 Tipos de codificação VOCODERS COD. HÍBRIDOS C. F. DE ONDA LPC Homomórfico Formante Codif. de Canal PCM DM/ADM APCM DPCM ADPCM SBC ATC Senoidal MBE RELP MPLPC CELP APC VSELP Sinais no domínio do tempo Analisar e sintetizar Tentam incorporar as vantagens dos CFO e vocoders compressão voz marcelo bj 12 codificadores de forma de onda compressão voz marcelo bj 15 Outros tipos de codificação digital  DPCM  ADPCM  Modulação Delta Linear  Modulação Delta Adaptativa  Estudadas anteriormente em Comunicação Digital I Vocoders e codificadores híbridos compressão voz marcelo bj o 3 compressão voz marcelo bj 17 Vocoders  Vocoders  voice coders (codificadores da voz)  O objetivo é codificar os aspectos da voz que são importantes para a percepção.  Utiliza o modelo (LPC) de produção da voz.  Analisa e sintetiza.  Aplicações:  mensagens.  Transmissão de faixa estreita.  Telefonia celular digital.  Saída de computador.  Telefonia na internet.  O vocoder é utilizado particularmente para sinais de voz. compressão voz marcelo bj 20  o processo de fonação:  O fluxo de ar, forçado pelos pulmões, passa pelo trato vocal e na saída dos lábios produz a fala.  Para determinados sons (voiced - sonoros) as cordas vocais vibram (pitch) (abrem e fecham).  Para outros sons (fricativos e plosivos) as cordas vocais permanecem abertas, não vibram.  O formato do trato vocal determina o som que se ouve (fala).  Conforme se fala o formato do trato vocal se modifica, produzindo diferentes sons.  O formato do trato vocal varia levemente com o tempo, permanecendo relativamente constante entre 10ms e 100ms.  O sinal da fala pode ser considerado quase-estacionário sobre intervalos de tempo curto (5 – 20 ms). compressão voz marcelo bj 21 exemplos de sinais de voz bom dia vocálico não vocálico compressão voz marcelo bj 22 exemplos de sinais de voz 0 0.005 0.01 0.015 0.02 0.025 -0.5 0 0.5 0 1000 2000 3000 4000 5000 -60 -40 -20 0 20 0 0.005 0.01 0.015 0.02 0.025 -0.4 -0.2 0 0.2 0.4 0 1000 2000 3000 4000 5000 -60 -40 -20 0 20 sinal sonoro (vocálico) (apresenta periodicidade) sinal não sonoro (não vocálico) (semelhante ao ruído) compressão voz marcelo bj 25  O sinal é analisado em blocos (segmentos) de 20ms a 30 ms.  Parâmetros do modelo LPC:  Coeficientes do filtro,  Natureza do sinal de excitação,  Ganho G. Relação entre os modelos físico e matemático: Trato vocal H(z): filtro LPC Fluxo de ar Sinal de excitação Vibração das cordas vocais Sinais sonoros (pitch) Cordas vocais abertas Sons plosivos e fricativos Volume do ar Ganho G compressão voz marcelo bj 26 Modelo LPC 0 0.005 0.01 0.015 0.02 0.025 -0.5 0 0.5 0 1000 2000 3000 4000 5000 6000 0 0.5 1 0 0.005 0.01 0.015 0.02 0.025 -0.2 0 0.2  Parâmetros do Modelo:  Coeficientes [ak] do filtro.  Natureza da excitação. • Pitch (sinais sonoros). • Ruído (sinais não- sonoros).  Ganho (G). s(n) H(z)=1/A(z) e(n) compressão voz marcelo bj 27  Estimativa do sinal s(n) (análise LPC)  O modelo de predição linear (análise)           = -+=-= P k k knsansnŝnsne 1      zE zA zS 1 =        Pnsansansanŝ P -------= 21 21  Sinal de erro e(n)  Transformada z 1/A(z) e(n) ŝ(n) compressão voz marcelo bj 30  não temos disponível a função de autocorrelação do sinal, mas a partir do sinal podemos fazer uma estimativa da função de autocorrelação.       P,,l;lnsns N lr̂ lN n s 0 1 1 0 =+=  -- =                                           -=                         -- - - Pr̂ r̂ r̂ Pa a a r̂Pr̂Pr̂ Pr̂r̂r̂ Pr̂r̂r̂      2 1 2 1 021 201 110  na forma matricial temos: ss raR̂  -= compressão voz marcelo bj 31  Solução da equação anterior:  utiliza as propriedades da matriz de autocorrelação.  tem-se disponível algoritmos rápidos: de Levinson, Cholesky, ...  Representação do modelo:  S = [ s(0), s(1), s(2), ...., s(N-1) ] • N valores para representar o sinal (160);  A = [ a1, a2, ..., aP, V/UV (pitch), G ] • P+2 valores para representar o sinal (12)  Observe a redução no número de parâmetros compressão voz marcelo bj 32  Algoritmo de Levinson                11 121 1 00 1021 2 1 1 1 1 1 1 --= -=-= -         --== = == - - - - = - i.ki i,,,jakaa i/jirairka r P,,ipara i i ji i j i j i j i ji i i    Para i = P temos os coeficientes do filtro preditor de ordem P  Codificação P = 10  Análise P = 12 a 16 compressão voz marcelo bj 35 LPC com excitação enriquecida Filtro Variante no Tempo VETOR 1 VETOR 2 MPLPC VETOR C CELP RPELPC s(n) 0, 1 ... L-1 RELP  Objetivo: melhorar o sinal de excitação (resíduo) do LPC.  Alguns esquemas:  RELP (AaS) Residue...  Codifica-se uma subbanda do resíduo (1kHz).  MPLPC (AbS)  codifica-se de 4 a 6 pulsos que minimizam o erro entre o sinal original e o reconstruído.  RPELPC (AbS)  codifica-se pulsos regularmente espaçados  CELP (AbS)  armazena-se vetores de excitação compressão voz marcelo bj 36 LPC multipulso  Determina-se os coeficientes do filtro preditor.  Determina-se uma sequência de pulsos para se aproximar melhor o resíduo.  Vantagem:  não é necessário determinar se a voz é sonora ou não  Padrão:  sistema GSM 13kbps 260 bits por quadro (20ms) -- 72 para os coeficientes e 188 para a excitação. Análise LPC análise dos pulsos coeficientes MUX compressão voz marcelo bj 37 Code-excited LPC  Utiliza um livro de códigos para codificar o resíduo.  Seleciona um vetor (palavra código) que minimiza o erro.  Também é conhecido com VQ-LPC (vetor quantization).  VSELP: (‘vector sum excited LPC’)  A excitação é uma soma de palavras códigos sequencialmente determinadas Análise LPC síntese coeficientes + ganho MUX + Minimização do erro ‘codebook’ índice + - sinal compressão voz marcelo bj 40 Alguns padrões ADPCM PCM LPC-10 CELP MPLPC VSELP MPLPC Padrão QSELP LDCELP 64 32 2.4 8.0 9.6 7.95 13 kbps 13 PSTN 16 Padrão USA Skyphone Aeronautical Telephone Service * GSM - Celular Europeu Sistema celular USA Celular digital CDMA da Qualcom SBC ADPCM ADM 16 22 19.5 sistemas equivalentes * INMARSAT – maritime satelite compressão voz marcelo bj 41 Para consulta  Kondoz A. M., ‘Digital Speech: Coding at low bit rate communication systems’, Wiley, 1995.  Bellamy J. ‘Digital Telephony’ Wiley, 1991.  Rabiner, L. R. & Schafer, R. W. “Digital Processing of Speech”Prentice Hall, 1978.  International Telecommunication Union: www.itu.ch  Andreas S. Spanias, “Speech coding: a tutorial review”, Proceedings of the IEEE vol. 82, nro. 10, oct. 1994.  Lawrence R. Rabiner & Ronald W. Schafer, “Introduction to Digital Speech Processing”, Foundations and Trends in Signal Processing, 2007.
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved