Prepare-se para as provas
Obter pontos
Guias e Dicas

Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity

Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium

Guias e Dicas

Venda na Docsity

Entrar

Cadastre-se

Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity

Encontrar documentos

Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity

Pesquisar documentos Store

Os melhores documentos à venda: Trabalhos de alunos formados

Videoaulas

Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade

QuizNEW

Responda perguntas de provas passadas e avalie sua preparação.

Pesquise entre todos os recursos de estudo

Docsity AINEW

Resuma seus documentos, faça perguntas, converta-os em questionários e mapas conceituais

TCC e ENEM 2024

Estude com provas passadas, TCCs e dicas úteis

Explorar perguntas

Tire suas dúvidas lendo as respostas dadas por outros alunos como você.

Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium

Compartilhe documentos

20 Pontos

Por cada documento compartilhado

Responda às perguntas

5 Pontos

por cada resposta enviada (máx. 1 por dia)

Todas as maneiras de obter pontos grátis

Ganhe pontos imediatamente

Escolha um Plano Premium com todos os pontos que precisa

Oportunidades de estudo

Busque ofertas educacionaisNEW

Entre em contato com as melhores universidades do mundo e escolha a sua jornada de estudos

Comunidade

Pergunte à comunidade

Peça ajuda à comunidade e tire suas dúvidas relacionadas ao estudo

Ranking universidades

Descubra as melhores universidades em seu país de acordo com os usuários da Docsity

Guias grátis

Os eBooks que salvam estudantes!

Baixe gratuitamente nossos guias de estudo, métodos para diminuir a ansiedade, dicas de TCC preparadas pelos professores da Docsity

Do blog

Vá para o blog

Compressão de Sinais de Voz: Representação Eficiente de Áudio, Notas de estudo de Engenharia Elétrica

Universidade de São Paulo (USP)Engenharia Elétrica

Este documento aborda a compressão de sinais de voz, um processo essencial para economizar recursos de memória e largura de faixa em sistemas de telecomunicações e armazenamento digital. O texto explica por que a compressão é necessária, como funciona e quais algoritmos são usados para compressão de voz, como celp, mplpc, jpeg, mpeg e mp3. Além disso, são discutidos os conceitos de taxas de transmissão e armazenamento, exemplos de sinais de voz e modelos de produção da voz.

Tipologia: Notas de estudo

2017

Compartilhado em 10/11/2017

marcelo-bj-prof-aposentado-1 🇧🇷

4.4

(11)

77 documentos

1 / 41

Documentos relacionados

Apostila de Libras, Língua de Sinais.

(1)

Relatório de sinal de audio com modulo e fase

(3)

Comunicação Digital II: Técnicas Avançadas de Compressão e Sistemas

Capítulo 1 Representação de Sinais e Sistem

Fundamentos da Eletrônica Digital: Sistemas de Numeração e Representação de Sinais

Codificaçao de Huffman: teoria e algoritmos

Trabalho de CPS (Codificação e compressao de dados)

(1)

a Análise de Sinais no Domínio da Frequência Parte1

Audiolivros: O Papel da Voz, Sonoplastia e Música na Experiência de Aprender

Amplificação e processamento de sinais de áudio utilizando plataforma psoc1

Interface em Python para Reamostragem e Requantização de Sinais de Áudio

(1)

Balanceamento de Sinais: Técnica para Reduzir Ruídos em Sistemas de Áudio

Regras de sinais começo básico

2a pratica sinais e sistemas - Amostragem e analise em frequencia

Processamento do Sinal de Voz

Protocolo de Validação da Compressão Direta de Comprimidos de Glibenclamida 5mg

Apresentação de Sinais em Libras: Família

Análise de Representações Eficientes de Fórmulas Lógicas Proposicionais em Java

Transformada Z de Sinais Discretos

Análise de Sinais Discretos: Transformada de Fourier Discreta (DTFS)

Processamento Digital de Sinais: Introdução e Fundamentos

Introdução à Eletrônica: Sinais, Transformada de Fourier e Amostragem

Estimação Espectral e Predição Linear de Sinais

Fourier: Resposta de Sistemas LIT e Sinais Periódicos

Questões de Engenharia Elétrica: Sistemas de Tempo Contínuo e Transferência de Sinais

A Família Bélier: A Linguagem dos Sinais e a Comunidade Surda

Processamento de Sinais em Detectores de Radiação: Impedância, Amplificadores e Espectro

Gráfico de Fluxo de Sinais

Libras linguagem de sinais

Análise de Amplificadores Transistorizados com Pequenos Sinais

Pré-visualização parcial do texto

Baixe Compressão de Sinais de Voz: Representação Eficiente de Áudio e outras Notas de estudo em PDF para Engenharia Elétrica, somente na Docsity! compressão voz marcelo bj 1 compressão de sinais de voz compressão voz marcelo bj 2 o porque da compressão  número sempre crescente de usuários e de serviços oferecidos.  dados => exigem grandes recursos de memória e largura de faixa.  transmissão de vídeo - voz - áudio em uma única plataforma.  o número de parâmetros é proibitivamente grande para armazenar ou transmitir sem algum tipo de compressão.  a capacidade dos sistemas continua aumentando, mas é limitada  => ultrapassando a capacidade => erros. • Disco rígido: > 1 Tb ... • CDROM > 640 Mb ... • DVD > 4.7Gb • Blu-ray: 25/50/200 Gb • Pendrive: 16 / 32 / ... / 128 Gb compressão voz marcelo bj 5  Compressão da voz:  em telefonia digital: permite mais usuários compartilhar o sistema,  armazenamento: permite mensagens maiores serem armazenadas. • pcm – 64 kbps → vocoders – 10 kbps, • cd – 1.5 Mbps → mp3 – 128 kbps.  Compressão de video: • dvd qualidade vhs: 250 Mbps → enquanto que um sinal de tv analógico ocupa uma banda de 6 MHz. • usa bitrate < 19 Mbps, • Mp4: de 8 até 15 Mbps, compressão voz marcelo bj 6 Taxas de transmissão e armazenagem  Sinais de voz sobre canais telefônicos:  8000 Hz x 8 bits/amostra => 64 Kbps  Trinta e dois canais telefônicos:  32 x 64 kbps => 2,048 Mbps  Áudio qualidade CD:  44.1 kHz x 16 bits/amostra x 2 canais => 1.4 Mbps  Vídeo digital (NTSC):  30 q x 485x720 pixels x 8 bits x 3 cores => 250 Mbps compressão voz marcelo bj 7  Armazenando três minutos de sinais de áudio em CD: 3 x 60 s. x 44.1 kHz x 2 bytes x 2 canais => 32 Mbytes  Armazenado 1 hora (= 60 minutos) de áudio em CD: 60 x 60 s. x 44.1 kHz x 2 bytes x 2 canais => 635 Mbytes  Armazenando um filme com duração de 90 minutos, sem considerar o áudio:  90 x 60 s. x 30 q x 485x720 x 1 byte x 3 cores => 170 Gbytes.  Este último exemplo mostra que sem compressão é praticamente impossível armazenar ou transmitir um sinal de vídeo em uma mídia comum.  OBS: alguns algoritmos de compressão podem reduzir em mais de dez vezes a quantidade de dados, sem grandes perdas na qualidade do sinal original. compressão voz marcelo bj 10 Largura de banda para sinais de tempo contínuo  Voz para telefonia: Bw ≤ 4 kHz  Taxa de amostragem: 8 kHz  Radio AM: Bw ≤ 5 kHz  Largura de faixa para transmissão: 10 kHz  Radio FM: Bw ≤ 15 kHz  Largura de faixa para transmissão: 200 kHz  Sinais de áudio: Bw ≤ 20 kHz  Taxa de amostragem: 44.1 kHz • 50 Hz x 294 x 3 = 44.1 kHz (2 x 294 linhas efetivas de vídeo) • 60 Hz x 245 x 3 = 44.1 kHz (2 x 245 linhas efetivas de vídeo) compressão voz marcelo bj 11 Tipos de codificação VOCODERS COD. HÍBRIDOS C. F. DE ONDA LPC Homomórfico Formante Codif. de Canal PCM DM/ADM APCM DPCM ADPCM SBC ATC Senoidal MBE RELP MPLPC CELP APC VSELP Sinais no domínio do tempo Analisar e sintetizar Tentam incorporar as vantagens dos CFO e vocoders compressão voz marcelo bj 12 codificadores de forma de onda compressão voz marcelo bj 15 Outros tipos de codificação digital  DPCM  ADPCM  Modulação Delta Linear  Modulação Delta Adaptativa  Estudadas anteriormente em Comunicação Digital I Vocoders e codificadores híbridos compressão voz marcelo bj o 3 compressão voz marcelo bj 17 Vocoders  Vocoders  voice coders (codificadores da voz)  O objetivo é codificar os aspectos da voz que são importantes para a percepção.  Utiliza o modelo (LPC) de produção da voz.  Analisa e sintetiza.  Aplicações:  mensagens.  Transmissão de faixa estreita.  Telefonia celular digital.  Saída de computador.  Telefonia na internet.  O vocoder é utilizado particularmente para sinais de voz. compressão voz marcelo bj 20  o processo de fonação:  O fluxo de ar, forçado pelos pulmões, passa pelo trato vocal e na saída dos lábios produz a fala.  Para determinados sons (voiced - sonoros) as cordas vocais vibram (pitch) (abrem e fecham).  Para outros sons (fricativos e plosivos) as cordas vocais permanecem abertas, não vibram.  O formato do trato vocal determina o som que se ouve (fala).  Conforme se fala o formato do trato vocal se modifica, produzindo diferentes sons.  O formato do trato vocal varia levemente com o tempo, permanecendo relativamente constante entre 10ms e 100ms.  O sinal da fala pode ser considerado quase-estacionário sobre intervalos de tempo curto (5 – 20 ms). compressão voz marcelo bj 21 exemplos de sinais de voz bom dia vocálico não vocálico compressão voz marcelo bj 22 exemplos de sinais de voz 0 0.005 0.01 0.015 0.02 0.025 -0.5 0 0.5 0 1000 2000 3000 4000 5000 -60 -40 -20 0 20 0 0.005 0.01 0.015 0.02 0.025 -0.4 -0.2 0 0.2 0.4 0 1000 2000 3000 4000 5000 -60 -40 -20 0 20 sinal sonoro (vocálico) (apresenta periodicidade) sinal não sonoro (não vocálico) (semelhante ao ruído) compressão voz marcelo bj 25  O sinal é analisado em blocos (segmentos) de 20ms a 30 ms.  Parâmetros do modelo LPC:  Coeficientes do filtro,  Natureza do sinal de excitação,  Ganho G. Relação entre os modelos físico e matemático: Trato vocal H(z): filtro LPC Fluxo de ar Sinal de excitação Vibração das cordas vocais Sinais sonoros (pitch) Cordas vocais abertas Sons plosivos e fricativos Volume do ar Ganho G compressão voz marcelo bj 26 Modelo LPC 0 0.005 0.01 0.015 0.02 0.025 -0.5 0 0.5 0 1000 2000 3000 4000 5000 6000 0 0.5 1 0 0.005 0.01 0.015 0.02 0.025 -0.2 0 0.2  Parâmetros do Modelo:  Coeficientes [ak] do filtro.  Natureza da excitação. • Pitch (sinais sonoros). • Ruído (sinais não- sonoros).  Ganho (G). s(n) H(z)=1/A(z) e(n) compressão voz marcelo bj 27  Estimativa do sinal s(n) (análise LPC)  O modelo de predição linear (análise)           = -+=-= P k k knsansnŝnsne 1      zE zA zS 1 =        Pnsansansanŝ P -------= 21 21  Sinal de erro e(n)  Transformada z 1/A(z) e(n) ŝ(n) compressão voz marcelo bj 30  não temos disponível a função de autocorrelação do sinal, mas a partir do sinal podemos fazer uma estimativa da função de autocorrelação.       P,,l;lnsns N lr̂ lN n s 0 1 1 0 =+=  -- =                                           -=                         -- - - Pr̂ r̂ r̂ Pa a a r̂Pr̂Pr̂ Pr̂r̂r̂ Pr̂r̂r̂      2 1 2 1 021 201 110  na forma matricial temos: ss raR̂  -= compressão voz marcelo bj 31  Solução da equação anterior:  utiliza as propriedades da matriz de autocorrelação.  tem-se disponível algoritmos rápidos: de Levinson, Cholesky, ...  Representação do modelo:  S = [ s(0), s(1), s(2), ...., s(N-1) ] • N valores para representar o sinal (160);  A = [ a1, a2, ..., aP, V/UV (pitch), G ] • P+2 valores para representar o sinal (12)  Observe a redução no número de parâmetros compressão voz marcelo bj 32  Algoritmo de Levinson                11 121 1 00 1021 2 1 1 1 1 1 1 --= -=-= -         --== = == - - - - = - i.ki i,,,jakaa i/jirairka r P,,ipara i i ji i j i j i j i ji i i    Para i = P temos os coeficientes do filtro preditor de ordem P  Codificação P = 10  Análise P = 12 a 16 compressão voz marcelo bj 35 LPC com excitação enriquecida Filtro Variante no Tempo VETOR 1 VETOR 2 MPLPC VETOR C CELP RPELPC s(n) 0, 1 ... L-1 RELP  Objetivo: melhorar o sinal de excitação (resíduo) do LPC.  Alguns esquemas:  RELP (AaS) Residue...  Codifica-se uma subbanda do resíduo (1kHz).  MPLPC (AbS)  codifica-se de 4 a 6 pulsos que minimizam o erro entre o sinal original e o reconstruído.  RPELPC (AbS)  codifica-se pulsos regularmente espaçados  CELP (AbS)  armazena-se vetores de excitação compressão voz marcelo bj 36 LPC multipulso  Determina-se os coeficientes do filtro preditor.  Determina-se uma sequência de pulsos para se aproximar melhor o resíduo.  Vantagem:  não é necessário determinar se a voz é sonora ou não  Padrão:  sistema GSM 13kbps 260 bits por quadro (20ms) -- 72 para os coeficientes e 188 para a excitação. Análise LPC análise dos pulsos coeficientes MUX compressão voz marcelo bj 37 Code-excited LPC  Utiliza um livro de códigos para codificar o resíduo.  Seleciona um vetor (palavra código) que minimiza o erro.  Também é conhecido com VQ-LPC (vetor quantization).  VSELP: (‘vector sum excited LPC’)  A excitação é uma soma de palavras códigos sequencialmente determinadas Análise LPC síntese coeficientes + ganho MUX + Minimização do erro ‘codebook’ índice + - sinal compressão voz marcelo bj 40 Alguns padrões ADPCM PCM LPC-10 CELP MPLPC VSELP MPLPC Padrão QSELP LDCELP 64 32 2.4 8.0 9.6 7.95 13 kbps 13 PSTN 16 Padrão USA Skyphone Aeronautical Telephone Service * GSM - Celular Europeu Sistema celular USA Celular digital CDMA da Qualcom SBC ADPCM ADM 16 22 19.5 sistemas equivalentes * INMARSAT – maritime satelite compressão voz marcelo bj 41 Para consulta  Kondoz A. M., ‘Digital Speech: Coding at low bit rate communication systems’, Wiley, 1995.  Bellamy J. ‘Digital Telephony’ Wiley, 1991.  Rabiner, L. R. & Schafer, R. W. “Digital Processing of Speech”Prentice Hall, 1978.  International Telecommunication Union: www.itu.ch  Andreas S. Spanias, “Speech coding: a tutorial review”, Proceedings of the IEEE vol. 82, nro. 10, oct. 1994.  Lawrence R. Rabiner & Ronald W. Schafer, “Introduction to Digital Speech Processing”, Foundations and Trends in Signal Processing, 2007.