(Parte 1 de 2)

TCC-2010 Trabalho de Conclusão de Curso - Dezembro de 2010; Coordenadores: Prof. Dr. Lucas Moscato e Prof. Dr. Edson Gomes; Escola Politécnica da Universidade de São Paulo; Depto. Engenharia Mecatrônica e de Sistemas Mecânicos; Disciplinas: PMR2500 e PMR2550

Av. Prof. Mello Moraes 2231CEP 05508-900 São Paulo – SP Visite o site : w.poli.usp.br/pmr graduacao Trabalhos de Formatura

Trabalhos de Conclusão de Curso 2010 Dezembro de 2010, São Paulo-SP, Brasil

Bruno França dos Reis bfreis@gmail.com no. USP: 5434726

Vander Valente Martins valente.martins@gmail.com no. USP: 5438306

Orientador: Prof. Dr. Marcos Barretto marcos.barreto@gmail.com

Resumo Este trabalho ocupa-se da síntese de voz computacional com nuances emocionais (emotional text-to- speech), de maneira a reproduzir a fala natural humana com fidedignidade. Este estudo focará a língua portuguesa praticada na região sudeste do Brasil. Foi realizada uma pesquisa no campo da fonologia prosódica, fundamentando a criação de um modelo computacional dos mecanismos prosódicos. Tal modelo tem seus parâmetros determinados por um modelo emocional, que dará à fala características emocionais. O modelo emocional, por sua vez, foi baseado em modelos propostos na literatura, segundo os quais emoções podem ser representadas em função de três eixos. O resultado, aplicado a frases afirmativas simples, é testado com ouvintes reais. Além disso, as limitações e possíveis melhorias no modelo serão discutidas.

Palavras-chave: Text-to-speech, TTS, Síntese de voz com emoções, Emotional TTS, Linguística computacional

1. Introdução

Muito embora já tenham sido dados passos significativos no estudo de síntese de voz, um aspecto importante da fala permanece nebuloso: a variabilidade dos parâmetros acústicos devido ao estado emocional do locutor. Além disso, pouco tem sido feito neste campo para a língua portuguesa, em especial a praticada no Brasil.

Ainda que este pareça um mero detalhe na criação da fala, as nuances emocionais desempenham um papel importante na percepção da mensagem, de maneira que um ser humano classificaria o discurso como “não natural” ou “robótico” quando da ausência de emoções na fala [1].

Boa parte das pesquisas sobre o tema se limita a tratar os parâmetros sonoros diretamente por meio de tratamento de som, após a geração da fala, ou mesmo a gravação de fala humana. Tais trabalhos consideram esta fala pré-sintetizada como a fala neutra [2][3][4]. Outros trabalhos, acoplam o modelo emocional diretamente na síntese da fala, considerando que até mesmo a fala neutra é indicação de um estado emocional[5]. Optou-se neste trabalho por seguir esta segunda vertente de pesquisadores.

Para determinar o contorno prosódico da fala, independente do estado emotivo, lançar-se-á mão da teoria da Fonologia Prosódica, tal como sugerida por Mateus [6]. Ela servirá de base para a construção do modelo prosódico, o qual deve ser capaz de gerar uma fala verossímil. Seus parâmetros serão, no entanto,

TCC-2010 Trabalho de Conclusão de Curso - Dezembro de 2010; Coordenadores: Prof. Dr. Lucas Moscato e Prof. Dr. Edson Gomes; Escola Politécnica da Universidade de São Paulo; Depto. Engenharia Mecatrônica e de Sistemas Mecânicos; Disciplinas: PMR2500 e PMR2550

Av. Prof. Mello Moraes 2231CEP 05508-900 São Paulo – SP Visite o site : w.poli.usp.br/pmr graduacao Trabalhos de Formatura

definidos por um modelo emocional, como explicado nas próximas seções.

Serão tratadas neste trabalho apenas frases afirmativas simples, ou seja, com um único verbo, sem apostos ou subordinações. Resultados de testes com ouvintes reais serão apresentados ao final.

2. Traços Prosódicos

Entende-se por traços prosódicos todas as características da fala dada sua natureza acústica. Desta maneira, constituem traços prosódicos: duração, intensidade e altura (pitch). Alguns autores incluem nesta lista também o ritmo, embora este traço se dê por uma combinação específica dos três primeiros.

Tais traços estão intimamente ligados com a região do locutor, com intenção no momento da fala, excitações externas (vibrações, doença). São, enfim, resultado da combinação de inúmeras variáveis. De maneira a sistematizar o estudo dos aspectos acústicos da fala, lançaremos mão da fonologia prosódica.

3. Fonologia Prosódica

A fonologia prosódica constitui uma interface entre a gramática e a prosódia. Ela introduz os ditos constituintes prosódicos, entidades que surgem diretamente da gramática e da semântica da frase, mas que têm aspectos prosódicos bem definidos [6]. Dada sua complexidade, os constituintes prosódicos serão apenas brevemente abordados. Não obstante, alguns constituintes serão deixados de lado, como sugerido por Mateus.

Sílaba: constitui o elemento mínimo da hierarquia dos constituintes. Atende ao princípio da sonoridade, segundo o qual a sonoridade da sílaba aumenta do início até o seu centro, e decresce a partir de então até seu final.

Palavra Prosódica: assemelha-se a palavra gramatical, embora muitas vezes não sejam idênticas. Tem como característica essencial um único acento principal e pode ter diversos acentos secundários. No português brasileiro é comum que sílabas pares à esquerda do acento principal recebam acento secundário [7].

Sintagma Fonológico: domínio fraco no português brasileiro. Envolve a cabeça lexical, seu especificador e seu lado recursivo, se esse não for ramificado. O último acento principal é mais acentuado que os demais. Tal constituinte não será empregado no modelo deste trabalho.

Sintagma Entoacional: tem um contorno melódico identificável, chamado curva entoacional. É intuitivamente associado com a posição das vírgulas.

4. Processamento Digital do Som

Para a geração do som, será usado neste trabalho o software MBROLA. Trata-se de um sintetizador de voz com base em dífonos previamente gravados em um banco de dados. Tal software está disponível gratuitamente na internet. No entanto, a versão disponível não permite trabalhar com variações na intensidade. Por esse motivo, será usada uma versão estendida do MBROLA, gentilmente cedida por Piero Cosi, do Istituto di Scienze e Tecnologie della Cognizione, e com consentimento de Thiery Dudoit, líder e fundador do projeto MBROLA. Tal versão permite não apenas trabalhar com a intensidade, como também com parâmetros de qualidade da voz, como rouquidão, trêmulo, entre outros. O banco de dados utilizado é o br4, ainda não disponibilizado na rede, mas gentilmente cedido pelo Serviço Federal de Processamento de Dados, em parceria com a Universidade Federal do Rio de Janeiro.

O MBROLA tem como entrada um arquivo de texto, no qual, a cada linha contendo: um código, simbolizando um fonema; o valor de sua duração, em ms; seu contorno de pitch, representado por uma posição em porcentagem no tempo e um valor em freqüência em Hz; e seu contorno de intensidade, em dB.

5. Modelo Prosódico

Para gerar o contorno prosódico da fala, foi desenvolvido um código orientado a objetos em JAVA e SCALA, cujas classes representam basicamente os constituintes prosódicos apresentados anteriormente, partindo, no entanto, de um nível hierárquico anterior à sílaba: o fonema, que é o elemento atômico da entrada do MBROLA.

Não é objetivo deste trabalho um analisador gramatical/semântico capaz de categorizar os elementos textuais em constituintes prosódicos. Tampouco visa traduzi-los em fonemas do banco de dados do MBROLA. Assim, tal categorização será dada como conhecida, ou como definida pelo usuário. O acento principal de cada palavra prosódica também é conhecido.

TCC-2010 Trabalho de Conclusão de Curso - Dezembro de 2010; Coordenadores: Prof. Dr. Lucas Moscato e Prof. Dr. Edson Gomes; Escola Politécnica da Universidade de São Paulo; Depto. Engenharia Mecatrônica e de Sistemas Mecânicos; Disciplinas: PMR2500 e PMR2550

Av. Prof. Mello Moraes 2231CEP 05508-900 São Paulo – SP Visite o site : w.poli.usp.br/pmr graduacao Trabalhos de Formatura

A seguir vemos as principais classes deste modelo, bem como suas características.

a) Fonema Duração;

Um ponto de pitch definido, localizado a 50% de sua duração total;

Um ponto de intensidade definido, localizado a 50% de sua duração total.

O princípio da sonoridade interno à sílaba é garantido já na criação do fonema. Estes são agrupados em categorias que recebem diferentes durações. Em ordem decrescente, a escala de sonoridade utilizada é: vogais > semi-vogais > fricativas > líquidas e vibrantes > oclusivas. A primeira categoria tem duração padrão de 100 ms e a última de 40 ms.

b) Sílaba Um conjunto de fonemas, em determinada ordem;

Uma função, que pode assumir valores de: acento principal, acento secundário, não acentuado ou após acento principal.

c) Palavra prosódica Conjunto de sílabas, em determinada ordem.

d) Sintagma Entoacional

Conjunto de palavras prosódicas, em determinada ordem;

Curva entoacional (neste trabalho utiliza-se apenas a curva entoacional afirmativa).

Tais entidades passam por uma série de processamentos, que transitam as informações de um nível hierárquico a outro, tendo como fim alterar os parâmetros acústicos do fonema. Os passos abaixo resumem as duas principais etapas de processamento.

1) Processa palavra prosódica:

I) Ajusta a função das sílabas de acordo com a posição que ocupam na palavra prosódica. Sílabas à esquerda e a um número par de distância do acento principal são consideradas acentos secundários. I) Fonemas têm sua intensidade alterada, conforme a função da sílaba a que pertencem. Sílabas acentuadas têm intensidade maior. I) Fonemas têm sua duração alterada, conforme a função da sílaba a que pertencem. Sílabas acentuadas têm maior duração.

IV) Define ponto de pitch ps para cada sílaba, associado ao ponto ts, na escala de tempo referenciada na palavra prosódica. O ponto de pitch é definido conforme a função da sílaba na palavra prosódica

(sílabas acentuadas são mais agudas); em ts, a sílaba está a 50% de sua execução.

V) Interpola, para cada fonema, o valor de pitch entre os pares ordenados (ps, ts) mais próximos.

2) Processa o sintagma entoacional:

I) Intensifica e alonga ligeiramente a última sílaba com acento principal do sintagma. I) Encontra os seguintes tempos característicos, referenciados na escala de tempo do sintagma: t1, referente à primeira ocorrência de acento principal; t2, referente à última ocorrência de acento principal; e tf, duração total do sintagma.

I) Retorna, para cada fonema, um valor de pitch interpolado segundo a curva da Figura 1, que se soma ao seu pitch original.

Figura 1 – perfil da curva entoacional para uma sentança afirmativa simples (um único verbo, sem subordinações ou apostos).

6. Modelo Emocional

O modelo emocional deve agir sobre os parâmetros do modelo prosódico, de modo a dar-lhe nuances que caracterizem emoções.

Cada estado emocional é organizado em um espaço tridimensional e pode ser considerada como a combinação de apenas três variáveis [2][5]. Tais eixos serão chamados aqui de excitação, satisfação e dominação.

A excitação do locutor reflete o quanto ele está ativo durante o discurso. O segundo eixo, o satisfação, aponta para seu estado de contentamento com a situação ou conteúdo da fala, já a dominação, indica o quanto o locutor se esforça para convencer ou dominar o receptor.

Com ajuda desta representação, é possível distinguir estados emocionais complexos, como uma empolgação violenta, de uma felicidade mais amena. Enquanto ambos os estados têm alto grau de satisfação, eles se diferem fortemente no eixo de excitação.

t t1 t2 tf pitch

TCC-2010 Trabalho de Conclusão de Curso - Dezembro de 2010; Coordenadores: Prof. Dr. Lucas Moscato e Prof. Dr. Edson Gomes; Escola Politécnica da Universidade de São Paulo; Depto. Engenharia Mecatrônica e de Sistemas Mecânicos; Disciplinas: PMR2500 e PMR2550

Av. Prof. Mello Moraes 2231CEP 05508-900 São Paulo – SP Visite o site : w.poli.usp.br/pmr graduacao Trabalhos de Formatura

Tais eixos se correlacionam com os parâmetros do modelo prosódico. Estes são: Duração das consoantes e vogais; intensidade, duração e variação de pitch, relacionados aos diferentes tipos de acentuação; pontos de pitch característicos da curva entoacional; freqüência média; parâmetros de qualidade da voz – voz trêmula, ar na voz.

Serão desenvolvidos quatro conjuntos de parâmetros, para caracterizar os estados neutro, feliz, triste e bravo. Estes estados serão caracterizados da seguinte maneira:

Excitação Satisfação Dominação

Neutro baixo baixo baixo Feliz médio alto baixo Triste baixo muito baixo baixo

Bravo alto muito baixo alto

Tabela 1 - Posição dos estados emocionais nos eixos do modelo tridimensional

Além disso, as correlações qualitativas dos eixos emotivos com os parâmetros acústicos propostos por Schröder [5] são adaptados para os parâmetros disponíveis no modelo prosódico. Os parâmetros propostos em [5], bem como suas correlações com os eixos, não serão reproduzidos aqui. Para maiores detalhes, por favor consultar ao artigo em questão.

Compondo os eixos e interpretando os parâmetros para o modelo desenvolvido, a caracterização de cada emoção em relação ao estado neutro fica como descrito a seguir:

Feliz

f0 ligeiramente elevado Curva entoacional bem expressiva

Desenho melódico da palavra moderado

Variação perceptível dos picos de intensidade nos acentos

Variação bem moderada de duração das sílabas

Triste

f0 ligeiramente elevado Curva entoacional bem pouco expressiva

Desenho melódico da palavra bastante expressivo

Pouca variação nos picos de intensidade dos acentos

Fala ligeiramente lenta

Variação audível da duração das sílabas (conforme acentos)

Bravo

f0 menor Curva entoacional bastante expressiva

Desenho melódico da palavra bastante expressivo

Grandes picos de intensidade nos acentos

Grande variação na duração das sílabas

Fala ligeiramente acelerada

7. Resultados

Vários exemplos de frase foram compostos, utilizandose os quatro estados emocionais desenvolvidos. Tais frases foram apresentadas a ouvintes.

Os estados emocionais mais expressivos foram o estado bravo e triste, sendo o primeiro de identificação imediata. O estado feliz, dada sua sutileza e pouca diferença do estado neutro – já que não se trata de empolgação, mas simplesmente de felicidade –, foi identificado com maior dificuldade.

Quando colocadas lado a lado, para uma mesma frase, todas as emoções apresentaram contraste perceptível, apontando para a almejada variabilidade típica da fala natural humana.

Ressalvas devem ser feitas, no entanto, quanto à naturalidade do discurso, já que para todas as emoções ,um “sotaque” robótico, aliado a um timbre metálico típico do sintetizador do MBROLA, comprometeram ligeiramente a percepção da fala. Refinamentos do modelo prosódico são uma possível solução para a atenuação do “sotaque”.

No entanto, foi unânime entre os ouvintes que os exemplos apresentados soam mais naturais que a versão monotônica – com f0 constante e fonemas de duração e intensidade homogêneas.

Este trabalho se mostrou eficaz para sentenças afirmativas simples, ou seja, para um único tipo de curva entoacional. Outras naturezas de curva devem ser estudadas no futuro, de maneira a compor uma biblioteca de diferentes tipos de sintagma. Estas curvas podem, eventualmente, levar em conta outros parâmetros, os quais também deverão ser correlacionados com o modelo emocional.

(Parte 1 de 2)

Comentários