Tutorial UTAU: Usando português CVVC

Oi!

Até o momento, vários bancos de voz em português brasileiro para UTAU foram lançados. Temos o EDpoid, a Pururu Purpura, o Mainichi... e a expectativa é que a lista cresça! No entanto, todos esses bancos foram desenvolvidos para funcionar num método que não é tão fácil (à primeira vista) para a maioria do fandom: o método CVVC.



Diferentemente dos métodos CV e VCV, que já são consagrados em bancos famosos (como Kasane Teto e Namine Ritsu), o método CVVC ainda não é uma das primeiras opções a se utilizar quando se pensa em UTAU.


Para tentar melhorar a situação desse método (e ver mais covers em português youtube afora), escrevi esse tutorial. Espero que ele seja útil para o fandom!



Notas: 
Para melhor compreensão deste tutorial, é recomendada pelo menos alguma experiência com bancos CV e VCV. 
Esse tutorial não ensina como fazer a oto.ini de um banco CVVC. 

FAQ! 

1. O que é um método no mundo UTAU, afinal?

Método é a maneira como se conecta os fonemas dentro de um arquivo .UST. Essa maneira dependerá de como o banco de voz foi gravado e configurado. 
Se um banco de voz tem apenas gravações CV (consoante-vogal) como sa.wav, ku.wav e ra.wav, você vai dispor essas gravações da seguinte maneira: [sa]/[ku]/[ra]. Assim é o método CV. 
Se um banco tem gravações com transições trifônicas (vogal-consoante-vogal), você vai dispor tudo de maneira mais detalhada: [- sa]/[a ku]/[u ra]. Assim é o método VCV.
Resumindo, um método de síntese de voz no UTAU tem a ver com a gravação, a configuração e o uso de um determinado banco de voz. 

2. O que diferencia o método CVVC do CV e do VCV?

Em termos de uso, o método CVVC é completamente manual, você vai escolher sempre a duração da transição entre todas as vogais e consoantes. Ele funciona basicamente assim, utilizando a palavra otaku como exemplo:

[o][ot]/[ta][ak]/[ku]

Enquanto no método CV, o mais simples, teríamos [o]/[ta]/[ku] e no VCV, o mais completo e mais natural, teríamos [- o]/[o ta]/[a ku].
O método CVVC ainda permite um melhor manejo de sílabas mais complexas (como aqueles que têm mais de uma consoante no início ou no fim). Por isso, ele é ótimo para línguas como o português - que tem palavras cheias de encontros consonantais tipo contraste.

Já em termos de gravação e configuração, o método CVVC é mais difícil que o CV e equivalente em dificuldade ao VCV. Mas não quero discorrer sobre isso neste tutorial. Qualquer outra hora (talvez nunca), faço um tutorial só sobre esses tópicos.


O método

O princípio básico de uso do CVVC é fazer manualmente todas as transições, sejam elas VV (de vogal pra vogal), CV (consoante pra vogal) VC, CC e assim por diante. Comparando-o com o método CV, tem-se:

CVVC CV VCV
otaku [o][ot]/[ta][ak]/[ku] [o]/[ta]/[ku] [- o]/[o ta]/[a ku]
tsuki [tsu][uk]/[ki] [tsu]/[ki] [- tsu]/[u ki]
rin [ri][in] [ri][n] [ - ri][i n]

Ainda, a cada nota adicionada, deve-se fazer o crossfade. Como mostra a imagem a seguir (clique para ampliar):



A representação dos sons do português

O português tem mais sons do que o japonês, de maneira que precisemos de acentos, dígrafos e marcações gráficas para diferenciar o som de algumas vogais na língua escrita. Exemplo disto é a diferença entre ê e é, marcada pelos acentos.
Acontece que esses acentos gráficos não funcionam no UTAU. E isso torna tudo mais difícil.
Dessa forma, optamos, ao desenvolver reclists (listas de gravação para determinado idioma no UTAU), por utilizar uma forma de escrita de fonemas especialmente desenvolvida para o meio computacional: o SAMPA (e sua versão estendida, X-SAMPA).
Essa forma de escrita é utilizada em softwares como Vocaloid. Então se você já utilizou a Maika e tentou fazê-la cantar em português, tudo ficará mais fácil!

Se X-SAMPA ainda é um mistério para você, calma, ainda tem jeito. Um pouquinho de consciência fonológica e treino resolvem. Comece observando as tabelas abaixo:
Vogais:
Símbolo X-SAMPAEscritaExemplo (Português)Exemplo (X-SAMPA)
aapa
eê, ededodedu
ii, e (fim de palavra)cipósipO
oô, obolobolu
uu, e (fim de palavra)tutu
6ã (fim de palavra)maçãmas6
EépE
OópO
6~ã, a (antes de m, n e nh)mangam6~ga
e~e (antes de m, n e nh)pencape~ka
i~i (antes de m, n e nh)simsi~
o~o (antes de m, n e nh)sombraso~b4a
u~u (antes de m, n e nh)fundofu~du

Consoantes:
Símbolo X-SAMPAEscritaExemplo (Português)Exemplo (X-SAMPA)
bbbalabala
dddedodedu
dZd (antes de i)diadZia
fffofofofu
ggguetogetu
J nhmanhãmaJ6
kc, qucabokabu
llladoladu
L lh, l (antes de i)malhamaLa
mmmatomatu
nnnadanada
p ppE
R r (início de palavra), rrratoratu
s s, sssaposapu
Sch, sh, xchatoSatu
tttetotEtu
tS tch, t (antes de i)tchautSaw
vvvelavEla
zz, s (entre vogais)casakaza
Zj, g (antes de e e i)geloZelu
4r (entre vogais)araraa4a4a

Semivogais (vogais fracas de ditongos e tritongos):
Símbolo X-SAMPAEscritaExemplo (Português)Exemplo (X-SAMPA)
ji, epai, mãepaj, m6~j
wu, lpau, salpaw, saw

Lembrando que essas tabelas não preveem todos os casos de ocorrência de fonemas na língua! Você pode muito bem manipular os fonemas de outra maneira que achar conveniente e convincente para reprodução do sotaque escolhido. A parte difícil do trabalho de síntese é essa!


Coisas difíceis de entender à primeira vista:

1. O português possui vogais nasalizadas

São vogais muitas vezes não percebidas, mas indispensáveis para uma comunicação efetiva. Elas ocorrem principalmente com a adição do acento til (como em mãe e leão), ou antes de n ou m (como em dança e amplo). 
Quer fazer um teste? Tape completamente as suas narinas com as mãos, e tente pronunciar a seguinte frase: Pedro sabe correr. Você provavelmente conseguiu, porque essa frase não tem vogais nasais.
Agora leia a seguinte frase com as narinas ainda obstruídas: Mamãe não me ama. 
Percebe? Você provavelmente sentiu o ar esbarrando nas suas narinas fechadas. Isso são vogais nasais, e diferenciá-las no UTAU é essencial para obter resultados convicentes.

Dica importante: ao utilizar as vogais nasais, não é preciso colocar a consoante que vai ao fim da sílaba, o [~] já é a representação dessa consoante, seja ela m ou n. Por exemplo, se você quiser fazer um UTAU cantar a palavra penca, faça simplesmente [pe~][e~k]/[ka], sem [e~n] ou algo assim - pois o som de "n" deve estar em [e~k].

2. Antes de i e e, algumas consoantes mudam 

Na maioria dos sotaques, algumas consoantes mudam antes de i e e. É o exemplo de t, d, e l, que soam, respectivamente como tS, dZ e L. Isso acontece com as palavras tia ("tchia"), dia ("djia") e livre ("lhivre"). 
É claro que haverá exceções. Alguns sotaques, como o da Bahia, pronunciam tia com o [t] mesmo, sem essa mudança. Cabe ao usuário (neste caso, você), escolher qual é o melhor fonema para cada canção. 

3. Alguns símbolos contradizem a nossa escrita 

O alfabeto X-SAMPA é utilizado para qualquer língua, não só o português, por isso pode parecer bem confuso em relação ao nosso alfabeto gráfico. Alguns exemplos de consoantes que parecem confundir as pessoas:

  • [ J ] representa o som de nh em manhã, manhoso, apanhar. 
  • [ j ] representa o i em ditongos, como em pai, vai, trai
  • [ 4 ] representa o "r" trilhado, como em arara, grito, brilho. 

4. O e e em fim de palavra têm som de u e i

Na maioria dos sotaques brasileiros, pronuncia-se o e e finais não-tônicos (isto é, no fim das palavras), com som de u e de i. Exemplo deste fenômeno é a pronúncia de palavras como gato [gatu], dedo [dedu], forte [fo4tSi] e cobre [kOb4i].


Colocando em Prática 

Abaixo, um vídeo que gravei há um tempo atrás, mostrando como colocar tudo em prática. Peço perdão pela má qualidade e pelo excesso de hesitações (ã..., ãnhh...., ãhnnn)... hehe~


Espero que esse tutorial lhes tenha sido útil! E se tiverem qualquer dúvida, é só perguntar! :}

Tchau ~

Compartilhe-me:

Sobre o Autor

Gosta de línguas, reflexões introspectivas, UTAU/Vocaloid, discussões sobre gênero e sexualidade, do céu e de fazer da vida alheia um bordado de renda (de chita filó).