Donc, voici un topic à propos des « samplers » ou « resamplers ».
À lire s'il vous plaît
Si jamais vous avez une quelconque information supplémentaire quant à certains samplers ou si vous avez découvert un nouveau sampler, s'il vous plaît, partagez ! Cela sera très utile afin de garder ce premier post à jour.
Merci~
Introduction : qu'est-ce qu'un sampler?
Un sampler, c'est le moteur de synthèse vocale d'UTAU. Le sampler analyse les samples vocaux d'une banque vocale (la fréquence de l'enregistrement, principalement) et créé , lorsque l'on appuie sur « play » sous UTAU, de petits fichiers WAV, un par note sonore (à opposer aux notes silencieuses notées « R » sous UTAU).
Lors de la synthèse vocale, le sampler regarde le nom de la note. L'oto.ini le renvoie au fichier WAV de la banque vocale correspondante ; puis, selon l'oto.ini, la synthèse va être faite. Le sampler se passera de la partie bleue de l'oto.ini (le cutoff et l'offset), ne pas allonger ni ne réutiliser la partie en rouge/rose (d'où l’intérêt d'y mettre TOUTE la consonne) et va changer la hauteur de la partie voisée de la note, c'est à dire la partie où l'on entend la voix et où une hauteur peut être déterminée.
Par exemple, toute la syllabe « ma » est voisée : on peut avoir des « m » à différentes hauteurs et des « a » à différentes hauteurs. En revanche, toute la syllabe « ka » n'est pas voisée : le « k » n'a pas de différentes hauteurs. On dit que c'est une consonne « sourde ».
Deux samplers différents vont tous deux synthétiser de manière différente la voix : ils n'ont ni les mêmes programmeurs, ni le même code. Chacun a un comportement différent et des affinités différentes avec certains types de voix. D'où la nécessité de choisir bien soigneusement son sampler.
Le wavtool est l'outils qui permet d'assembler les fichiers WAV générés par le sampler dans le dossier cache afin de n'avoir plus qu'un fichier WAV qui rassemble tous les fichiers temporaires. La version la plus récente du wavtool est wavtool2.exe
Comment choisir le sampler que l'on souhaite utiliser ? Allez dans les propriétés de votre projet UTAU, et dans « tool2 », vous devriez avoir par défaut (à moins que vous n'ayez modifié ça) resampler.exe, qui est le sampler natif d'UTAU. Là, vous choisissez votre sampler.
Les deux modes de fonctionnement d'un sampler :Il existe chez les samplers deux manières différentes pour synthétiser la voix lors de l'utilisation d'une note plus longue que l'enregistrement de base :
- le mode "étirement"
- et le mode "loop"
Comme son nom l'indique, le mode "étirement" étire la partie en blanc dans vos oto.ini afin d'avoir un résultat de longueur correcte. Si on a des phonèmes qui utilisent en même temps deux voyelles (comme c'est le cas avec les VBs anglophones avec le son "aï"), il vaut mieux utiliser ces samplers-là.
Pourquoi ? Les samplers qui fonctionnent en "loop" répètent la partie en blanc. Cela fait qu'avec une VB anglophone, on peut se retrouver avec une note qui fait "aïaïaïaïaïaï" au lieu d'un long "aï".
En règle générale, cette différence ne change rien avec les VBs japonaises, mais cela peut être important avec d'autres langues.
Samplers publiésbkh01 : Lorsque l'on a les bons flags, bkh01 peut créer des voix réaliste. Il s'agit d'un sampler plutôt optimisé pour les voix douces, mais attention aussi aux distorsions et aux sons métalliques et nasaux. Cependant, cela arrive beaucoup plus souvent aux voix puissantes. Un certain degré de souffle dans la voix semble être nécessaire à bkh01 pour fonctionner correctement. En ce qui concerne les flags, bkh01 est le seul à utiliser A, S et V. L'utilisation d'une valeur basse pour b et d'une valeur élevée pour S est souvent recommandée pour bkh01.
bkh01 fonctionne en mode "étirement".
TéléchargementEFB-GT : Il fonctionne très bien avec des voix douces, réduisant le bruit et rendant des consonnes impeccables. Cependant, il peut rendre mal dans les hautes notes, mais cela varie entre les UTAUs.
EFB-GT fonctionne en mode "loop"
TéléchargementEFB-GW : Aussi connu sous le nom de WORLD.
Il faut que les fichiers FFTW fonctionnent. Rendez-vous là : http://www.fftw.org/install/windows.htmlEFB-GW semble avoir un comportement similaire à EFB-GT, mais je ne connais pas très bien ce sampler. Il n'est pas sensé fonctionner sur les ordinateurs non japonais. J'arrive cependant à le faire fonctionner, mais il est instable, et à chaque fin de synthèse de note, il plante, mais produit des sons.
fonctionne en mode "loop"
TéléchargementEFB-PB : Il faut que les fichiers FFTW fonctionnent. Rendez-vous là : http://www.fftw.org/install/windows.htmlNe fonctionne que si EFB-GW fonctionne. Apparemment, il fonctionne mieux avec les voix plutôt douces. Je n'en sais pas plus.
EFB-PB fonctionne en mode "loop"
Téléchargementfresamp : connu pour être une bêta de m4, fresamp élimine le bruit dans les samples de voix. Il peut donner un peu de puissance aux voix mais devenir très nasal avec des notes élevés. Ce sampler est aussi connu pour avoir un long temps de rendu en comparaison avec d'autres samplers.
En ce qui concerne les différences au niveau des flags, F contrôle le filtre des harmoniques (dans son sens scientifique, c'est à dire certaines fréquences de la voix qui caractérisent son timbre, etc...). Très souvent, quand on utilise fresamp on recommande F0 ou F1. L contrôle l'activation (ou non) la modification des harmoniques (les fréquences harmoniques, car naturellement, la voix change de "flag g" quand elle change de hauteur, et la majorité des flags le reproduisent automatiquement).
Charte des flags compatibles avec fresamp (en japonais, et descendez un petit peu pour voir la charte)
fresamp fonctionne en mode "étirement".
Téléchargementfresamp014 : Il s'agit d'une mise à jour de fresamp.
fresamp014 fonctionne en mode "étirement".
Téléchargementphavoco : Aussi connu sous le nom de favoco6. Il s'agit d'un sampler dont le principe est de donner un effet vocodeur à la voix. Je n'en sais pas plus.
favoco6 fonctionne en mode "étirement".
Téléchargementpresamp : Il s'agit d'un tout nouveau sampler que je n'ai pas encore réussi à faire tourner sur mon ordinateur. Cependant, il semblerait que le rendu soit très bon, et qu'il fonctionne particulièrement bien avec les voix douces. Cependant, il ouvre beaucoup de fenêtres batch et il est assez lent. Comme presamp est aussi un wavtool, son utilisation avec du VCV est déconseillée car il peut générer des glitchs (il se fiche des enveloppes, il fait son job tout seul).
Son installation est spécifiée dans le readme en anglais que je traduirai un jour si j'ai la foi.
Démo (NND)Téléchargementresampler : Sa dernière version est disponible avec la dernière version d'UTAU (qui, actuellement, est la version 0.4.17). Cependant, il existe aussi d'autres versions de resampler, comme resampler10 avec la version 0.2.79/0.2.77, resampler11 qui était dans la bêta d'UTAU 0.2.90. J'ai partagé aussi avec vous resampler5, resampler7 et resampler8_52.
Resampler a tendance à créer un son plutôt robotique, surtout lors des variations de hauteur ou lors des vibratos, cependant, utilisé dans les aigus, il peut donner de bon résultats.
Dans sa dernière version, le flag B/BRE semble fonctionner différemment ; B0 réé un effet similaire à TIPS tandis que de hautes valeurs pour B peuvent créer des voix avec du souffle, chuchotées, même avec des VB puissantes.
resampler :
Téléchargement S'obtient avec UTAUresampler5 :
Téléchargementresampler7 :
Téléchargementresampler8_52 :
Téléchargementresampler (toutes versions confondues) fonctionne en mode "étirement".
resampler.dll : Il s'agit de la version dll de resampler. Cela permet de se passer des fichiers batchs, et il s'occupe aussi tout seul de l'assemblage des fichiers WAV (pas de wavtool nécessaire). Cependant, le wavtool intégré au dll est de mauvaise qualité. Je vous conseille de ne l'utiliser QUE pour des aperçus du résultat, mais en aucun cas pour un travail propre.
Téléchargement : S'obtient avec UTAUTIPS : Fonctionne généralement très bien avec des notes graves et est souvent recommandé pour le VCV. Le type de voix recommandé pour ce sampler est une voix grave et calme. Attention : il peut aussi amplifier le bruit présent dans la VB ainsi que créer un bruit métallique si les enregistrements ne sont pas de bonne qualité ou si on le fait monter dans les aigus.
TIPS utilise des fichiers pmk au lieu de fichiers frq lors de son analyse des fréquences. Concernant les flags, seuls H, P, t, g et R fonctionnent avec TIPS. Les notes avec le flag R force TIPS à régénérer les fichier pmk correspondant au sample de la VB.
TIPS fonctionne en mode "étirement".
Téléchargement (cliquez sur "TIPS")
tn_fnds : Il faut que les fichiers FFTW fonctionnent. Rendez-vous là : http://www.fftw.org/install/windows.htmlFonctionne de manière similaire à l'ancienne version de TIPS : notes basses et voix puissantes, cependant, il n'amplifie pas la voix. Il y a aussi des bugs qui font que parfois, les notes ne sont pas justes. Et ce sampler ne fonctionne pas avec les VB enregistrées en stéréo (enregistrez sous OREMO).
tn_fnds ne fonctionne qu'avec ces flags:
- BRE : Flag habituel du souffle dans la voix
- B : (par défaut 50) ajuste la quantité de bruit dans la voix présent dans les hautes fréquences. Tous les bruits sont supprimés à 0, mais il fait des dégats sur les autres sons à haute fréquence comme le "s".
- g : flag g habituel
- t : (de -100 à 100, par défaut 0) fonctionne à peu près comme le flag t habituel
- P : (de 0 à 100, par défaut 86)similaire au flag P usuel
- V : (de 0 à 100, par défaut 50) permet de gérer la puissance de la voix, V0 rend la voix inaudible.
- O : (de -100 à 100, par défaut 0) Ce flag augmente le "bourdonnement" de la voix et sa texture robotique, mais il peut rendre des voix calmes très puissantes. Les valeurs recommandés sont entre 0 et 75.
- S : (de 0 à 100, par défaut 0) Détermine l'importance de la modification des harmoniques de la voix
- M : (de 0 à 100) Ce flag contrôle la qualité de réponse de la voix aux hauteurs (:( ?), semble permettre de meilleurs rendus dans les aigus.
- A : (de O à 100, par défaut 0) change le volume de la note suivant le pitchbend d'une note (vos courbes de hauteur entre les notes). Ce flag est déconseillé pour tout un ust, mais plutôt pour une note par ci, par là.
tn_fnds fonctionne en mode "loop"
Téléchargementvs4u : connu aussi sous le nom de VocalShifter4Utau. Il s'agit du moteur de synthèse du logiciel VocalShifter, développé par le(s) même(s) auteur(s), adapté pour UTAU. Il s'agit généralement d'un très bon sampler donnant des rendus similaires à EFB-GT ou bkh01. Il a plusieurs flags spécifiques à lui-même :
- T: (de -2400 à 2400, par défaut 0) Il s'agit d'une autre version du flag t, allant de cent (prononcez "sènte") en cent, 100 cents représentant un demi-ton (en gros, on a une variation max d'un octave vers le haut ou vers le bas)
- I ("i" majuscule) : (de 0 à 100, par défaut 50) Il s'agirait de l'équivalent du paramètre BRI (brightnes) de VOCALOID, et son utilisation permettrait de rendre la voix plus vivante / active / puissante
- A : (de 0 à 100, par défaut 50) Il s'agirait de l'équivalent du paramètre CLE (clearness) de VOCALOID, rend la voix plus puissante, permet de résoudre des problèmes de distorsion avec les voix puissantes. Cependant, il vaut mieux ne pas trop élever ce paramètre car il peut générer du bruit.
- M : (de 0 ou 1, par défaut 0) Il semblerait que ce paramètre permette d'éviter la création de bruit dans la voix lors de l'élévation de la voix dans les aigus grâce à M1.
vs4u génère aussi ses propres fichiers frq, les vs4ufrq, et semble fonctionner en mode "étirement".
Téléchargement (Sur la même page, plein de logiciels sympas, dont VocalShifter)
WARP : Ce sampler a un fonctionnement similaire à TIPS et EFB-GT, avec cependant une qualité moindre. Ce sampler est plutôt adapté aux vois calmes/douces. Des notes basses sont recommandées. Dans les tons hauts, ce sampler a tendance à amplifier les bruits présents dans la voix, et s'il s'agit s'une voix puissante, un bruit métallique peut apparaître.
WARP fonctionnant en "loop" (c'est à dire qu'il répète la zone blanche de l'oto.ini plutôt que de l'allonger), il est recommandé d'allonger la partie en rose de l'oto.ini.
L'utilisation de flags est recommandé, les plus communs étant supportés par ce sampler.
WRAP fonctionne en mode "loop"
Téléchargementworld4utau : Connu aussi sous le nom de w4u.
Il faut que les fichiers FFTW fonctionnent. Rendez-vous là : http://www.fftw.org/install/windows.htmlw4u est TRÈS sélectif quant aux VB qui fonctionnent avec lui : apparemment, il faut que la VB soit enregistrée en mono 41000HZ 16bit sans metadata (enregistrez sous OREMO, ça fonctionne). S'il y a du bruit dans les enregistrements, w4u a tendance à les amplifier et à générer des bruits étranges avec, cependant, avec une VB sans bruit, la voix ressort puissante, claire, et la synthèse se trouve alors être très bonne.
w4u fonctionne en mode "étirement".
TéléchargementSampler non-publiéM4 : connu aussi sous le nom de model4, il est actuellement en phase bêta, réservé à seulement quelques personnes. M4 produit des fichiers frc au lieu de fichiers frq ou pmk. Les samples sans note (comme les respirations) sont incompatibles avec m4, car ce sampler ne réussi pas à créer de fichier frc pour ces enregistrements. Il est, en général, plus réaliste que la plupart des samplers, en particulier pour les voix type whisper. Cependant, les flags H, h, C, D, E et b ne fonctionnent pas avec ce sampler.
Note : Je ne possède pas m4. Ces informations viennent uniquement de ce que j'ai pu trouver sur le net, en particulier de l'UTAforum.
Critique par SukinaK :
J'ai récemment obtenus M4,
Ce que je peux dire c'est que je comprends pourquoi il n'a pas été publié au grand public. Pour certaines raisons stable : son instabilité. Ils comportent de très nombreux bug. Effectivement il donne un effet beaucoup plus réaliste quand ils fonctionnent correctement. Les voix Whisper sont très bien, pour ce que j'ai pus essayé, retouché.
Cependant, pour ce qui est des voix puissantes, ou même d'autres voix, ce Sampler va faire Gargouiller la voix, ou va tout simplement planté. Si je devais résumer M4, Model4, c'est comme un TIPS dont tout est amplifié. Les avantages, comme les désavantages.
Note : Je ne distribuerai pas ce resampler qu'importe qui fait la demande.
Autrewavtool2.exe : il s'agit d'une version améliorée du wavtool. Je le recommande.
Téléchargement (avec inclus l'envelope Editor ver.2, qui permet d'éditer les volumes comme dans VOCALOID)
UTAUgrowl : Il s'agit, en quelques sortes, d'un "mod" pour les samplers afin d'obtenir une voix, comment dire ...? Avec du "grognement ?" dans la voix, qui permet d'avoir plus de puissance dans la voix, un peu comme si l'UTAU se met à crier. Cependant, ce n'est pas lui qui fait la synthèse vocale, il ne fait qu'ajouter l'effet dont il est question. Pour l'utiliser, il faut le renommer comme votre sampler en lui ajoutant "_ug". Par exemple, vous pouvez le renommer en resampler_ug.exe, w4u_ug.exe, fresamp_ug.exe... Vous déterminez l'intensité des "grognements" grâce au flag w, que je vous recommande de mettre de manière générale pas plus haut que 30 (après, ça dépend des voix et de l'effet désiré).
Vidéo de démo (NND)TéléchargementJ'essaierai de mettre régulièrement ce topic à jour, sachant qu'il manque deux-trois samplers au moins ainsi que mes impressions sur quelques samplers, comme EFB-GW. J'uploaderai aussi un comparatif entre les différents samplers avec différentes VBs ainsi que les liens de téléchargement vers ces différents samplers (sauf m4, évidemment). Sinon, vous pouvez trouver les liens de téléchargement sur la source principale, bien qu'ils ne soient pas tous à jour.
[source principale]