Corpus

Description

Cette page présente un corpus de livres-audios en français composé de 87 heures de parole de bonne qualité, enregistré par une unique locutrice. Il est constitué d’un ensemble de livres de différents genres. Ce corpus diffère des corpus existants, constitués généralement de quelques heures de parole mono-genre et multi-locuteurs. La motivation principale pour construire un tel corpus est l’exploration de l’expressivité à travers différents points de vue, tels que le style de discours, la prosodie, la prononciation, et en utilisant différents niveaux d’analyse (syllabe, mot prosodique ou lexical, groupe syntaxique ou prosodique, phrase, paragraphe). Cela permettra de développer des modèles autorisant un meilleur contrôle de l’expressivité en synthèse de parole, ou d’adapter la prononciation et la prosodie au type de discours (changement dans la perspective du discours, style direct/indirect, etc.). A cette fin, le corpus a été annoté automatiquement et fournit des informations telles que les labels et frontières de phones, les syllabes, les mots et les étiquettes morpho-syntaxiques. De plus, une part significative du corpus a été annoté manuellement pour encoder le style direct/indirect et des informations d’ordre émotionnel.

Extraits de livres audios

Example 1 (roman):
Exemple 2 (fable):
Exemple 3 (poème):

Exemples synthétisés

Those samples are synthesized using the full corpus and our unit selection system.

Exemples courts :

Exemple 1:
Exemple 2:
Exemple 3:

Exemple long extrait d’un conte :

Exemple 1: