La collecte de documents sonores

La banque sonore des dialectes bretons est constituée de fichiers audio extraits d'enregistrements d'enquêtes réalisées depuis plus d'une dizaine d'années par des bénévoles passionnés. Ces enquêtes rassemblent au total plusieurs centaines d'heures d'interviews sur des thèmes très variés et concernent un large ensemble de localités depuis l'île d'Ouessant jusqu'à l'est de Vannes.

Afin de mettre en valeur les résultats de ces enquêtes, notre équipe sélectionne parmi ce vaste corpus les extraits sonores qui viendront alimenter la base de données. Chaque fichier son est alors catalogué, transcrit, traduit et accompagné de diverses annotations afin d'en faciliter l'accès à travers le moteur de recherche intégré au projet.

Mise en forme des données

Les transcriptions en breton sont proposées à la fois dans une graphie locale proche de la prononciation permettant de faciliter le suivi du fichier son, mais aussi dans une orthographe standardisée (peurunvan) pour permettre aux personnes ayant étudié le breton littéraire de faire un lien entre leurs connaissances de la langue écrite et les formes dialectales que révèlent les enregistrements. Pour certains extraits sonores, une transcription plus précise en alphabet phonétique international (API) est également disponible.

L'exercice de traduction n'est pas toujours aisé et les transcripteurs ont généralement opté pour une version assez proche de l'original, sans chercher à obtenir un résultat trop littéraire. Une traduction littérale ou mot à mot est parfois proposée.

Lorsqu'il s'agit d'extrait sonore provenant de conversations, nous avons précisé quand cela semblait nécessaire le sujet de la discussion. Dans les cas où les informateurs ont été soumis à des exercices de traduction afin de mieux connaître certaines caractéristiques de leur parler, il arrive qu'il y ait un écart assez important entre la réponse obtenue et la phrase de départ. La version donnée en français sous les transcriptions en breton correspond toujours à la traduction de la réponse qui a été donnée. L'intitulé d'une question est normalement mentionné dans les informations accompagnant le fichier son.

Parmi ces informations, vous trouverez également le nom des personnes ayant contribué à la réalisation de cette ressource. Afin de conserver l'anonymat de certains locuteurs, seules leurs initiales sont mentionnées. Parmi les informations importantes, vous trouverez le lieu et la date où ont été réalisées les enquêtes. Dans certains cas, le lieu donné correspond plutôt au lieu d'où est originaire la personne interrogée. Le numéro d'identification de la ressource ainsi que la date de la dernière mise à jour vous permettront d'y faire référence dans vos travaux (ex: Banque Sonore des Dialectes Bretons (ou BSDB), AD-29150-LP-0001, 12/09/2013)

Une partie des extraits sonores est illustrée d'images ou de photos. Elles sont accessibles en cliquant sur l'icône située après le lecteur audio.

Voici quelques exemples d'annotations :

1.
Peurunvan : Ma fri ne ra ket nemet diveriñ anezhañ, em eus tapet ur c'horfad sifernadur.
Graphie locale : Ma fri ra ket 'met diveri 'nañ, 'meus tapet er c'horvad chifernadur.
Phonétique : [ma ˈfʁiː ʁa ce ˈmɛ diˈveːʁi ˈnɑ̃w / məs ˈtapət ə ˈχɔʁvat ˈʃifɛːʁnadyʁ]
Français : Mon nez n'arrête pas de couler, j'ai attrapé un rhume.
Mot à mot : mon nez fait pas que couler lui, j'ai pris un accès refroidissement.
Notes : -

2.
Peurunvan : An amzer-se e oa… ur c'hleñved… ur c'hleñved galouzek, hag an dud a varve gantañ. Ha int o devoa lavaret e-barzh… ma… ma zihane ar c'hleñved, re Kimperle a deuje bep bloaz da Bardon Sant Rok da Volan. Ha diouzh an devezh o deus lavaret an dra-se, hag emaint deuet da… da Volan da Bardon Sant Rok, ar c'hleñved-se zo di… zo stopet e-barzh Kimperle. Molan, Pont-Aven, Riek ha tout hed-ha-hed aze, n'o deus ket bet jamez… n'o deus ket bet ar c'hleñved anezhe. Ha Sant Rok zo sañset an hini en deus kaset… digaset an dud da vad.
Graphie locale : En amzer-ze oa… ' c'hleoñd… ' c'hleoñd galouzek, hag 'n dud varve gatoñ. Hag yè nife lâret ba… ma… ma zihane 'r c'hleoñd, re Kumperled teze bep pla da Pardon Sant Rok da Vorl. Ha dou'n deoz neusant lâret 'n dre-zen, hag mant deit da… da Vorl da Pardon Sant Rok, 'r c'hleoñd-se zo di… zo stopet ba Kuperled. Morl, Pont-Aen, Riek ha tout hed-ha-hed az, neusant ket bet jamez… neusant bet c'hleoñd 'nê. Ha Sant Rok zo sañset 'n heñi neus kaset… digaset 'n dud da vad.
Phonétique : [ən ˈãmzəʁ-zə waː / ˈχlɛɔ̃ːt / χlɛɔ̃ ˈgaːluzɛk ag ən ˈdyt / ˈvaʁve ˈgatɔ̃ / agə ˈjɛ nifɛ ˈlaːɾt ba / ma z / maː ˈzihãːnɛ ˈχlɛ̃ʷɔ̃t / ˈʁe cyˈpɛːʁlə ˈtɛze ˈbəplaː da ˈpaʁən sã ˈʁok ta ˈvoːʁl / a dun ˈdeos nəsãn ˈlaːʁ ən ˈdʁə-zən / agə mãn ˈdɛ ta / da ˈvoːʁl də ˈpaʁdən sã ˈʁok / ə ˈχlɛɔ̃ːt-sə zo di / zo ˈstɔpət pa cyˈpɛːʁlət / ˈmoːʁl pɔ̃ˈdɛ̃ːn ˈʁiɛg a ˈtu hetaˈheːd as / nəsãn ce bə ˈʒãməs / nəsãn ce bə ˈχlɛ̃ʷɔ̃ nɛ / a sã ˈʁok / zo / ˈsãːsəd ˈnɛ̃ nəs ˈkas / diˈgasə n ˈdy ta ˈvaːt]
Français : En ce temps-là, il y a avait… une maladie… une maladie galeuse (la peste), et les gens en mouraient. Et ils avaient dit à… que si… si la maladie s'arrêtait, les Quimperlois iraient tous les ans au pardon de Saint Roch à Moëlan. Et du jour où ils ont dit ça, et qu'ils sont venus à… à Moëlan au pardon de Saint Roch, la maladie s'est arr… a été stopée à Quimperlé. Moëlan, Pont-Aven, Riec et tout du long là, ils n'ont jamais eu… ils n'ont jamais attrappé la maladie. Et Saint Roch est soit disant celui qui a guéri les gens.
Mot à mot : -
Notes : Le pardon de Saint Roch est organisé chaque année depuis 1623, date à laquelle il aurait épargné la région de Quimperlé d'une épidémie de peste.

Quelques remarques sur la qualité des transcriptions

Précisons que le passage de l'oral à l'écrit pose de nombreuses difficultés aux transcripteurs. Pour les extraits les plus anciens, il peut s'agir de simples problèmes dus à la qualité acoustique des enregistrements d'origine. Certains extraits n'ont malheureusement pu être réalisés que dans des conditions peu favorables à une bonne prise de son (bruit de frigo, pièce qui résonne…). Cependant un gros effort est fait depuis quelques années pour améliorer au mieux la qualité de nos enregistrements.

En plus des problèmes liés directement à l'oral (qualité de la voix, débit de parole, auto-corrections, hésitations, lapsus…), le breton est une langue qui présente une grande variété de formes selon les régions. Une partie des dialectes enregistrés n'ayant peu ou presque jamais été étudiée, personne n'est à l'abri d'une erreur d'interprétation. Vous pourrez trouver dans les notes accompagnant les annotations certaines remarques de nos transcripteurs (point de grammaire, mot suggéré pendant l'enquête, référence à un article...).

Moteur de recherche

Vous disposez d'un large éventail de critères afin d'affiner au mieux votre recherche dans la base de données. Après avoir saisi un mot ou une expression et choisi sa portée (début de mot, fin de mot, mot exact…), vous pouvez sélectionner la ligne d'annotation qui est ciblée par votre requête. Il peut s'agir de la version en breton (en peurunvan ou en graphie locale), de la transcription en phonétique, de la traduction en français ou encore du mot à mot. Sachez que les recherches via le français ou le breton sont celles qui devraient vous apporter le plus de résultats puisque tous les extraits ne disposent pas forcément d'une traduction mot à mot ou d'une transcription en API. Attention, le choix des majuscules compte ! ("amis" et "Amis" ne sont pas équivalents)

Parmi les autres cibles possibles, vous pouvez faire une recherche par thème (ex: "animaux", "nourriture", "maladie", "agriculture"…), par numéro de réponse à un même questionnaire (ex: "QG1500:0003") ou encore une recherche par identifiant.

Chaque identifiant se compose des initiales du ou des collecteurs, suivi du code INSEE de la commune d'origine puis des initiales de l'informateur et d'un chiffre à quatre unités. La cote AD-29150-LP-0001 correspond donc à un extrait d'enregistrement réalisé par Adrien Desseigne à Moëlan auprès de L.P. En maîtrisant ce système de cote, vous pourrez non seulement retrouver un extrait particulier à partir de son identifiant, mais aussi avoir accès à un plus grand nombre de ressources en jouant sur la portée de votre recherche. Par exemple, en recherchant "-29150-LP-01" avec la portée "contient le mot" sur la cible "cote", vous obtiendrez la première centaine des extraits sonores enregistrés à Moëlan auprès de L.P.

Les autres options de recherche concernent le choix d'une localité en particulier (commune ou département) ainsi qu'un type d'extrait. Nous avons jugé pertinent de distinguer dans ces types les cas suivants :

  • conversations : extrait provenant d'une discussion de tous les jours ou sur un thème en particulier
  • traductions : extrait obtenu à partir d'une traduction d'une phrase donnée en français
  • définitions : définition ou illustration par un exemple d'un mot ou d'une expression en breton
  • chansons : chansons à danser, cantiques, berceuses…
  • contes : récit de veillées ou autre…
  • formules : rimes, prières, proverbes…

Par défaut, le nombre de résultats maximum est fixé à 100. Vous pouvez l'augmenter dans les options jusqu'à 200.

Une fois que vous avez sélectionné vos options de recherches, vous pouvez intervenir sur les options d'affichage. Pour une meilleure lisibilité, vous pouvez par exemple choisir de n'afficher que les transcriptions en graphie locale et les traductions en français et laisser de côté des transcriptions en phonétique ou les notes. Plus amusant, pourquoi ne pas afficher aucune transcription et vous exercer l'oreille à essayer de comprendre les extraits par vous-même ? Enfin, vous avez la possibilité de choisir le nombre de réponses à afficher par page.

Commandes spéciales

Le moteur de recherche comprend certaines commandes spéciales. Si vous tapez "TOUT" dans la barre de recherche, tous les extraits correspondant à vos options de recherche seront affichés dans la limite du nombre de résultats affichables (200 maximum). Cette commande pourra vous être utile si vous voulez par exemple trouver tous les proverbes, prières ou autres formules collectées dans une commune en particulier.

Les mots "rares" ou absents des principaux dictionnaires bretons publiés jusqu'à présent sont précédés dans les transcriptions en peurunvan du symbole °. Ce caractère spécial intéressera donc particulièrement les personnes souhaitant étudier le vocabulaire puisqu'ils pourront l'utiliser dans leurs recherches. Voici un exemple simple : En tapant "°p" dans le barre de recherche avec en option de recherche la portée "début de mot" et la cible "peurunvan", on obtient tous les extraits contenant des mots rares commençant par la lettre "p".

Nouvelles fonctionnalités à venir

De nouvelles fonctionnalités sont en cours de développement afin d'étendre les critères de recherche dans notre base de données. Parmi les prochaines options, on prévoit par exemple la possibilité de faire des requêtes en prenant en compte des données morphologiques ou syntaxiques, de sélectionner des localités par terroir, de trier les résultats en fonction de la pertinence ou de la date de naissance des locuteurs ou encore d'afficher les résultats cartographiés à la manière d'un atlas linguistique. Nous espérons ainsi que ces nouveautés viendront améliorer toujours plus vos moyens de découverte au coeur de la langue bretonne !