Passer au contenu du forum

forum abclf

Le forum d'ABC de la langue française

Mise à jour du forum (janvier 2019)

Remise en l'état – que j'espère durable – du forum, suite aux modifications faites par l'hébergeur.

forum abclf » Promotion linguistique » La BnF et les Wikimedia

Pages 1

Répondre

Flux RSS du sujet

Messages [ 5 ]

Sujet : La BnF et les Wikimedia

Voici une information que je trouve assez renversante.

http://www.01net.com/editorial/515001/l … wikimedia/

Et qui corrigera les correcteurs ? Ceux qui contribuent à la galaxie wiki ont-ils les qualités nécessaires pour faire cet immense travail de collation ? Qu'est-ce qui garantit qu'ils ne vont pas hypercorriger en écrivant p.ex. enfants là où le texte (de Hugo, par exemple) donne enfans ? Quelle est la doctrine concernant les inévitables coquilles des originaux ? Comment empêcher, parmi ces relecteurs anonymes, l'action d'un plaisantin qui prendrait plaisir à saboter les textes, et comment pourrait-on déceler ses contributions ? Comment éviter que parmi les relecteurs se trouvent des gens qui maîtrisent mal le français, comme c'est trop souvent le cas chez Wiki ?

Je ne demande pas aux abéciens de répondre à ces questions, mais c'était aux intéressés (la BnF, Wikisource) à mettre toutes ces questions sur table. Et s'ils l'ont fait, on aimerait bien qu'ils communiquent ouvertement avec le public.

Pour ma part, je n'utilise que les versions "'images" de Gallica (et de Google Books). Je me méfie des autres. J'ai eu assez souvent l'occasion de repérer des absurdités dans la base numérisée Frantext, qui est si je ne me trompe incluse, du moins partiellement, dans Gallica. Quant à des choses comme Archive.org numérisé et le Projet Gutenberg, on y trouve des monstruosités à chaque ligne.

Je me demande dans quelle mesure cet accent mis sur la numérisation est bien utile. Pour des travaux statistiques sur de vastes corpus, quelques erreurs dans la base sont insignifiantes. Pour l'étude de textes littéraires classiques, les éditions savantes modernes sont la plupart du temps plus riches que les originales, tirant parti de remaniements ultérieurs éventuels, de variantes préoriginales, et comblant souvent grâce à des notes la faille qui sépare la poésie de Lamartine (cité dans le communiqué) du lecteur de l'an 2010.

C'est donc aussi une déclaration générale d'intention que j'aurais souhaitée de la part de la BnF. Mais ces messieurs ont toujours su mieux que nous, misérables lecteurs, ce que nous souhaitons et ce dont nous avons besoin.

2 Dernière modification par Naïf (11-04-2010 23:26:20)

Re : La BnF et les Wikimedia

L'idée de faire de "nous tous" des moines copistes, pour saugrenue qu'elle puisse sembler, est-elle si mauvaise que cela?

Les erreurs de lecture de cet avenir-là seront simplement différentes de celles du passé - médiéval, moderne ou contemporain (voyez les éditions du 19ème et du 20ème organisant la valse des ":" et ";" ou les actuelles éditions de classiques à petit prix remplies de coquilles mais recommandées dans les classes).

Vous le dites bien: les philologues en quête d'authenticité s'y retrouveront toujours: clichés d'originaux, restauration de manuscrits assistée par de puissants logiciels. Les autres prouveront une fois de plus que l'internet n'est ni la mort de la lecture, ni le figement de paroles dans des blocs de glace.

Du point de vue de Sirius, en tout cas, la perspective de ce vaste chantier de relecture on-line du patrimoine littéraire a quelque chose de délicieusement exaltant.

PS. J'ai oublié de dire que je souhaitais qu'on me mette Stendhal de côté, dacodac?

3

Re : La BnF et les Wikimedia

Je répondrais deux choses en réponse à ce qui n'est pas une question wink

1/ L'avantage avec Wikisource (et des outils de ce genre), c'est que des erreurs pourront être corrigées rapidement et facilement par qui les voit. Probablement qu'il y aura une page de conseils indiquant les règles à suivre : reproduire le texte tel qu'il était, sauf (peut-être) pour les coquilles évidentes et (peut-être toujours) pour une modernisation raisonnable de l'orthographe (s, f, abréviations, etc.)
2/ Moi aussi je lis les versions « images » (et tant qu'il est possible de la consulter on peut dire qu'elle seule « fait foi »), d'abord parce que c'est plus confortable ; mais je suis très heureux qu'il se trouve derrière les images une version textuelle même approximative qui rende les recherches possibles. Si une partie des erreurs seulement est corrigée, cette recherche sera toujours un peu plus performante.
Qu'il y ait des erreurs sur Frantext, ou dans le TLFi, et ailleurs dans des projets ambitieux et de qualité, connues, et qu'elles ne soient pas corrigées est navrant.

Pour en revenir à Gallica, sur le principe, que les utilisateurs puissent améliorer le contenu, corriger petit à petit les erreurs de la numérisation, c'est plutôt une bonne chose si l'on n'attend pas de chacun un travail de professionnel. Au moins à essayer. Wikipedia est plutôt réussi. Il serait temps d'y penser. Une entreprise collaborative de qualité a marché (je crois) pour une partie du ms de Madame Bovary  (http://bovary.univ-rouen.fr/).
Pour Gallica, il faudrait encore ouvrir les possibilités d'intervenir : corriger le texte sorti de la machine n'est pas la seule interaction intéressante : il aurait pu être possible d'annoter le texte et surtout de poser des questions sur des difficultés précises (à chaque livre ses questions, qui seraient regroupées par auteur/genre/époque, répondues ou non, etc.) pour appeler d'autres lecteurs mieux informés à donner des réponses (autour de Flaubert, il reste quelques questions pour érudits patentés : http://flaubert.univ-rouen.fr/questions_reponses/)
Gallica n'a que peu évolué et son développement est débile : de mon point de vue d'utilisateur épisodique, rien n'a fondamentalement changé depuis 10 ou 15 ans, hormis la masse de documentation et l'arrivée de la presse. À cette époque je recevais internet par le câble et Google n'existait pas (on utilisait Altavista et Yahoo car Voila était déjà nul).

(Juste un rapide un hors sujet à propos de Gallica : il y a même un « blog » sur lequel je me suis fait modérer (message non publié, ou en attente?) pour avoir critiqué le moteur de recherche perdu en bas de page (sur le blog), la création fièrement annoncée d'une page parfaitement inutile sur Facebook  (toi aussi tu es fan de Gallica ? alors clique et gagne des kudos), les « nuages de mots » qui ne servent à rien, et le surprenant javascript de Gallica qui efface ce qu'on a écrit dans le champ de recherche – Je n'avais pas encore remarqué que « email » prenait la place de « courriel » sinon je l'aurais ajouté à la liste... Ça va mieux en le disant wink).

4 Dernière modification par Pierre Enckell (11-04-2010 23:44:43)

Re : La BnF et les Wikimedia

Pour illustrer mon propos, voici quelques passages tirés de la base Frantext, ensemble de textes numérisés à grands frais - je suppose - par le CNRS, d'abord pour alimenter le TLF, puis augmenté, jusqu'à l'année dernière au moins, sans but précisément déclaré.

Pour qu'on se rende mieux compte du problème, voici, tout à fait au hasard, le nombre d'attestations fournies par cette base pour quelques mots variés : amoralisme, 20 occurrences ; moustique, 129 occurrences ; putréfaction, 261 occurrences ; saucisson, 391 occurrences ; lieutenant-colonel, 457 occurrences. Mais bien au-delà de ces chiffres, avec 733 occurrences, on trouve le mot eti. J'ai bien dit eti. C'est un mot français, puisqu'il figure dans la base Frantext. En voici quatre exemples, scrupuleusement transcrits.

[...] les écarts du rapport légal de *lài 5, *5, étaient donc restés modérés entre *l 824 eti 825 [...]. (Shaw, Histoire de la monnaie, 1896, p. 158.)

Qu'étaient les effectifs de *l 8 i 2 eti 8 i 3 à côté de ceux de *l 87 o ? (Foch, Des principes de la guerre, 1911, p.19.)

Avec leur vitesse de route qui varie entre *lond 5 eti 5 suivant les types, les chalutiers [...]. (Le Masson, La Marine, 1951, p. 117.)

les *l 2, *l 3 eti 4 maii 95 o, 7 ooooo jeunes paysans se réunissent au parc des princes [...]. (Debatisse, La Révolution silencieuse, 1963, p. 139.)

Il n'y a pas besoin d'être très malin pour s'apercevoir que ces insanités proviennent principalement des difficultés de la machine à lire les nombres. Mais la première personne à avoir relu le premier texte comportant des nombres, voici maintenant plusieurs décennies, a dû très vite s'en apercevoir aussi. Qu'a-t-on fait ? Que dalle. On a continué à nourrir la machine qui a continué à produire des insanités. Sept cent trente-trois, en l'occurrence. Avec toutes sortes d'autres scories et imperfections, elles sont toujours présentes aujourd'hui sur cette base numérisée. Le CNRS qui l'a produite et qui la gère a-t-il cherché à les rectifier ? Pas que l'on sache. Il n'a même pas eu l'élégance de mettre dans le TLF un article eti, bien que - c'est scientifiquement prouvé! - le mot soit presque deux fois plus courant que saucisson.

5

Re : La BnF et les Wikimedia

Vous avez parfaitement raison : le travail commencé n'est jamais terminé. Il fallait à l'évidence vérifier d'abord si tous les mots « sortis » étaient possibles (en les comparant à une large répertoire de formes possibles). eti repéré comme forme suspecte, il aurait fallu le corriger.

Par principe, je trouve normal, légitime et souvent indispensable de publier quelque chose d'inachevé, lorsqu'il s'agit d'un long projet (s'il fallait attendre la perfection, il ne verrait jamais le jour) ; mais sous la condition de travailler à son amélioration. Même avec ses fautes, Frantext est sans doute utile à ceux qui peuvent l'utiliser. Mais il fallait continuer de l'enrichir et de corriger les erreurs relevées.
De ce point de vue, je suis persuadé que les contributeurs des grands wikis feront mieux que le CNRS.

Qui dirigeait le projet Frantext, y avait-il assez de crédits ?

Messages [ 5 ]

Pages 1

Répondre

forum abclf » Promotion linguistique » La BnF et les Wikimedia