Définition des différents styles utilisés pour les infos -----------------------------------------

----------------------------------------- Maquette pour l'affichage individuel des infos -----------------------------------------

« Précédente | Info | Suivante »

Le TLF sur CD | 2004-12-16

Sur l'informatisation du TLF (#Dictionnaire #TLF )

Le Trésor de la langue français sur CD

Mettez un trésor dans votre PC

Les seize tomes papier du Trésor de la langue française enfin accessibles sur un seul cédérom.

« Trésor ». Tout est dans ce nom. Sans s’arrêter au fait que le mot est l’équivalent de « thesaurus » et qu’il désigne peu ou prou l’ensemble des mots d’une langue, il évoque quelque chose de précieux, de caché, de menacé. C’était un peu ça.
Ce que l’on connaissait sous le nom de Trésor de la langue française, il y a encore peu de temps, c’était un ensemble de seize tomes, volumineux et chers, accessibles uniquement en bibliothèque. Inutile de dire que chercher des références multiples tenait de l’exploit physique, rendu d’ailleurs impossible par le fait que le tome qui contenait LA référence salvatrice était justement « en main ». Plus de souci de ce genre : pour le tiers du prix d’un seul des volumes du TLF, on peut avoir en poche, ou presque, les 100 000 mots, les 270 000 définitions, et les plus de 400 000 exemples d’auteurs de sa version informatisée.
Place au TLFI, donc, point d’aboutissement et nouveau départ d’une entreprise lexicographique inédite, remontant à près d’un demi-siècle. Tout commence dans les années cinquante : le Littré vient de tomber dans le domaine public, et une controverse agite le monde savant : faut-il le réimprimer tel quel, en tant que monument historique, ou l’«actualiser» ? Il est vrai que depuis la publication de sommes réputées, comme le New English Dictionnary dit Oxford, la France était un peu en retard. En 1960, la décision est prise : on réimprimera le glorieux ancêtre et on lui donnera un successeur, élaboré par un collectif de chercheurs, le Centre de recherche pour un trésor de la langue française, suivant en cela un voeu datant d’un colloque qui fit date, à Strasbourg, en 1957. En 1971, le premier tome sort des presses. Quinze le suivront, fruits du labeur de plus de cent collaborateurs, jusqu’en 1994.
Dès le début, ou presque, on s’est déjà posé le problème de l’usage de l’informatique, pour son élaboration, puis sa consultation. En 1964, les premiers ordinateurs sont à l’oeuvre, les fameux Gamma 60 de Bull, fleurons du «plan calcul», qui joueront un grand rôle dans l’indépendance technologique, et militaire, voulue par de Gaulle. La première tâche était de constituer un corpus de langue, et pour cela d’effectuer un dépouillement exhaustif de milliers d’oeuvres littéraires françaises pour en tirer une base d’usage des mots. Ainsi naquit et prospéra, de 1964 à 2002, Frantext, riche aujourd’hui de plus de 4 000 oeuvres littéraires francophones des XIXe et XXe siècles, la base de données de ce type la plus riche du monde, racine des sens et source des exemples du Trésor.
Sous son gigantisme, il est en effet borné, au sens strict du terme, dans ses ambitions. C’est un dictionnaire de langue et non une encyclopédie, ni un dictionnaire d’idées. Peu d’informations sur les choses ou les concepts : forme, sens, emploi, étymologie et histoire suffiront à définir et caractériser un mot. Les exemples aideront à préciser le sens. Le dictionnaire est fondé sur le principe d’«autorité» : ce sont les auteurs, dans leurs textes, qui créent la langue. C’est un dictionnaire francophone : on y trouvera des mots français, wallons, romands, canadiens ou africains, mais pas de mots étrangers, même courants. Enfin, il accueille la langue du XIXe et du XXe siècle, quitte à travailler à des ouvrages sur des états antérieurs de la langue, français classique, moyen français, ancien(s) français, ce qui est en cours par ailleurs. Ne cherchez donc d’exemples ni chez Voltaire ni chez Racine, moins encore Rabelais ou Montaigne. Le TLF n’est pas le dictionnaire de la langue de Molière. Mais Frantext ayant entamé sa remontée dans le temps, il est permis d’espérer chercher «maraud» dans Marot, ou Marivaux.
Mais deux siècles de langue, c’est beaucoup, quand on peut en sortir ce que le logiciel qui motorise le TLF permet de faire, et qui va plus loin que les fonctionnalités disponibles pour ceux qui connaissaient le site Internet. Le livre qui accompagne le CD-Rom (160 pages plus 430 pages de liste complète des 100 000 entrées) indique dans quel niveau de détail le texte a été découpé, encodé de balises permettant une exploration détaillée. On peut chercher de toutes les manières imaginables et d’autres encore. Des mots «fléchis» (au pluriel, conjugués), mal orthographiés, sont repérés sans peine : gros souci de moins pour l’étranger qui n’ira peut-être pas chercher «irons» à «aller».
Un module d’interrogation purement phonétique permet de remonter à un mot seulement entendu. Surtout, des recherches assistées, structurées permettent des demandes invraisemblables. Afficher toutes les citations de Chateaubriand. (Il y en a 1 344 : essayez à la main !) Donnez toutes les occurrences de langage populaire dans Zola ou Céline, tous les exemples (du dictionnaire) où Victor Hugo emploie le mot «liberté». Produire toutes les définitions des mots se terminant par «manie», «philie» ou «phobie». Faire une liste de tous les termes de couleur à partir des seuls sept mots qui vous viennent à l’esprit. À chaque fois, le TLF se sort les tripes et affiche la ou plutôt les réponses aux plus tordues des questions. Et on annonce même pour bientôt un programme qui permettra de trouver le «mot sur le bout de la langue». À une question du type : «Comment dit-on quelque chose comme déshabiller, dépouiller, un arbre ?», il sera capable de répondre «écorcer». Ajoutons quelques bonus, comme le programme qui permet de tricher aux mots croisés (ou d’élaborer votre grille) et surtout la possibilité de l’interroger directement à partir de Windows (un rêve !), et on peut dire que les possesseurs d’un PC seront comblés (le tour des Mac viendra bientôt, assurent les éditeurs). On doit aussi saluer le prix très bas pour ce type d’ouvrage, fruit d’une politique bien comprise de service public. À l’heure où des incertitudes pèsent sur son sort, il n’est pas indifférent que le CNRS démontre qu’il peut damer le pion au privé sur son terrain et que le consommateur y gagne lui aussi.

Alain Nicolas.

Trésor de la langue française informatisé, CNRS, université de Nancy 2, Analyse et traitement informatisé de la langue française. Sous la direction de Jean-Marie Pierrel. CNRS éditions. Cédérom + livret 590 pages. Prix de lancement 69,90 euros (configuration requise : PC Pentium II 350 MHz, 64 Mo RAM, disque 450 Mo, Windows 98 ou NT4 et au-delà).

    Source : http://www.humanite.presse.fr/(valider les liens)
    Posté par gb