Définition des différents styles utilisés pour les infos -----------------------------------------

----------------------------------------- Maquette pour l'affichage individuel des infos -----------------------------------------

« Précédente | Info | Suivante »

Les courbes généreuses de Madame ngrams | 2010-12-17

Nouvel outil de Google, ngrams inscrit 500 milliards de mots dans des courbes. (#Google #Statistique #GoogleLivres )

graph-crapouillot.png: 900x330, 40k (29 décembre 2010 à 01h34) graph-franglais.png: 900x330, 51k (29 décembre 2010 à 01h32) graph-salope.png: 900x330, 36k (29 décembre 2010 à 01h59) graph-trouducul.png: 900x330, 51k (29 décembre 2010 à 01h31)

La numérisation de 12 millions d’ouvrages datant de 1800 à 2000 permet d’étudier scientifiquement l’évolution du vocabulaire et de saisir toutes sortes de réalités plus ou moins connues

Combien existe-t-il de mots anglais ou français? Comment naissent-ils ou disparaissent-ils? Comment la censure efface-t-elle des noms? Une partie des réponses se trouve dans les quelque 130 millions d’ouvrages que les humains ont écrits au fil des siècles. Une équipe américaine propose un outil informatique pour explorer la gigantesque bibliothèque constituée par Google. Ses travaux sont présentés dans la revue Science aujourd’hui.

Depuis 2004, le géant d’Internet Google a numérisé 12 millions d’ouvrages. Pour chacun d’entre eux, les images des pages ont été traduites en textes par des programmes spécialisés. Ce réservoir de documents restait inaccessible aux chercheurs. Mais une équipe conduite par le Français Jean-Baptiste Michel à l’Université de Harvard s’est rapprochée de Google pour mettre au point des outils d’analyse de ce corpus géant. Elle en explique les principes dans Science, nourris de nombreux exemples, à partir de l’étude de 5 millions de livres, édités entre 1800 et 2000. Soit environ 4% de l’ensemble des livres jamais publiés! Au total, la base de données comprend 361 milliards de mots anglais, 45 milliards de mots français et espagnols, 37 milliards de mots allemands ainsi que des milliards de mots russes, chinois et hébreux. Du jamais vu, selon les linguistes.

Que ressort-il des exemples relatés par Science? On y redécouvre que le lexique anglophone comptait 500 000 mots en 1950, autant qu’en 1900 mais qu’il s’est enrichi depuis au point d’avoir doublé à l’aube du XXIe siècle. Et que les acteurs connaissent une notoriété plus jeune et plus importante que celle des scientifiques. Mais que leur célébrité est moins durable.

L’étude de la fréquence des mots révèle aussi leur lien avec des événements historiques. Ainsi, l’expression «grande guerre» apparu en 1914 a largement cédé la place à «première guerre mondiale» quand le conflit de 1939 a éclaté. Et le terme «grippe» a connu des pics après chaque épidémie meurtrière en 1889, 1918 et 1968.

La censure politique se lit clairement dans les bases de données: le mot «Tiananmen» a connu un vif succès dans les ouvrages anglophones après les événements de Pékin en 1989. En revanche, en chinois, ces derniers passent presque inaperçus. Dans les livres ­américains, les noms des «dix d’Hollywood», des personnalités soupçonnées en 1947 d’être communistes, seront moins fréquents avant de réapparaître à partir de 1960. De même Marc Chagall, peintre russe et juif, a presque disparu des textes en allemand pendant la période nazie.

(Lire la suite sur letemps.ch)

letemps.ch, Denis Delbecq.

    Source : http://www.letemps.ch/ ; compléter avec Véronis. Merci DB.
    Posté par gb