P'tit prof a écrit:Mais me direz-vous comment on s'y prend pour faire répondre à Google que misonéisme fait 305 ? Sur quel bouton on appuie ? [...]
D'autre part, vous dites que Google indexe tout. Mais il voulait indexer la Bibliothèque Nationale, et il s'est heurté à un refus. Donc, il n'a pas tout indexé, contrairement à Perseus qui bénéficie d'un corpus réduit et définitivement clos.
De toutes façons, Google ne peut indexer que ce qui figure sur le Net, pas vrai ? [...]
Donc, derechef et da capo, comment faites-vous pour obtenir ces chiffres ?
Un peu de retard à répondre (<-j'ai hésité).
Pour trouver 305 à misonéisme, 304 tout de suite pour être exact, je fais comme vous, mais je sélectionne les pages françaises (et j'utilise google.fr) : http://www.google.fr/search?num=100& … DcountryFR
Ces chiffres, évidemment, ce sont ceux qui apparaissent en haut de la page de recherche, de la forme «Résultats 1 - 100 sur un total d'environ 304 pour misonéisme.»
Et je trouve pour ma part que c'est indice rudement utile que presque aucun dictionnaire ne nous donne (les statistiques du TLFi sont difficiles à exploiter). Avec un peu d'optimisme (ne dites pas pire s'il vous plaît), et un peu d'habitude, ça marche très bien.
Par exemple : entre papillon et prune, lequel est le plus fréquent pour désigner la contravention ? On lance une recherche à la louche sur prune contravention (21200) et une autre sur papillon contravention (682).
Bien sûr, il y a du bruit, du parasitage, mais c'est tolérable ; au vu des résultats, on peut y aller franco, mettre sa main au feu et donner sa tête à couper : prune est plus fréquent que papillon pour désigner la contravention. Tout le monde le savait ?
Enfin, c'est comme ça que je vois naïvement les choses. (je n'ose plus binetter...)
Bien sûr, les moteurs de recherche n'indexent pas «tout» : ils suivent les liens, et enregistrent tous les textes qu'ils trouvent. Ce n'est pas tout mais il y a de tout, et en grande quantité. Si l'on veut étudier la réalité du lexique, français ou anglais ou allemand, etc., c'est un outil formidable, étant entendu qu'il y a évidemment des problèmes sur certaines recherches (sexe, immobilier, voyages, nouvelles technologies; commerce en général et encore ailleurs : cherchez «mangeur de cigogne» : 203000 résultats pour une phrase qui ne devrait pas apparaît plus d'une dizaine, parce qu'il y a eu un concours de référencement autour de ce mot clé).
Bien sûr encore, tous les résultats ne sont pas pertinents : mais autour de «candidater», et autour de «misonéisme», il ne doit pas y avoir beaucoup d'interférences.
Pour «prune» et «papillon», il faut biaiser : ajouter «contravention» aux deux recherches permet de les comparer équitablement (amha). Et qu'un mot apparaisse dans un dico, et constitue un «point» supplémentaire, ça ce n'est pas choquant.
Ce n'est pas important bien entendu ; mais je persévère : malgré tout le mal qu'on peut en penser, «candidater» est fréquent, on peut le prouver ; un dictionnaire dynamique devrait l'avoir enregistré depuis, pfff, au moins 10 ans.
Deux liens rapides vers des outils de Veronis pour d'autres illustrations (son blogue sur les technologies du langage est très intéressant) :
un outil efficace ici, qui sert à écrire dans des polices proprotionnelles à leur importance, les mots associés à une recherche (où l'on voit clairement que candidater => diplôme, formation, licence...) : http://www.up.univ-mrs.fr/cgi-veronis/n … ille=petit
Un autre assez efficace sert à montrer la courbe de fréquence d'un mot : http://www.up.univ-mrs.fr/cgi-veronis/c … =Soumettre (où l'on verra que le mot apparaît surtout en septembre/octobre, mais ce n'est pas très net).