Sujet : Corpus français
Mais oui, encore un corpus. Fait par les universités de Leipzig (Allemagne) et Neuchâtel, en ligne ici, communiqué de presse ici.
Le Corpus français (http://wortschatz.uni-leipzig.de/ws_fra/) est une base de données composée de près de 37 millions de phrases, soit quelque 700 millions de mots. (...) Quant au corpus, dédié à l'étude du français contemporain écrit, il est composé de trois parties :
- presse francophone (plus de 19 millions de phrases)
- pages web (plus de 11 millions de phrases)
- Wikipédia (près de 6 millions de phrases)
Malheureusement, il y a peu d'options de recherche, et il faut ajouter que "presse francophone" signifie les pages internet de journaux, de blogs et d'autres "médias". En fait, c'est comme un Google moins fructueux mais qui donne des co-occurrences.