Passer au contenu du forum

forum abclf

Le forum d'ABC de la langue française

Mise à jour du forum (janvier 2019)

Remise en l'état – que j'espère durable – du forum, suite aux modifications faites par l'hébergeur.

forum abclf » Internet et informatique » Corpus français

Pages 1

Répondre

Flux RSS du sujet

Messages [ 2 ]

Sujet : Corpus français

Mais oui, encore un corpus. wink Fait par les universités de Leipzig (Allemagne) et Neuchâtel, en ligne ici, communiqué de presse ici.

Le Corpus français (http://wortschatz.uni-leipzig.de/ws_fra/) est une base de données composée de près de 37 millions de phrases, soit quelque 700 millions de mots. (...) Quant au corpus, dédié à l'étude du français contemporain écrit, il est composé de trois parties :

- presse francophone (plus de 19 millions de phrases)
- pages web (plus de 11 millions de phrases)
- Wikipédia (près de 6 millions de phrases)

Malheureusement, il y a peu d'options de recherche, et il faut ajouter que "presse francophone" signifie les pages internet de journaux, de blogs et d'autres "médias". En fait, c'est comme un Google moins fructueux mais qui donne des co-occurrences.

Ceci devient vraiment insignifiant. - Pas encore assez.

2

Re : Corpus français

Merci Andreas !

Si je ne m'abuse, c'est pour savoir avec qui ou quoi fonctionne généralement un mot : argotique fonctionne avec : vocabulaire ~ ; dormir avec : ~ debout ; voulez avec : vous ~. Et, de manière plus générale, quels mots apparaissent le plus souvent à proximité de tel autre (cf. Airbus) .

Avec un large corpus, c'est peut-être intéressant si l'on sait quoi chercher et quoi faire apparaître et quels enseignements en tirer ;
mais il y a des choses à améliorer naturellement : la ponctuation ne devrait pas être considérée comme un voisin possible et les accents (enculé /encule) sont ignorés.

Pour les fréquences, il faudrait indiquer, en plus de celle du mot cherché, celle des composants du « graph » ou des cooccurrences (plutôt que d'afficher celle de de est de  2^18). Et idéalement, la répartition : présence partout ou pas partout ?

Un graphique, pour les voisins, aurait permis de mieux voir rapidement la répartition.

C'est tout de même assez différent de Google et les informations quantitatives sont importantes. Ce genre d'outil pourrait être couplé avec un dictionnaire.

Messages [ 2 ]

Pages 1

Répondre

forum abclf » Internet et informatique » Corpus français