Le jeu de règles

clean_corpus possède un jeu de règles qu'il applique à tous les mots de votre corpus de Popfile. Ces règles sont conçues pour détecter les "faux" mots, et elles sont très efficaces. Un point très important est que clean_corpus ne vérifiera pas tous les mots de votre corpus. A moins que vous ne lui spécifiiez le contraire (voir les options de la ligne de commande), il ne prendra en compte que les mots qui ont un compteur à 1, de façon à ce que les "vrais" mots aient encore moins de chance d'être éliminés.

Voici les règles :

1. Pas de séquence de voyelles ou de consonnes plus longue que 3!

Si le script rencontre un mot qui contient une séquence de plus de trois voyelles ou consonnes consécutives, le mot sera écarté.

2. Pas de mot constitué seulement de consonnes ou seulement de voyelles !

Les véritables mots sont constitué de voyelles et de consonnes entremêlées. Si nous trouvons un mot constitué seulement de consonnes ou seulement de voyelles, il est écarté.

3. Pas de séquence de caractères "étranges"!

Un caractère étrange est un caractère en dehors de l'intervalle ASCII de 192 à 255 (hormis les caractères accentués).

4. Pas plus de 3 chiffres consécutifs

Si un mot (exceptées les adresses électroniques ou adresses IP) contient plus de 3 chiffres consécutifs, il est exclu de votre corpus.

5. Pas de répétition de séquences!

Si une séquence de 2 caractères ou plus est répétée plus de deux fois dans un mot, il ne s'agit probablement pas d'un vrai mot.

6. Pas de triplet inconnu!

En utilisant des dictionnaires, nous avons compilé des listes de séquences de trois caractères (triplets) pour chaque langue. Si nous rencontrons un triplet qui n'appartient pas à notre liste de triplets permis/connus, nous écartons le mot.

7. Pas d'identificateur de message !

Si quelque chose ressemble à une adresse électronique mais contient plus de 3 chiffres consécutifs avant le symbole @, nous considérons qu'il s'agit d'un identificateur de message et l'écartons.

En lisant tout ceci, vous vous êtes peut-être dit : "Eh, mais ça va écarter xy!". Nous avons tenté de garder le taux d'erreur aussi faible que possible. En fait, seule la règle 7 évaluera les mots qui ressemblent à des adresses électroniques. Nous avons compilé une longue liste d'abréviations courantes, donc IBM ne sera pas écarté. Nous avons fait attention aux caractères accentués, etc. Donc ne vous inquiétez pas trop des erreurs éventuelles car nous l'avons déjà fait à votre place. Au lieu de cela, pensez à tout ce qui sera éliminé : les "polluposteurs" (spammers) aiment insérer des séquences de caractères aléatoires dans leurs messages car ils "pensent" étrangement que cela va empêcher les filtres de fonctionner. De plus, les versions de Popfile antérieures à la version 0.19 comportaient un dysfonctionnement qui leur faisait traiter les séquences encodées comme des mots. Enfin, les identificateurs de messages alourdissent votre corpus, et vos correspondants font parfois des fautes de frappe qu'ils ne répèteront sans doute jamais.

Suivant : Comment utiliser clean_corpus.