clean_corpus.pl
Script pour nettoyer votre corpus de Popfile. Version actuelle : 9b (25 juin 2004)
Nouveautés
Je me suis enfin décidé à mettre à jour clean_corpus. La version 9 est compatible avec POPFile 0.20, 0.21, et avec la version 0.22.
En plus de la compatibilité avec la nouvelle version de POPFile, clean_corpus 9 possède une nouvelle règle. Cette règle n'est utilisée que dans ce que nous appellerons le "mode de probabilité". Le mode de fonctionnement par défaut de clean_corpus fait toujours ce que vous attendez qu'il fasse : il recherche les "faux mots" et les élimine de votre corpus.
Le mode de probabilité est décrit dans (vous l'auriez deviné) la page du mode de probabilité.
Qu'est-ce que clean_corpus.pl?
Si vous êtes arrivé ici, vous savez probablement ce qu'est Popfile. Si vous l'ignorez, cette page ne vous sera pas utile. Mais si vous utilisez le courrier électronique, vous devriez vraiment essayer Popfile.
Rappel : le corpus est l'ensemble des mots qui ont été rencontré dans
les messages que vous avez reclassifiés, et qui permettent à Popfile de déterminer
à dans quelle catégorie ranger les messages.
Si vous utilisez Popfile depuis un certain temps, votre corpus a du grossir. Il a même pu grossir plus qu'il n'aurait dû. Il y a des mots dans les courriers électroniques qui ne devraient jamais être retrouvés ailleurs dans un autre message. Par exemple, les identificateurs de messages doivent être uniques, alors pourquoi les garder dans votre corpus ? Il y a d'autres exemples, comme les mots générés de manière aléatoire dans les pourriels (spam) afin de perturber les filtres de messages, mais aussi les fautes de frappe ou les "mots" que les versions précédentes de Popfile extrayaient des messages encodés.
Tout ceci fait enfler votre corpus, mais ne perturbe pas la fiabilité de Popfile. Cependant, cela consomme de la mémoire et des ressources du processeur. C'est pourquoi certains pensent que leur corpus doit rester propre et net. C'est ici qu'intervient clean_corpus.
clean_corpus.pl est un script Perl qui va nettoyer votre corpus.
Pour mener à bien sa mission, il utilise un jeu de règles conçues pour distinguer les "vrais"
mots des "faux".
clean_corpus.pl n'est pas conçu pour améliorer les qualité de classement de Popfile,
mais pour conserver cette qualité tout en réduisant le nombre de mots dans le corpus.
Pour cela, il va supprimer de votre corpus les "mots" qui ne seront jamais utilisés pour classifier un
nouveau message.
Il n'est ni nécessaire, ni même conseillé de lancer clean_corpus très souvent.
Une fois par mois, ou même seulement quelques fois par an est suffisant, en fonction du nombre de
reclassifications que vous avez effectuées.
En effet, le script va, par défaut, traiter seulement les mots qui ont un compteur de 1, c'est-à-dire
qui ne sont apparus qu'une seule fois dans un message reclassifié. Si vous en supprimez trop souvent avec
clean_corpus.pl, leur compteur n'aura pas le temps d'augmenter.
Si vous pensez que votre corpus est trop gros, lancez clean_corpus.pl et regardez ce que cela donne.
Si vous pensez que la qualité de classement de Popfile n'est pas assez bonne, nous ne pouvons rien faire pour vous.
Suivant : Le jeu de règles.