Catégories
Doctissimo

De la « chasse » aux doubles pseudos à la reconnaissance fessiale

Un jour, soupçonnant que des forumeurs multipliaient les pseudos sur le fil de discussion Doctissimo, j’ai développé en quelques heures un petit programme en Python qui faisait le datascrapping (la récupération) de tout le fil de discussion « Recherche Théâtre Erotique à Paris » (près de 250 pages à l’époque), un petit « aspirateur de l’internet » ainsi que des traitements statistiques NLP (Natural Language Processing) sur les mots utilisés. Dans une « table », en colonne j’ai placé tous les contributeurs du forum, dans l’autre leurs textes. Puis j’ai fait un « merge », c’est à dire une concaténation de toutes les textes écrits par chacun depuis le début. Ainsi, en face de chaque pseudos, j’avais la prose parfois importante, de chacun, écrite sur plusieurs années. On pense que les maths ça ne sert à rien, mais il faut plutôt se résoudre à accepter notre manque d’imagination dans leurs possibilités d’application. Revenons au problème de recherches de doubles ou triples pseudos : J’ai ensuite construit pour chaque pseudo un espace vectoriels (une matrice) à N dimensions où chaque dimension correspondait à un mot spécifique utilisé dans leur corpus. La longueur du vecteur associé à chaque dimension correspondait à la fréquence d’apparition de mots non « basiques » utilisés (avec pondération importante pour les mots ou formes non usuelles). Ainsi chaque pseudo de forumeur correspondait alors à un espace vectoriel singulier à N dimensions (N mots) et il m’était ainsi possible de mesurer la distance vectorielle – distance euclidienne ou « cosine distance » entre chacun de ces espaces, c’est à dire leur ressemblance. C’est un peu technique je sais, mais c’est cette distance qui permet de mesurer la « distance entre deux pseudos » , c’est à dire de dire que mathématiquement XXXX est proche à 96% de YYYY… Et c’était très intéressant ainsi de constater les doubles, triples ou quadruples usages de pseudos probables dans une même façon d’écrire, syntaxe, fautes d’orthographe, usage de majuscules et minuscules, acronymes particuliers compris.

Pour ma part, et sans surprise, mon petit algorithme a vite remarqué que Mad-Dog était proche à 92.5% de TL4.3 et à 93.8% d’anciens écrits non effacés de Woland.

Bref… les maths c ‘est amusant, mais c’est aussi aussi la fin de l’anonymat ! Car oui, depuis cette algorithme développé il y a trois ans, je me suis intéressé à ceux utiles à la reconnaissance d’image et je suis maintenant en mesure de me lancer dans la reconnaissance « fessiale »…

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s