LordPhoenix's Blog

Informatique, Internet , Logiciels libres, photographie et petites histoires.

Pourquoi les sites web concernant le libre ne devrait pas utiliser GoogleAnalytics

Mise à jour du 19 janvier :

J’ai mis la réponse détaillé aux commentaire en fin d’article. Cela apporte quelques précisions intéressante à lire même pour ceux qui découvriraient l’article sur le tard.

Texte d’origine.

J’ai décidé de faire ce billet suite à un échange sur twitter avec @diaspbe après lui avoir fait la remarque à propos de l’utilisation sur diasp.be de GoogleAnalytics. Le format de twitter ne facilitant pas les longues explication je développe mon argumentaire ici.

Le contexte

Petite introduction avec les explications dedans pour ceux qui se demande de quoi on parle, pour les autres passez directement à la suite.

Google Analytics qu’est ce que c’est.

Google Analytics est un outil de calcul de statistiques de fréquentation des sites web fournit par Google. Il permet aux webmestre de suivre la fréquentation de son site, de savoir de quel moteur de recherche viennent les visiteurs, combien sont des visites unique combien de visiteurs reviennent etc etc. Il suffit pour le webmestre de s’enregistrer chez Google puis d’ajouter un petit script dans un endroit de ses pages web, c’est très simple et efficace. Car il faut bien le reconnaître cet outil est, comme souvent chez Google, bien fait et performant. Si vous y ajoutez le fait qu’il est gratuit vous comprendrez vite pourquoi on le retrouve à tout les coins du web.

Quel est le rapport entre statistique et traçage des internautes.

Pour faire ses différents calcul le service de statistique a besoin de vous identifier. En effet pour savoir combien de visiteurs reviennent il faut bien qu’il vous reconnaisse d’une fois sur l’autre ou dans le sens inverse pour calculer le nombre de visiteur unique sure une période il a besoin de savoir si vous êtes déjà venu ou pas. Donc pour assures son fonctionnement le script Google Analytics enregistre dans votre navigateur un cookie, un petit fichier contenant une variable et sa valeur, ici un identifiant unique, qu’il pourra retrouver la prochaine fois que vous venez sur le site. Ce serait très bien si cet identifiant était spécifique au site que vous visitez mais non il est unique pour tout google analytics. Ce qui veut dire que dans tout les sites web utilisant ce service pour leurs statistiques le script va réutiliser le même identifiant pour calculer les statistiques. Et évidemment il est tout à fait possible de remonter dans l’autre sens, à partir de cet identifiant on peut reconstituer une grande partie de vos habitudes de navigation, pour peux qu’a un moment où a un autre vous vous soyez connecté chez Google pour utiliser un de leur service ils peuvent facilement mettre ces données en corrélation avec d’autres le tout associé aux mots clefs que le moteur de recherche a associé aux pages web que vous avez visitez.Le tout bien entendu n’ayant qu’un seul but vous proposer de la publicité personnalisé…

En bref dites moi ce que vous lisez, je vous dirai ce qui vous intéresse et je vous en ferai de la pub.

En quoi cela pose-t-il un problème.

Vu comme ça il est assez aisé de comprendre pourquoi voir Google Analytics sur un site web dont la justification est justement de protéger notre vie privé comme diasp.be me choque.

Mais il n’est pas le seul concerné. De nombreux sites web du monde du libre utilise GA pour leurs statistique. Alors que l’une des idées fondatrice du logiciel libre est de permettre à l’utilisateur de reprendre le contrôle de son outil informatique en toute indépendance des intérêts commerciaux des éditeurs voila que ceux qui les promeuvent participent à la plus grande stratégie de profilage généralisé des internautes! Il y a de quoi trouver cela pour le moins troublant.

Je suis loin de faire parti des libristes les plus intransigeant mais là ça me gêne beaucoup. Je suis bien plus gêné par ça que de savoir qu’il y a des bouts de binaires non libre dans le noyau de ma Ubuntu. Eux au moins ne cherche pas à exploiter quoi que ce soit me concernant dans mon dos. Personnellement j’ai réglé le problème avec l’extension Firefox Ghostery (malheureusement non libre, si quelqu’un connait un équivalent libre, je suis preneur) qui bloque les scripts de statistique et régies publicitaire en tout genre mais ce n’est à mon sens qu’un mauvais palliatif.

Le plus étrange c’est le manque d’écho que je rencontre sur ce sujet de la part d’acteur du libre. J’ai essayé de lancer un gros troll la dessus sur identi.ca et twitter mais il n’a généré quasiment aucune réaction.1  Et celles que j’ai obtenues sont plutôt du genre faiblarde.

C’est  exactement la même inertie que quand on évoque la vente lié avec un windowsien de base. «Ben oui mais c’est compliqué», «J’ai juste besoin d’un truc qui marche», «Oui mais c’est gratuit» etc etc du windowsien pur souche…  Le problème est que ces réactions viennent de personnes à priori au courant et normalement concerné par ce sujet.

Peut on y faire quelque chose?

Une solution serait que chaque site web utilise son propre outil de statistique hébergé sur son propre serveur pour être sur de l’utilisation des données.Mais c’est loin d’être évident. Les solutions de statistique récentes un tant soit peu performantes sont lourdes, une comparaison entre piwik par exemple et son prédécesseur phpmyvisites2 est plutôt révélatrice, ça rend cette solution difficilement réalisable car elle nécessite de ressources pas forcément disponibles.

La parade serait à mon sens de mutualiser les besoins et les ressources. Il ne me parait pas totalement stupide de considérer que plusieurs associations (ou entreprise) du libre pourraient collaborer pour monter un service basé sur une solution libre. Je suis bien conscient que c’est facile à dire assis derrière mon bureau et bien plus difficile à mettre en œuvre mais je pense que l’enjeu est important. Surtout que pour cela il n’est pas nécessaire de mobiliser une énorme communauté.  Quelques administrateur systèmes des associations les plus en vue pourraient suffire même s’il est vrai que ce ne sont pas forcément les plus disponibles.

Je comprends bien que à débarquer comme cela en disant «bouuuu c’est pas bien ce que vous faites» je passe pour le donneur de leçon de service mais ce n’est pas mon intention. J’essaye de soulever ce qui pour moi est un problème et de creuser un peu les solutions possibles.

Si j’étais admin sys je serais bien tenté de lancer quelque chose mais ce n’est malheureusement pas le cas. Je sais faire tourner ma Ubuntu mais c’est tout, prétendre pouvoir en faire plus serait mentir, alors vouloir faire fonctionner de mes petites mains un service de ce genre serait utopique. Mais par contre si une initiative de ce genre vient à être lancé je m’y intéresserais de très très près c’est évident car si je ne peux pas m’occuper de la partie technique il y a d’autres choses à faire.

En espérant que cette contribution puisse faire avancer un tant soit peu les choses.

Réponses aux commentaires :

Quelques point abordé dans les commentaires méritent une réponse détaillé :

Le modèle économique et le problème des coût.

Perso je ne voyais pas du tout la chose sous cette angle, à aucun moment je ne pensais vraiment à un service payant. Ma vision de la chose serait plus dans une collaboration de différents sites pour administrer ensemble un serveur pour leur propres statistiques. Dans ce contexte les coûts seraient géré via un pot commun aux associations concerné. Ce serait certes plus couteux que GoogleAnalytics mais avec suffisamment de participant on peut rendre le coût supportable. L’idée telle que je la vois n’est pas du tout celle d’un service qui serait ouvert à tous du moins dans un premier temps. Ce qui n’exclut pas bien sur qu’il puisse le devenir dans un second temps la participation aux frais pouvant se faire dans ce contexte sous la forme d’une  cotisation à une association.

Pérennité des données :

C’est vrai que je n’ai absolument pas pris ce point en compte mais en même temps si des utilisateurs de GA se plaignent d’être coincé chez Google parce qu’ils ne peuvent pas récupérer leur données j’ai un peu envie de leur dire qu’il fallait y penser avant… Par contre prendre en compte ce problème dans la futur plate-forme (si elle se monte) serait effectivement une bonne chose il reste à voir ce que les outils disponibles actuellement permettent. Et s’ils ne proposent rien après tout un logiciel libre on peut y contribuer non? Mais c’est vrai que ce point ne doit pas être négligé.

L’aspect technique :

Je peux me tromper bien sur mais je ne pense pas qu’un outil de ce genre nécessite forcément un machine très performante. Mis à part le fait que Piwik3 demande des capacités de stockage importantes mais ce n’est pas forcément ce qui coute le plus cher actuellement. Cela réduit d’autant le coût d’une telle solution que la mutualisation rend d’autant plus accessible.


  1. Je ne suis pas un très bon troll non plus je l’admets 

  2. qui a longtemps tourné ici d’ailleurs avant que je me dise que je n’en avais rien à faire des stats 

  3. dans le cas où ce serait la plate-forme retenue 

Précédent

Quelques extensions Firefox qui aide à protéger votre vie privé

Suivant

Télécharger directement votre musique en Ogg Vorbis sur Jamendo

16 Commentaires

  1. Et comment vois-tu le modèle économique ?

    Mon entreprise, BeNux.fr, serait à même proposer ce genre de service, mais il faut bien voir que la seule valeur ajoutée est la protection des données persos.

    Malheureusement je ne pense pas que pour ça les gens soient près à payer aujourd’hui.

  2. Sérieusement, j’ai cru que j’allais me faire dessus dès les premières lignes de lecture. Critiquer google analytics, pourquoi pas, mais sur twitter, là, c’est à se faire dessus.

    G analytics n’est qu’un outil annexe, certes potentiellement intrusif, mais pas nécessairement. Twitter est un site propriétaire de communication qui fait ce qu’il veut de ce que tu postes dessus (licence). Et là, ce n’est pas un plugin secondaire du site, c’est l’essentiel de la communication qui passe par twitter.

    De plus, les alternatives existent et certaines comme statusNet (connu pour identi.ca) sont largement supérieures en qualité et « features » à ce que twitter propose.

    Alors bon critiquer g analytics sur les sites libres ou communiquer par twitter, je crois que je préfèrerais de très loin utiliser g analytics (et pourtant, je ne l’utilise pas et je suis un petit utilisateur libriste pragmatique, pas un ayatolah de la fsf)

  3. @Fréderic franchement je ne pensais pas à un service payant ni a un modèle économique particulier. Je pensais plutôt à plusieurs intervenants du libre se coordonnant pour avoir un serveur en commun sur lequel ils font tourner une plate-forme libre pour leur stats… Après ouvrir ce service à d’autres contre finance ou non c’est un autre débat mais ce ne peut se faire que dans un second temps.

  4. @LordPhoenix: Si tu trouves un serveur je suis à même d’intervenir pour la partie technique dans la mesure du rationnel…

  5. Au début j’ai utilisé Google Analytics parce que « ça allait de soit » tant s’était pratique et simple. Grand Maître C est passé par là et m’a tenu à peut prêt le langage que tu nous tiens ici. J’utilise Piwik depuis un an déjà pour les stats de mon site et j’en suis content même si la database a tendance a enfler tranquillement (300Mo) mais je ne purge pas les données pour l’instant. Le seul « reproche » c’est d’utiliser Flash pour les graphiques, mais bon on m’a dit que c’était pas aussi simple de les faire autrement.
    Pour ce qui est de savoir qui doit payer, c’est l’éditeur du site à mon sens. C’est lui qui veut des stats donc c’est à lui d’assumer le coût de la collecte.
    Pwik permet parfaitement de mutualiser les stats. Il gères autant de sites que l’on veut, des droits d’accès, etc… C’est franchement un bon outils. Sans compter qu’il se met à jour automatiquement ou presque (1 clik). Côté perf je ne saurais pas trop dire, mais je n’ai pas de problème lié à son usage sur mon site.
    Pour reprendre ce que dit Cyrille, mutualisé pourquoi pas. Faut un serveur et pas un gros, c’est vraiment pas compliqué à faire. Reste à savoir qui voudrait payer pour avoir des stats libre…
    Fred, une option de stats piwik sur tes offres serait vendable à mon avis.

  6. JB

    J’ai aussi utilisé GA. Je l’ai abandonné pour son côté centralisé, traceur, etc…
    J’ai essayé Piwik qui n’a pas réussi à me convaincre. Trop lourd, trop de fonctionnalités inutiles pour mes petits besoins.
    Du coup, je me suis rabatuu sur AWstat.

    L’interface par défaut est ce qu’elle est, mais cela convient bien à mon utilisation. Pour l’interface justement, il y a 2 projets libres qui permettent de l’améliorer: Jawstat et MAWstat. Le premier a l’iar mort et utilise Flash, le second (un fork du premier) s’en est affranchi et vis tranquillement: http://mawstats.lingnu.com/

    Pas sûr qu’une offre hébergée soit vendable: le principal grief fait à GA ici concerne le manque de maîtrise des données. En centralisant un Piwik, on ne gagne rien sur ce plan. De plus, quid des données si on décide finalement d’avoir son propre serveur Piwik ?

    Je dis ça parce que c’est exactement le prolbème que je rencontre avec identi.ca: je n’ai pas encore supprimé mon compte là-bas bien qu’ayant ma propre instance status.net car je souhaite récupérer mes data. Et pour l’instant, c’est juste impossible :-/

    Mes 2 cents,

  7. Je n’ai pas trouvé d’équivalent à Google qui soit aussi efficace et pour le même prix.
    Après compter les visiteurs sur un site dépend beaucoup de l’outil utilisé, on peut voir des différences énormes avec 2 solutions différentes sur le même site. Le décompte fait par Google Analytics fait un peu office de standard. Peut être faudrait t’il normaliser le comptage des visites ?

  8. j’utilise awstat comme jb qui est très bien et amplement suffisant, j ai voulu tester piwik (peut etre à retenter mais il supportait pas etre sur le meme serveur que les sites qui monitoraient.Si quelqu’un a réussi je serais interressait d’avoir un howto.

  9. Amauri

    Il existe aussi d’autres outils beaucoup plus respectueux de la vie privé des visiteurs.
    FERank par exemple fournit des stats en temps réel et le cookie d’identification du visiteur est unique pour chaque domaine, pas de traçage possible.
    C’est gratuit et ne bouffe pas inutilement les ressources du serveur.

    http://www.ferank.fr/

  10. Mon site n’a pas de pub. Avant j’utilisais GA et blogger. Depuis j’ai quitté blogger et n’utilise plus d’outil statistique… c’est comme pour beaucoup de choses : ça a l’air indispensable mais en fait non.

  11. Ce que je vais dire a déjà été dit, mais bon. En ce qui me concerne, j’utilise google-analytics pour un de mes sites, et piwik pour l’autre. Et effectivement, piwik est une bonne solution.
    Le planet-libre de son coté, malgré qu’il soit un promoteur du libre, utilise GA. La raison est une simple question de temps d’administration : aujourd’hui nous n’avons pas pris le temps de mettre quelque chose de sérieux en place.

    Par contre il ne faut pas oublier qu’un serveur ça a un coût (déjà dit plus haut) et donc si on offre des services tels que des stats (libre ou non) ça demande des ressources et ça a donc un prix. Donc oui, pour moi une solution non payante est difficilement envisageable sachant que toute personne souscrivant à ce genre de service s’attend à un minimum de qualité.

  12. Si tu utilises un blog wordpress, il y a l’extension « WordPress.com Stats » qui fournit sans doute moins de données que GA, mais qui me suffisent amplement.

  13. megatantan

    Une chose me choque dans ce qui te choques…

    Je te cite : « Vu comme ça il est assez aisé de comprendre pourquoi voir Google Analytics sur un site web dont la justification est justement de protéger notre vie privé comme diasp.be me choque. »

    Pour moi la justification de Disapora n’est pas la protection pure et simple de la vie privée (ne pas être sur les réseaux sociaux étant alors la meilleure solution) mais bien de reprendre le contrôle sur les données postées et donc sur notre vie privée.

    Or il y a deux options pour se connecter sur Diaspora : créer son propre Pod ou se connecter à un Pod existant. Et si la première est la plus « puriste », la seconde est nettement plus facile.

    Si tu crée ton pod libre à toi d’utiliser les outils que tu veux, d’y inviter qui tu veux, etc… Tu « contrôles » ce que tu fais. C’est ce qu’a fait Diasp.be.

    Si tu choisis d’être « invité » sur un Pod tier, tu confies volontairement tes données à une autre personne. A toi de choisir le Pod qui te convient avec la philosophie qui te convient.

    Sans doute que Diasp.be pourrait être plus transparent, mais gardons à l’esprit que c’est une version Alpha…

    Attendons un peu…

    Cela dit je te rejoins sur le fond de ton billet.

  14. Psykoh

    A noter que google à mis lui-même à la disposition des internautes une extension pour les principaux navigateurs permettant de « bloquer » google analytics:

    http://tools.google.com/dlpage/gaoptout?hl=fr

    Même si je pense que c’est pour redorer son image de grand Big Brother, l’outil à le mérite d’exister et personnellement je l’utilise.

  15. D’autant que les alternatives à Google Analytics existent ! Citons Piwik et bien évidemment Awstats.

  16. non

    noscript? Me semble que ca bloque tout ce qui n’est pas autorisé.

    Et puis chose toute bête, ne pas naviguer avec les cookies activé. (hors exception sur les sites de confiance et ou c’est un peu obligatoire pour se logger)

Les commentaires sont fermés

Fièrement propulsé par WordPress & Thème par Anders Norén