ChatGPT, Gemini, Meta AI… quelle IA collecte vraiment le plus de données personnelles ? Et comment limiter la casse…

Une étude qui met les chatbots IA face à leurs propres cookies

Les chatbots d’intelligence artificielle ont un talent : vous aider à écrire un mail, coder un script, résumer un PDF, ou trouver une recette de pâtes à 2 h du matin. Mais ils ont aussi un autre hobby, nettement moins glamour : collecter des données personnelles.

C’est exactement ce que pointe une étude publiée par Surfshark, basée sur l’analyse des informations de confidentialité de l’App Store et des politiques de services. Objectif : comparer 10 applications IA populaires et leurs pratiques de collecte. Spoiler : ce n’est pas la catégorie “minimalisme numérique”.

Dans cet article, on décrypte les enseignements clés, on voit quelle IA collecte le plus de données, et surtout on termine avec des conseils simples pour garder votre vie privée hors du mode “open bar”.

Collecte de données par les IA : c’est massif, généralisé, et rarement juste “pour aider”

Premier constat de l’étude Surfshark : toutes les applications analysées collectent au moins un type d’information utilisateur.

Et pas qu’un peu.

En moyenne, les chatbots IA collectent 14 types de données sur 35 catégories possibles. Dit autrement : même quand vous pensez juste “discuter”, vous alimentez aussi un système de données qui peut inclure localisation, identifiants, contenus, diagnostics, usages, etc.

Les données les plus souvent collectées

Certaines catégories reviennent comme un refrain qu’on n’a pas demandé :

Localisation : environ 70 % des applications la collectent
Coordonnées : email, identifiants, parfois numéro de téléphone
Contenu généré par l’utilisateur : vos prompts, vos messages, vos fichiers selon les cas
Historique de recherche ou navigation : selon l’intégration et l’écosystème
Données liées à la publicité : notamment pour le ciblage ou la mesure

Et non, ce n’est pas toujours uniquement pour “faire fonctionner le service”.

Fonctionnement, analyse, personnalisation, marketing : la vraie destination des données

L’étude rappelle que ces données peuvent servir à :

l’amélioration du produit (analyse, diagnostics, qualité)
la personnalisation de l’expérience
le marketing et la publicité

Plus il y a d’usages secondaires, plus le risque augmente. Pas seulement parce que “ça collecte”, mais parce que la surface d’exploitation s’élargit : plus de données, plus de rétention, plus d’intégrations, plus de circulation.

Le risque que tout le monde oublie : la fuite

Surfshark insiste sur un point très concret : tout ce qui est stocké sur des serveurs peut fuiter.

L’étude cite notamment un incident évoqué par The Hacker News : DeepSeek aurait subi une violation ayant exposé plus d’un million d’enregistrements, incluant des historiques de discussions, des clés API et d’autres informations.

Moralité : même si vous “faites confiance”, le risque n’est jamais à zéro. Et une conversation qui vous semblait banale peut contenir un nom de client, un devis, une stratégie, un mot de passe recopié par fatigue… bref, la vie réelle.

Classement Surfshark : quelle IA collecte le plus de données personnelles ?

L’étude met en lumière des écarts importants entre acteurs. Certains services semblent collecter relativement “le minimum”, d’autres jouent clairement à Pokémon avec les catégories de données : gotta catch them all.

Meta AI : le champion toutes catégories de la collecte

Selon Surfshark, Meta AI arrive en tête avec 33 types de données collectées sur 35, soit environ 95 % des catégories étudiées.

Deux points marquants :

Meta AI est le seul à inclure des données financières
Meta AI fait partie (avec Gemini) des plateformes qui collectent des données sensibles, comme des informations liées aux opinions politiques, des données biométriques ou l’orientation sexuelle

Si vous aviez besoin d’une définition moderne de “quand c’est gratuit, c’est vous le produit”, Meta vient de fournir l’illustration.

Gemini : très riche en données, y compris sensibles

Gemini figure aussi parmi les services pointés pour la collecte de données sensibles. Même si l’étude ne résume pas ici tous les chiffres du tableau, le signal est clair : certaines plateformes vont au-delà des données d’usage pour toucher des catégories plus délicates.

ChatGPT : la collecte s’élargit nettement

Autre enseignement : ChatGPT a augmenté son périmètre de collecte.

Surfshark indique que ChatGPT peut désormais recueillir 17 types d’informations, contre 10 lors d’une précédente analyse.

Parmi les éléments cités :

localisation approximative
données audio
historique de recherche
informations liées à la publicité

Ce point est intéressant : beaucoup d’utilisateurs ont une image “outil neutre” de ChatGPT. L’étude rappelle que, côté privacy, l’écosystème évolue, et pas toujours dans le sens d’une réduction.

Claude : plus stable, plus orienté “nécessaire au service”

À l’inverse, Claude (Anthropic) affiche une collecte plus stable : 13 types de données, décrits comme principalement nécessaires au fonctionnement du service.

Attention : “moins” ne veut pas dire “rien”, ni “risque nul”. Mais dans une logique comparative, cela suggère une approche plus mesurée.

Pourquoi les chatbots IA veulent autant de données ?

On peut résumer en une phrase : parce que les données aident à faire tourner, améliorer et monétiser.

Mais regardons plus concrètement.

1) Améliorer le modèle et la qualité des réponses

Les données de conversation, retours, erreurs et usages servent à :

détecter les bugs
affiner l’UX
améliorer les réponses
entraîner ou ajuster certains composants

Même quand l’entraînement sur vos données est “désactivable”, il reste souvent des données collectées pour des raisons de sécurité, de conformité ou de fonctionnement.

2) Sécuriser et modérer

Détection d’abus, spam, comportements malveillants : cela nécessite souvent journaux, signaux, métadonnées.

3) Personnalisation

Certains services personnalisent les résultats, les suggestions, ou l’intégration à votre environnement. Pour ça, il faut connaître un minimum votre contexte, ce qui pousse à collecter davantage.

4) Publicité, attribution, marketing

Dès qu’une partie du modèle économique ou de la croissance dépend du marketing, on voit apparaître des catégories liées à la pub : identifiants, mesures, interactions, ciblage, etc. Et là, la donnée devient un carburant.

Les données sensibles : le vrai sujet qui fait tiquer

La collecte de données sensibles (opinions politiques, biométrie, orientation sexuelle) est le point le plus “cassant” en termes de confiance.

Même si vous ne donnez pas directement ces informations, elles peuvent parfois être :

déclarées via un champ (profil, compte)
inférées par vos usages (thèmes, centres d’intérêt)
captées via des contenus envoyés (documents, photos, audio)

Le problème, ce n’est pas seulement “qu’elles existent”, c’est qu’en cas de fuite ou de mauvaise gouvernance, l’impact est bien plus lourd.

Ce que vous pouvez faire dès aujourd’hui pour limiter la collecte (sans arrêter l’IA)

On ne va pas se mentir : demander aux internautes d’abandonner les chatbots IA, c’est comme demander à un open space d’abandonner la machine à café. En théorie c’est possible, en pratique… bon courage.

Donc voici une approche pragmatique.

1) Ne mettez jamais dans un chatbot ce que vous ne publieriez pas en public

Règle simple, pas parfaite, mais très efficace.

Évitez d’y coller :

informations clients (noms, emails, numéros)
données RH, salaires, documents internes
identifiants, mots de passe, clés API
documents contractuels non publics

Oui, même “juste pour reformuler”. Votre cerveau adore l’automatisation, mais votre DPO va moins rire.

2) Vérifiez les réglages de confidentialité et d’entraînement

Beaucoup d’apps proposent des options du type :

historique activé ou non
utilisation des conversations pour l’amélioration
export et suppression des données

Prenez 3 minutes, c’est l’équivalent numérique de fermer la porte à clé.

3) Segmentez vos usages : perso, pro, sensible

Si vous utilisez une IA pour :

le perso léger (voyage, idées)
le pro non sensible (structure d’article, brainstorming)
le pro sensible (données clients, stratégie)

Alors utilisez des environnements distincts. Même logique que “un compte pour Netflix, un compte pour la banque”.

4) Réduisez la localisation et les autorisations inutiles

Si une app IA n’a pas besoin de votre localisation précise pour répondre à “explique-moi Kubernetes”, vous voyez l’idée.

Sur mobile, regardez :

localisation (jamais ou seulement en usage)
micro (uniquement si nécessaire)
photos et fichiers (au cas par cas)

5) Automatisez intelligemment sans tout centraliser

Quand on automatise, on a tendance à tout brancher à tout. Mauvaise idée si les données personnelles se baladent sans contrôle.

Si vous créez des scénarios d’automatisation, faites-le avec des principes simples :

minimiser les données envoyées
pseudonymiser quand possible
éviter de pousser des logs sensibles
limiter les accès par défaut

Et si vous utilisez Make pour connecter vos outils, passez par ce lien affilié : https://www.make.com/en/register?pc=laurentwiart

L’automatisation, c’est génial. L’automatisation sans garde-fous, c’est juste une fuite de données qui s’entraîne pour les JO.

Ce qu’il faut retenir du classement Surfshark

La collecte de données est généralisée chez les chatbots IA
En moyenne, on est autour de 14 types de données collectées sur 35
Meta AI ressort comme le plus intrusif avec 33 sur 35
Gemini et Meta AI sont cités pour des données sensibles
ChatGPT élargit sa collecte (17 types contre 10 auparavant)
Claude apparaît plus stable (13 types), plutôt orienté fonctionnement

La bonne démarche n’est pas de paniquer, mais de choisir ses outils avec lucidité, régler ce qui est réglable, et éviter d’offrir des données sensibles “par confort”.

Si vous deviez garder une seule phrase en tête : l’IA est brillante, mais elle n’a pas besoin de connaître votre vie mieux que votre meilleur ami pour vous aider à écrire un email.

Source : ChatGPT, Gemini, Meta AI… quelle IA collecte vraiment le plus de données personnelles ? (Et comment limiter la casse)