Protection des yeux de l’organisme français de surveillance de la vie privée contre le grattage des données dans le plan d’action de l’IA

La CNIL, l’autorité française de protection de la vie privée, a publié une plan d’action pour l’intelligence artificielle fournissant un aperçu des domaines dans lesquels elle concentrera son attention, y compris sur les technologies d’IA génératives telles que ChatGPT OpenAI, dans les mois à venir et au-delà.

Un Service dédié à l’Intelligence Artificielle a été mis en place au sein de la CNIL pour travailler sur le périmètre technologique et générer des préconisations de « systèmes d’IA respectueux de la vie privée ».

Le principal objectif affiché du régulateur est d’orienter le développement de l’IA « respectant les données personnelles », par exemple en développant des moyens de audit et contrôle des systèmes d’IA pour « protéger les personnes ».

Comprendre comment les systèmes d’IA affectent les personnes est un autre axe clé, ainsi que le soutien aux acteurs innovants de l’écosystème local de l’IA qui mettent en œuvre les meilleures pratiques de la CNIL.

« La CNIL souhaite établir des règles claires de protection des données personnelles des citoyens européens pour contribuer au développement de systèmes d’IA respectueux de la vie privée », écrit-il.

Près d’une semaine s’est écoulée sans autant d’appels très médiatisés de technologues demandant aux régulateurs de comprendre l’IA. Et pas plus tard qu’hier, lors d’un témoignage au Sénat américain, le PDG d’OpenAI Sam Altman a demandé aux législateurs de réglementer la technologiesuggérer des régimes de licences et d’essais.

Mais les régulateurs de la protection des données en Europe sont loin sur la route – avec des sociétés comme Clearview AI déjà soumises à de larges sanctions dans tout le bloc pour avoir abusé des données des personnes, par exemple. Pendant ce temps, le chatbot AI, Replica, a récemment fait face à des sanctions en Italie.

ChatGPT OpenAI a également attiré une intervention très publique de DPA Italia fin mars, ce qui a poussé l’entreprise à se précipiter avec de nouvelles divulgations et de nouveaux contrôles pour les utilisateurs, leur permettant d’imposer certaines restrictions sur la manière d’utiliser leurs informations.

Dans le même temps, les législateurs de l’UE sont en train de conclure un accord sur un cadre basé sur les risques pour régir les applications d’IA proposées par le bloc d’ici avril 2021.

Ce cadre, l’EU AI Act, pourrait être adopté d’ici la fin de l’année et les réglementations envisagées sont une autre raison mise en avant par la CNIL pour préparer son plan d’action IA, affirmant que les travaux « permettent également de préparer la mise en œuvre du projet Règlement européen sur l’IA, qui est actuellement en cours de discussion. »

Les autorités de protection des données (DPA) existantes joueront probablement un rôle dans l’application de la loi sur l’IA, de sorte que les régulateurs renforçant la compréhension et l’expertise de l’IA seront essentiels au fonctionnement efficace du régime. Alors que les sujets et les détails sur lesquels les APD de l’UE ont choisi de concentrer leur attention devraient donner du poids aux paramètres opérationnels de la future IA – certainement en Europe et, potentiellement, plus loin compte tenu de l’état d’avancement du bloc en termes de réglementation numérique.

Récupérer des données dans des cadres

Sur l’IA générative, le régulateur français de la vie privée porte une attention particulière à la pratique de certains modélisateurs d’IA qui prennent des données sur Internet pour construire des ensembles de données pour former des systèmes d’IA tels que les grands modèles de langage (LLM) qui peuvent, par exemple, analyser le langage naturel et répondre de la même manière.humains pour la communication.

Il indique qu’un domaine prioritaire pour ses services d’IA est « la protection des données accessibles au public sur le Web contre l’utilisation du scraping, ou gratter, données pour la conception d’outils ».

C’est un domaine d’inconfort pour les constructeurs de LLM comme ChatGPT qui s’appuient sur le grattage silencieux de grandes quantités de données Web pour les réutiliser comme appâts de formation. Ceux qui ont récupéré des informations Web contenant des données personnelles sont confrontés à des défis juridiques particuliers en Europe, où le règlement général sur la protection des données (RGPD), entré en vigueur en mai 2018, exige qu’ils disposent d’une base légale pour un tel traitement.

Il existe un certain nombre de bases juridiques énoncées dans le RGPD, mais les options possibles pour des technologies telles que ChatGPT sont limitées.

De l’avis de la DPA italienne, il n’y a que deux possibilités : le consentement ou les intérêts légitimes. Et parce qu’OpenAI ne demande pas le consentement des utilisateurs Web individuels avant d’ingérer leurs données, l’entreprise s’appuie désormais sur les revendications d’intérêt légitime en Italie pour le traitement ; réclamations qui sont toujours sous enquête par les autorités de réglementation locales, Garantie. (Rappel : les amendes RGPD peuvent augmenter jusqu’à 4 % du chiffre d’affaires annuel mondial en plus des éventuelles ordonnances correctives.)

Les réglementations paneuropéennes contiennent d’autres exigences pour les entités qui traitent des données personnelles, telles que le traitement doit être équitable et transparent. Il existe donc des défis juridiques supplémentaires pour des outils comme ChatGPT pour éviter d’enfreindre la loi.

Et — surtout — dans son plan d’action, la CNIL France met en avant « la loyauté et la transparence des traitements de données qui sous-tendent les opérations [AI tools]» comme une question particulièrement intéressante qui a déclaré que son service d’intelligence artificielle et une autre unité interne, le laboratoire d’innovation numérique de la CNIL, donneront la priorité à la surveillance dans les mois à venir.

Les autres domaines prioritaires que le drapeau de la CNIL énonce pour son périmètre d’IA sont :

  • la protection des données transmises par les utilisateurs lors de l’utilisation de cet outil, depuis leur collecte (via l’interface) jusqu’à leur réutilisation et traitement éventuels via des algorithmes de machine learning ;
  • les conséquences pour les droits individuels sur leurs données, tant par rapport aux données collectées pour l’apprentissage du modèle que par rapport à ce que le système peut fournir, comme le contenu créé dans le cas de l’IA générative ;
  • la protection contre les préjugés et la discrimination qui peuvent survenir ;
  • défis de sécurité sans précédent de cet outil.

Témoignant hier devant un comité sénatorial américain, Altman a été interrogé par des législateurs américains sur l’approche de l’entreprise en matière de protection de la vie privée et le PDG d’OpenAI a tenté de définir le sujet de manière étroite comme se référant uniquement aux informations activement fournies par les utilisateurs de chatbot AI – notant, par exemple, que ChatGPT permet aux utilisateurs de spécifier qu’ils ne souhaitent pas que leur historique de conversation soit utilisé comme données de formation. (Une fonctionnalité non proposée à l’origine.)

Interrogé sur les mesures spécifiques prises pour protéger la vie privée, Altman a déclaré à un comité sénatorial : « Nous ne formons aucune donnée soumise à notre API. Donc, si vous êtes un client de notre entreprise et que vous soumettez des données, nous ne le formons pas du tout… Si vous utilisez ChatGPT, vous pouvez désactiver notre formation sur vos données. Vous pouvez également supprimer l’historique de vos conversations ou l’intégralité de votre compte. »

Mais il ne dit rien sur les données utilisées pour former le modèle en premier lieu.

Le cadrage étroit d’Altman de ce que signifie la confidentialité l’emporte sur les questions fondamentales sur la légalité des données de formation. Appelez cela le « péché originel de confidentialité » de l’IA générative, si vous voulez. Mais il est clair que l’élimination de ce sujet deviendra de plus en plus difficile pour OpenAI et ses semblables qui anéantissent les données alors que les régulateurs en Europe continuent d’appliquer les lois de confidentialité existantes de la région sur des systèmes d’IA solides.

Dans le cas d’OpenAI, il continuera d’être soumis à une mosaïque d’approches d’application à travers l’Europe en raison de l’absence de base établie dans la région – qui n’est pas appliquée par le mécanisme de guichet unique du RGPD (comme c’est généralement le cas pour Big Technologie). ) afin que toute APD soit compétente pour statuer si elle estime que les données des utilisateurs locaux sont traitées et que leurs droits sont compromis. Ainsi, alors que l’Italie peinait plus tôt cette année avec une intervention sur ChatGPT qui imposait une ordonnance d’arrêt du traitement parallèlement à l’ouverture d’une enquête sur l’outil, le chien de garde français n’a annoncé une enquête qu’en avril, en réponse aux plaintes. (L’Espagne a également déclaré qu’elle enquêtait sur la technologie, encore une fois sans aucune action supplémentaire.)

Dans une autre différence entre l’EU DPA, le La CNIL semble préoccupée par l’interrogation d’un ensemble de questions plus large que la liste initiale de l’Italie, notamment en examinant comment les principes de limitation des objectifs du RGPD devraient s’appliquer aux grands modèles linguistiques comme ChatGPT. Ce qui suggère qu’il pourrait finir par ordonner une série plus large de changements opérationnels s’il conclut que le GDPR est violé.

« La CNIL présentera prochainement des orientations de consultation sur les règles applicables au partage et à la réutilisation des données », écrit-il. « Ce travail couvrira le problème de la réutilisation de données librement accessibles sur Internet et qui sont maintenant utilisées pour étudier de nombreux modèles d’IA. Par conséquent, ce guide sera pertinent pour certains des traitements de données nécessaires à la conception de systèmes d’IA, y compris l’IA générative.

«Il poursuivra également ses travaux de conception de systèmes d’IA et de création de bases de données pour l’apprentissage automatique. Cela conduira à plusieurs publications dès l’été 2023, après des consultations qui ont eu lieu avec plusieurs acteurs, pour fournir des recommandations concrètes, notamment concernant la conception de systèmes d’IA tels que ChatGPT.

Voici d’autres sujets qui, selon la CNIL, seront « progressivement » abordés dans les publications futures et les orientations en matière d’IA qui en résultent :

Concernant l’audit et le contrôle des systèmes d’IA, le régulateur français a déterminé que ses actions cette année porteront sur trois domaines : Conformité avec les systèmes d’IA existants. position sur l’utilisation de la vidéosurveillance « renforcée », qui est publié en 2022 ; utilisation de l’IA pour lutter contre la fraude (telle que la fraude à l’assurance sociale) ; et enquêter sur les plaintes.

Il a également confirmé qu’il avait reçu des plaintes concernant un cadre juridique pour la formation et l’utilisation de l’IA générative – et a déclaré qu’il travaillait sur une clarification là-bas.

« La CNIL a notamment reçu plusieurs plaintes contre la société OpenAI gérant le service ChatGPT, et a ouvert des procédures de contrôle », a-t-il ajouté, notant qu’il y avait eu un un groupe de travail spécial récemment créé au sein du Conseil européen de la protection des données tenter de coordonner l’approche des différentes autorités européennes sur l’IA chatbot (et produire ce qu’elle appelle une « analyse harmonisée des traitements de données mis en œuvre par les outils OpenAI »).

Comme avertissement supplémentaire aux constructeurs de systèmes d’IA qui ne demandent jamais aux gens la permission d’utiliser leurs données et peuvent s’attendre à un pardon à l’avenir, la CNIL a noté qu’ils accorderont une attention particulière au développement, à la formation ou à l’utilisation des données personnelles par les entités qui traitent des données personnelles. Les systèmes d’IA ont :

Quant à l’accompagnement des acteurs innovants de l’IA soucieux de se conformer à la réglementation (et aux valeurs) européennes, la CNIL a mis en place depuis plusieurs années une sandbox réglementaire, ce qui encourage les entreprises et les chercheurs en IA travaillant à développer des systèmes d’IA qui jouent bien avec les règles de protection des données. .privé pour prendre contact (via ia@cnil.fr).

Lancelot Bonnay

"Érudit primé au bacon. Organisateur. Fanatique dévoué des médias sociaux. Passionné de café hardcore."

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *