Le recensement de 2020 contient des milliers d'erreurs ajoutées accidentellement

Le recensement de 2020 contient des milliers d’erreurs ajoutées accidentellement

Posted On: avril 23, 2022

WASHINGTON – Le bloc de recensement 1002 du centre-ville de Chicago est pris en sandwich entre les avenues Michigan et Wabash, un hôtel de luxe de marque Trump et une promenade de cafés et de bars. Selon le recensement de 2020, 14 personnes y vivent – 13 adultes et un enfant.

Toujours selon le recensement de 2020, ils vivent sous l’eau. Parce que le bloc se compose entièrement d’un coude de 700 pieds dans la rivière Chicago.

Si cela semble impossible, ça l’est. Le Census Bureau lui-même affirme que les chiffres pour le bloc 1002 et des dizaines de milliers d’autres ne sont pas fiables et doivent être ignorés. Et un incontournable: les propres ordinateurs du bureau ont déplacé les personnes là-bas afin qu’elles ne puissent pas être retrouvées jusqu’à leur résidence réelle, le tout dans le cadre d’un nouvel effort pour préserver leur vie privée.

Ce paradoxe est au cœur du débat qui a secoué le Census Bureau. D’une part, la loi fédérale exige que les dossiers de recensement restent confidentiels pendant 72 ans. De telles assurances sont essentielles pour persuader de nombreuses personnes, y compris des non-ressortissants et des membres de groupes raciaux et ethniques minoritaires, de donner volontairement des informations personnelles.

D’autre part, des milliers d’entités – gouvernements locaux, entreprises, groupes de défense, etc. – s’appuient sur l’objectif du bureau de compter « tout le monde, une seule fois et au bon endroit » pour éclairer d’innombrables décisions démographiques, du dessin de cartes politiques à la catastrophe. planification d’intervention pour placer des arrêts de bus.

Le recensement de la population de 2020 brise cette hypothèse. Maintenant, le bureau affirme que son mandat légal de protéger l’identité des répondants au recensement signifie que certaines données de la plus petite zone géographique qu’il mesure – blocs de recensement, ne pas confondre avec city block – doit être regardé avec méfiance, voire ignoré.

Et le consommateur de données n’est pas content.

« Nous comprenons que nous devons protéger la vie privée des individus, et il est important que le bureau le fasse », a déclaré David Van Riper, un responsable de l’Université du Minnesota. Institut de recherche sociale et d’innovation des données, a écrit dans un e-mail. « Mais à mon avis, générer des données de mauvaise qualité pour assurer la protection de la vie privée va à l’encontre de l’objectif d’un recensement décennal. »

Le Census Bureau affirme que ses mécanismes de confidentialité sont conçus pour déplacer les personnes uniquement vers des blocs de recensement avec au moins une résidence. Cela suggère que les terrains vacants et les rivières indiqués comme habitants de Chicago vivaient à un moment donné auraient pu avoir des résidences, telles que des péniches ou des maisons qui avaient été démolies, ou qu’une erreur de codage a marqué à tort le bloc comme le possédant.

Il s’agit d’un concept mathématique appelé confidentialité différentielle que le bureau a utilisé pour la première fois pour dissimuler les données du recensement de 2020. De nombreux consommateurs de données de recensement ont déclaré que cela produisait non seulement des résultats absurdes comme ceux du bloc 1002, mais pouvait également restreindre la publication sur la base de la confidentialité des informations de base qu’ils invoqué.

Ils sont également irrités par sa mise en œuvre. La plupart des changements majeurs apportés au recensement sont testés jusqu’à une décennie. La confidentialité différentielle est utilisée depuis plusieurs années, et la publication des données qui a été perturbée par la pandémie a été encore retardée par des ajustements de confidentialité.

Les responsables du recensement ont qualifié les inquiétudes d’exagérées. Ils ont fait un effort urgent pour expliquer les changements et ont adapté leur moteur de confidentialité pour traiter les plaintes.

Mais en même temps, ils disent que les changements profonds apportés par la vie privée différentielle sont non seulement justifiés mais aussi inévitables compte tenu des menaces à la vie privée, déroutantes ou non.

« Oui, les données au niveau des blocs ont une situation impossible ou impossible », a déclaré Michael B. Hawes, conseiller principal pour l’accès aux données et la confidentialité au bureau, dans une interview. « C’est par conception. Vous pouvez le considérer comme une fonctionnalité, pas comme un bug. »

Et c’est le point. Pour les passionnés de données professionnelles qui sont agents de recensement, l’incertitude est une réalité statistique de la vie. Pour leurs clients, l’image d’un bloc de recensement avec des maisons mais pas de personnes, des personnes mais pas de maisons et même des personnes vivant sous l’eau s’est avérée indélébile, comme si le rideau avait été tiré sur la démographie de Great Oz.

« Ils ont brisé l’illusion – l’illusion qui faisait penser à tout le monde que cette estimation ponctuelle était toujours assez bonne ou aussi bonne qu’elle pouvait l’être », a déclaré danah boyd, un spécialiste de la technologie qui utilise des lettres minuscules pour son nom et a co-écrit. une étude du débat sur la vie privée. « Les dirigeants du Census Bureau savent depuis des décennies que cette petite zone de données pose toutes sortes de problèmes. »

La différence maintenant, dit-il, c’est que tout le monde le sait aussi.

Un peu d’histoire : Blocs de recensement — il y en a 8 132 968 — commencé il y a plus d’un siècle pour aider les villes à mieux mesurer leur population. Beaucoup sont de véritables pâtés de maisons, mais d’autres sont plus grands et de forme irrégulière, en particulier dans les zones suburbaines et rurales.

Pendant des décennies, le Census Bureau a retenu la plupart des blocs de données pour des raisons de confidentialité, mais a cédé alors que la demande de données hyperlocales devenait insatiable. Le tournant est survenu en 1990 : le bloc de recensement a été élargi à l’ensemble du pays et le recensement a commencé à poser des questions détaillées sur la race et l’ethnicité.

Ce détail supplémentaire permet aux étrangers de procéder à une ingénierie inverse des statistiques de recensement pour identifier des répondants spécifiques – dans, par exemple, un bloc de recensement avec une mère célibataire américaine d’origine asiatique. Le bureau couvre la piste en échangeant des répondants facilement identifiables entre les blocs de recensement, une pratique appelée échange.

Mais lors du recensement de 2010, l’explosion de l’informatique commerciale et de la puissance des données avait franchi cette barrière. Dans une analyse, le bureau a constaté que 17% de la population du pays peut être reconstruite en détail — révélant l’âge, la race, le sexe, le statut du ménage, etc. — en combinant les données du recensement avec des bases de données contenant des informations telles que les noms et les adresses.

Aujourd’hui, « n’importe quel étudiant de premier cycle en informatique peut effectuer une reconstruction comme celle-ci », explique Hawes.

La solution pour le recensement de 2020, la confidentialité différentielle, également utilisée par des entreprises comme Apple et Google, applique des algorithmes informatiques à des corpus entiers de données de recensement plutôt que de modifier des blocs individuels. Les statistiques qui en résultent ont du « bruit » – des inexactitudes générées par ordinateur – dans une petite zone comme un bloc de recensement. Mais les imprécisions s’estompent lorsque les blocs sont combinés en un tout cohérent.

Ce changement apporte ses propres avantages au Census Bureau. Alors que l’échange est un moyen grossier de masquer les données, les algorithmes de confidentialité différentiels peuvent être réglés pour répondre aux besoins de confidentialité exacts. De plus, le bureau peut désormais indiquer à l’utilisateur des données à peu près la quantité de bruit qu’il génère.

Aux yeux des spécialistes des données, les statistiques des blocs de recensement sont toujours inexactes ; c’est juste que la plupart des utilisateurs ne le savent pas. Dans cet esprit, la confidentialité différentielle rend les chiffres du recensement plus précis et transparents, rien de moins.

Les étrangers voient les choses différemment. UN Analyse de l’Université Cornell La publication de données la plus récente de l’État de New York conclut qu’un bloc de recensement sur huit est une valeur statistique aberrante, dont un sur 20 avec des maisons mais pas de personnes, un sur 50 avec des personnes mais pas de maisons et un sur 100 avec uniquement des personnes de moins de 18 ans. .

Ces anomalies seront réduites à mesure que les algorithmes seront affinés et que de nouveaux ensembles de données seront publiés. Certains experts ont déclaré qu’ils craignaient toujours que le numéro ne puisse être utilisé.

Certains défenseurs des droits civiques craignent que les données du bloc bruyant ne compliquent le tracé des frontières politiques en vertu des dispositions de la loi sur les droits de vote pour la représentation des minorités, bien que d’autres ne voient aucun problème. Certains experts dessinant des cartes politiques disent avoir eu du mal avec les nouvelles données.

Les anomalies de bloc ne posent pas de problème dans le plus grand district, mais elles « provoquent un véritable chaos dans l’environnement du conseil municipal », a déclaré Kimball Brace, dont la société, Electoral Data Services, sert principalement des clients démocrates.

Les critiques craignent également que le bureau ne limite la publication de certaines statistiques importantes uniquement au niveau régional plus large, comme les districts, car les numéros des blocs de recensement ne sont pas fiables.

M. Hawes, le responsable de la confidentialité du bureau, a déclaré que cela pourrait arriver. Mais comme les contraintes de confidentialité différentielles peuvent être ajustées, « nous avons ajouté des tableaux géographiques de niveau inférieur en fonction des commentaires que nous avons reçus », a-t-il déclaré.

Une telle ouverture est un changement majeur dans une agence où la confidentialité est le mantra. Le passage à la confidentialité différentielle ne serait peut-être pas si difficile si le bureau répondait mieux à la question de base : « Puisqu’il y a tellement de données disponibles dans le commerce, pourquoi devrions-nous nous soucier de la protection des données de recensement ? a déclaré Jae June Lee, spécialiste des données à l’Université de Georgetown qui conseille les groupes de défense des droits civiques sur les changements.

La réponse, dit Cynthia Dwork, informaticienne à l’Université de Harvard et l’une des quatre fondatrices de la confidentialité différentielle, est qu’une nouvelle ère d’emballement technologique et d’intolérance croissante a rendu les limites de la confidentialité plus importantes que jamais.

Desserrez-les, a-t-il dit, et les données du recensement pourraient révéler que les locataires de logements subventionnés occupent des dortoirs illégitimes pour joindre les deux bouts. Ou les données pourraient être utilisées par des groupes haineux et les politiciens qui en font écho pour cibler des personnes qui ne correspondent pas à leurs préférences.

« Imaginez une sorte d’armement, où quelqu’un décide de répertorier tous les foyers homosexuels du pays », a-t-il déclaré. « J’aimerais qu’il y ait quelqu’un qui écrive un logiciel pour faire ça. »