Elige los tags que mejor te definan:

Por que é tão importante anonimizar dados?

Por Sergio González Roldán — 12 de dezembro de 2019

Para garantir a privacidade dos dados, é necessário anonimizá-los e eliminar a possibilidade de fazer engenharia reversa para recuperá-los

Outro dia, conversando com um cliente sobre inovação no setor de saúde, ele me disse que tinham acesso a uma base de dados muito potente com toneladas de informações sobre pacientes. Evidentemente, este acesso era restringido a certas empresas para levar a cabo determinados projetos de pesquisa e desenvolvimento com fins públicos. A papelada atrás destes projetos era importante, tudo para assegurar sua confidencialidade.

Minha pergunta imediata foi: O que vocês fazem para anonimizar estes dados e respeitar a privacidade dos pacientes? Eles me responderam que eliminavam os nomes e alguns dados de caráter privado, como telefone ou domicílio.

Sem dúvida esse é um passo, mas meu subconsciente rapidamente visualizou meu filho de 8 anos fazendo trabalho de engenharia reversa como se fosse um quebra-cabeça. Vi-o entretido relacionando frequências cardíacas, com idades e padrões de eletrocardiogramas enquanto ia ‘desanonimizando’, uma a uma, as pessoas atrás de cada caso clínico. Para uma criança é questão de tempo e paciência, mas para uma máquina qualquer de hoje em dia, só são uns poucos elétrons.

Uma das melhores formas para anonimizar dados é identificá-los segundo as seguintes categorias:

  • Dados identificadores: reconhecem uma pessoa diretamente (nome, RG…).
  • Dados quase identificadores: conseguem identificar uma pessoa, mas também são úteis para nossos propósitos (idade, peso, altura…).
  • Dados confidenciais: são de grande utilidade e valor para nossos fins (pulsações por minuto, padrão do eletrocardiograma, pressão sanguínea…).

Para garantir a privacidade dos dados, é necessário anonimizá-los e, além disso, eliminar por completo a possibilidade de fazer engenharia reversa para recuperá-los. Para isso se realizarão as seguintes ações sobre cada um dos tipos anteriores de dados:

  • Dados identificadores: serão eliminados diretamente. Perdem-se as informações por completo.
  • Dados quase identificadores: serão microperturbados e microagregados de tal maneira que sejam agrupados em um número limitado de conjuntos e níveis. Perdem-se parcialmente as informações, mas isto supõe uma quantidade insignificante para os fins propostos.
  • Dados confidenciais: serão respeitados para não se perderem as informações, o que é primordial.

E como se consegue fazer isto? Com algoritmos de machine learning que, com aprendizagem prévia, são capazes de identificar os tipos de dados e aplicar o grau de perturbação e agregação necessários para tornar irreversível o processo de anonimização. Estamos falando de algoritmos avançados de SDC (Statistical Disclosure), com estratégias de microagregações e microperturbações.

Este algoritmos têm um custo. Quanto mais anonimização se quiser aplicar, menos úteis serão os dados, porque ficarão mais agregados e perturbados.

E se querem saber sobre o meu cliente, só posso dizer que agora a privacidade, sim, está garantida.

Servicios relacionados
DadosOperações
Suscríbete a nuestra newsletter

Suscríbete a nuestra newsletter mensual