A mágica dos dados sintéticos: Como impressões digitais inexistentes ajudam a identificar criminosos reais

Igor Janos explica por que o mundo precisa de mais dados do que os que geramos e como os dados sintéticos pode ajudar a capturar criminosos

(Você pode encontrar o texto original em inglês aqui)

Para treinar um modelo de IA viável, você precisa de dados. Muitos deles. Mas o que você faz quando não há dados suficientes? Simples: você inventa alguns. Ou, para colocar em termos mais sofisticados, você “gera dados sintéticos”.

Igor Janos, líder de síntese de dados de imagem da empresa de soluções biométricas Innovatrics, explica por que o mundo precisa de mais dados do que os que geramos atualmente e como a criação de dados sintéticos pode ajudar não apenas a capturar criminosos, mas também a treinar com segurança os carros autônomos do futuro.

O que são dados sintéticos e por que eles são úteis?

Os dados sintéticos são um conjunto de dados gerado artificialmente que pode ser modelado para se parecer com um conjunto de dados real ou ser deliberadamente distorcido para exagerar um aspecto importante.

Digamos que você esteja desenvolvendo uma IA para identificar estradas problemáticas em uma cidade. Você gasta muito dinheiro e tempo gravando centenas de horas de filmagem de milhares de ruas e usa isso para treinar sua IA para encontrar aspectos problemáticos das ruas. No entanto, isso exige muito tempo, esforço e despesas.

De qualquer forma, para o computador, cada estrada é apenas um conjunto de números: um pode representar a posição da estrada, outro pode representar seu comprimento, a hora do dia ou o número de carros que passam por ela. Então, por que gastar seu tempo registrando, se você pode simplesmente embaralhar aleatoriamente as variáveis e gerar milhares de variações possíveis de estradas no local?

Desde que você se certifique de que suas estradas artificiais tenham parâmetros semelhantes aos das estradas do mundo real (comprimentos semelhantes, densidade de tráfego, etc.) e distribuições semelhantes (ou seja, toda cidade tem uma infinidade de ruas menores e muito menos rodovias principais, e isso deve ser representado de forma semelhante nos dados), a IA não verá a diferença.

Essa é uma das maiores vantagens dos dados sintéticos – são baratos, rápidos e, como veremos, podem ser uma boa maneira de contornar as restrições de dados pessoais.

É claro que também há desvantagens. Os dados sintéticos são bons para “preencher a curva” da distribuição padrão, mas raramente aumentam a complexidade, introduzem novos casos extremos ou refletem quaisquer discrepâncias do mundo real. E o mais importante é que eles são tão bons quanto os dados do mundo real que você fornece.

Nunca se pode ter impressões digitais suficientes

Você sabia que as impressões digitais são um recurso escasso? Quando se trata de uma investigação criminal, certos tipos de impressões digitais são raros – e, portanto, tão valiosos que, para Igor Janos, vale a pena criar e treinar modelos de IA com o único objetivo de criar impressões digitais sintéticas.

Os tipos de impressões digitais mais facilmente disponíveis são as digitalizadas. Empurrando todo o dedo sobre a superfície de um scanner, obtém-se uma digitalização limpa em preto e branco do padrão completo da impressão digital. Isso facilita muito a identificação das características distintivas da impressão digital, chamadas de “pontos de minúcias”, como extremidades de cristas, bifurcações ou esporões.

“Com bancos de dados repletos de milhões de impressões digitais nítidas, todas de tamanho semelhante e claramente rotuladas, é possível treinar facilmente uma rede neural para procurar padrões. Nesses casos, ela pode reconhecer e identificar sua impressão digital em uma fração de segundo, comparando-a com as impressões digitais do banco de dados”, explicou Igor Janos.

dados sintéticos — Impressão digital com pontos de minúcias destacados

Entretanto, nas investigações criminais, as coisas não são tão fáceis. Na maioria das vezes, estamos lidando com impressões digitais latentes – restos danificados ou distorcidos de uma impressão digital original, que também são apenas fotografadas, não digitalizadas. Isso significa que cada impressão provavelmente terá um tamanho e uma rotação diferentes (já que as fotos são tiradas na cena do crime), terá sido tirada de um ângulo diferente e terá diferentes fundos ou relíquias de lentes.

Além disso, se essa falta de dados homogêneos não for suficiente, há também um problema com a privacidade dos dados. “As impressões digitais ainda são protegidas pelo GDPR como dados pessoais e, é claro, nenhum departamento de polícia abrirá seus arquivos para você apenas para treinar seu algoritmo”, explica Janos.

Há apenas um conjunto de dados certificado e acessível ao público com 10.000 fotos de impressões digitais latentes. E ele contém apenas impressões de 250 indivíduos distintos.

Como gerar impressões digitais sintéticas? É mais difícil do que você pensa

É quase certo que você já tenha ouvido falar de geradores de imagens como o DALL-E ou o Stable Diffusion. Bem, e se, em vez de gerar imagens aleatórias, você treinasse o gerador para criar… impressões digitais sintéticas?

É difícil, mas é possível.

Há muitos dados de treinamento de imagens de impressões digitais digitalizadas, mas a maneira como a geração de imagens funciona dificulta a geração de imagens sem transições graduais de cores. E as impressões digitais são a definição de ausência de transição – são apenas linhas nítidas em preto e branco.

No entanto, após horas de treinamento, você pode obter um modelo para gerar impressões digitais de formato oval com pontos de minúcias distintos – estruturas, bifurcações e esporas. E você já está na metade do caminho!

Um dia de treinamento versus resultado final

Agora vem a outra parte difícil: tornar as impressões digitais “latentes”, em outras palavras, danificadas ou incompletas. Isso é feito com a introdução do conjunto real e muito limitado de impressões digitais latentes de um banco de dados existente. É necessário empurrar cuidadosamente o algoritmo na direção certa, criando camadas e mais camadas de distorção – recortes, manchas, exclusão de partes da imagem – mantendo intactos os pontos importantes de minúcias.

Igor Janos conclui: “O resultado, depois de dias de treinamento e semanas de pesquisa, é uma impressão digital latente altamente realista, mas, principalmente, ‘não’ real.“

O que fazer com os dados sintéticos? Ensine sua rede neural

Depois de gerar dados sintéticos de alta qualidade, você pode usá-los para treinar outras redes que fazem o trabalho real de que você precisa. Isso pode ser o reconhecimento e o emparelhamento de impressões digitais latentes com suas contrapartes digitalizadas, como na pesquisa de Igor Janos, ou a correspondência de fotos de policiais com as imagens parciais de rostos das câmeras CCTV.

Fora do sistema judiciário, os dados sintéticos são usados diariamente. Por exemplo, são usados para aprimorar os modelos estatísticos das companhias de seguros ou para ajudar a identificar pagamentos fraudulentos, modelando o comportamento dos clientes para os bancos. Ele até mesmo torna acessíveis ao público dados sensíveis relacionados à saúde, gerando dados sintéticos modelados em pacientes reais sem violar sua confidencialidade.

Um dos usos mais “futuristas” dos dados sintéticos é o treinamento de carros autônomos. Em vez de permitir que os veículos autônomos treinem na estrada, a maior parte do treinamento é feita em vastas simulações em 3D de estradas, cruzamentos e cidades inteiras. Uma rede neural é liberada dentro dessas situações simuladas e pode obter anos de experiência de direção em questão de semanas ou meses.

Os dados do futuro são sintéticos

Em um mundo em que o aprendizado de máquina é usado em mais aplicativos a cada minuto, os dados sintéticos estão rapidamente ganhando destaque. Eles aprimorarão os grandes modelos e nos permitirão criar novos aplicativos que antes não imaginávamos serem possíveis. Prevê-se que o que hoje é um pequeno mercado de US$ 169 milhões cresça para US$ 3,5 bilhões até 2031.

E ele tem o potencial de tornar nosso mundo não apenas melhor, mas mais seguro para todos.

(Você pode encontrar mais conteúdo semelhante aqui)

Innovatrics apresenta soluções de biometria latente no Febraban Tech 2023

CredDefense fecha parceria com Innovatrics para incorporar tecnologia de Prova de Vida certificada

Empresas brasileiras mostraram muitos usos positivos da tecnologia biométrica na BioCon Brasil 2023

Sobre Innovatrics

A Innovatrics é uma fornecedora independente de soluções biométricas confiáveis para governos e empresas, sediada na UE.

Nossos algoritmos estão consistentemente entre os mais rápidos e precisos em reconhecimento facial e de impressão digital . Desde 2004, firmamos parcerias com todos os tipos de organizações para desenvolver soluções de identificação biométrica confiáveis e flexíveis. Nossos produtos são utilizados em mais de 80 países, beneficiando mais de um bilhão de pessoas em todo o mundo.

Na era digital, que é praticamente impossível de acompanhar, como construir confiança? Confiança entre as pessoas. Confiança para deixar você entrar no meu país. Confiança para emprestar dinheiro. Confiança para votar.

Em nossa busca por uma visão mais ampla, percebemos que, embora sejamos uma empresa de tecnologia, nossos produtos são, em última análise, muito humanos . É a biometria que traz confiança. Instantaneamente. E é isso que queremos construir…

Uma comunidade onde ninguém precisa ser revistado. Um sistema que dispensa a papelada. Uma forma orgânica de confirmar identidade. Um mundo de confiança instantânea .

Outros artigos da Innovatrics você lê aqui!

Siga o Crypto ID no LinkedIn agora mesmo!

Compartilhe:

A mágica dos dados sintéticos: Como impressões digitais inexistentes ajudam a identificar criminosos reais

O que são dados sintéticos e por que eles são úteis?

Nunca se pode ter impressões digitais suficientes

Como gerar impressões digitais sintéticas? É mais difícil do que você pensa

O que fazer com os dados sintéticos? Ensine sua rede neural

Os dados do futuro são sintéticos

ÚLTIMAS NOTÍCIAS

A nova redução da validade dos certificados SSL já começou: sua operação está preparada?

Unico inaugura sede no Vale do Silício e avança como infraestrutura global de confiança digital

Golpes com futebol disparam no Brasil e já atingem 3 em cada 10 torcedores, revela NordVPN

Esther Dweck detalha reestruturação de carreiras públicas e novas parcerias tecnológicas

Infraestruturas críticas conectadas viram alvo de fraude e Brasil leva solução à Hannover Messe 2026

Na Visão da Thales, RSAC 2026 Reforçou os Papeis da Gestão de Identidade e Acesso, Inteligência Artificial e Post-Quantum Cryptography como Poderes da Comunidade Cyber

AUTOCOM Summit destaca Brasil como laboratório global de pagamentos e aponta IA como próxima fronteira do varejo

Imposto de Renda 2026: como acompanhar o processamento da sua declaração

Receba novidades

Eventos

Produzido por: Insania

A mágica dos dados sintéticos: Como impressões digitais inexistentes ajudam a identificar criminosos reais

O que são dados sintéticos e por que eles são úteis?

Nunca se pode ter impressões digitais suficientes

Como gerar impressões digitais sintéticas? É mais difícil do que você pensa

O que fazer com os dados sintéticos? Ensine sua rede neural

Os dados do futuro são sintéticos

ÚLTIMAS NOTÍCIAS

Receba novidades

Eventos

CADASTRE-SE EM NOSSA NEWSLETTER