Igor Janos explica por que o mundo precisa de mais dados do que os que geramos e como os dados sintéticos pode ajudar a capturar criminosos
(Você pode encontrar o texto original em inglês aqui)
Para treinar um modelo de IA viável, você precisa de dados. Muitos deles. Mas o que você faz quando não há dados suficientes? Simples: você inventa alguns. Ou, para colocar em termos mais sofisticados, você “gera dados sintéticos”.
Igor Janos, líder de síntese de dados de imagem da empresa de soluções biométricas Innovatrics, explica por que o mundo precisa de mais dados do que os que geramos atualmente e como a criação de dados sintéticos pode ajudar não apenas a capturar criminosos, mas também a treinar com segurança os carros autônomos do futuro.
O que são dados sintéticos e por que eles são úteis?
Os dados sintéticos são um conjunto de dados gerado artificialmente que pode ser modelado para se parecer com um conjunto de dados real ou ser deliberadamente distorcido para exagerar um aspecto importante.
Digamos que você esteja desenvolvendo uma IA para identificar estradas problemáticas em uma cidade. Você gasta muito dinheiro e tempo gravando centenas de horas de filmagem de milhares de ruas e usa isso para treinar sua IA para encontrar aspectos problemáticos das ruas. No entanto, isso exige muito tempo, esforço e despesas.
De qualquer forma, para o computador, cada estrada é apenas um conjunto de números: um pode representar a posição da estrada, outro pode representar seu comprimento, a hora do dia ou o número de carros que passam por ela. Então, por que gastar seu tempo registrando, se você pode simplesmente embaralhar aleatoriamente as variáveis e gerar milhares de variações possíveis de estradas no local?
Desde que você se certifique de que suas estradas artificiais tenham parâmetros semelhantes aos das estradas do mundo real (comprimentos semelhantes, densidade de tráfego, etc.) e distribuições semelhantes (ou seja, toda cidade tem uma infinidade de ruas menores e muito menos rodovias principais, e isso deve ser representado de forma semelhante nos dados), a IA não verá a diferença.
Essa é uma das maiores vantagens dos dados sintéticos – são baratos, rápidos e, como veremos, podem ser uma boa maneira de contornar as restrições de dados pessoais.
É claro que também há desvantagens. Os dados sintéticos são bons para “preencher a curva” da distribuição padrão, mas raramente aumentam a complexidade, introduzem novos casos extremos ou refletem quaisquer discrepâncias do mundo real. E o mais importante é que eles são tão bons quanto os dados do mundo real que você fornece.
Nunca se pode ter impressões digitais suficientes
Você sabia que as impressões digitais são um recurso escasso? Quando se trata de uma investigação criminal, certos tipos de impressões digitais são raros – e, portanto, tão valiosos que, para Igor Janos, vale a pena criar e treinar modelos de IA com o único objetivo de criar impressões digitais sintéticas.
Os tipos de impressões digitais mais facilmente disponíveis são as digitalizadas. Empurrando todo o dedo sobre a superfície de um scanner, obtém-se uma digitalização limpa em preto e branco do padrão completo da impressão digital. Isso facilita muito a identificação das características distintivas da impressão digital, chamadas de “pontos de minúcias”, como extremidades de cristas, bifurcações ou esporões.
“Com bancos de dados repletos de milhões de impressões digitais nítidas, todas de tamanho semelhante e claramente rotuladas, é possível treinar facilmente uma rede neural para procurar padrões. Nesses casos, ela pode reconhecer e identificar sua impressão digital em uma fração de segundo, comparando-a com as impressões digitais do banco de dados”, explicou Igor Janos.
Entretanto, nas investigações criminais, as coisas não são tão fáceis. Na maioria das vezes, estamos lidando com impressões digitais latentes – restos danificados ou distorcidos de uma impressão digital original, que também são apenas fotografadas, não digitalizadas. Isso significa que cada impressão provavelmente terá um tamanho e uma rotação diferentes (já que as fotos são tiradas na cena do crime), terá sido tirada de um ângulo diferente e terá diferentes fundos ou relíquias de lentes.
Além disso, se essa falta de dados homogêneos não for suficiente, há também um problema com a privacidade dos dados. “As impressões digitais ainda são protegidas pelo GDPR como dados pessoais e, é claro, nenhum departamento de polícia abrirá seus arquivos para você apenas para treinar seu algoritmo”, explica Janos.
Há apenas um conjunto de dados certificado e acessível ao público com 10.000 fotos de impressões digitais latentes. E ele contém apenas impressões de 250 indivíduos distintos.
Como gerar impressões digitais sintéticas? É mais difícil do que você pensa
É quase certo que você já tenha ouvido falar de geradores de imagens como o DALL-E ou o Stable Diffusion. Bem, e se, em vez de gerar imagens aleatórias, você treinasse o gerador para criar… impressões digitais sintéticas?
É difícil, mas é possível.
Há muitos dados de treinamento de imagens de impressões digitais digitalizadas, mas a maneira como a geração de imagens funciona dificulta a geração de imagens sem transições graduais de cores. E as impressões digitais são a definição de ausência de transição – são apenas linhas nítidas em preto e branco.
No entanto, após horas de treinamento, você pode obter um modelo para gerar impressões digitais de formato oval com pontos de minúcias distintos – estruturas, bifurcações e esporas. E você já está na metade do caminho!
Agora vem a outra parte difícil: tornar as impressões digitais “latentes”, em outras palavras, danificadas ou incompletas. Isso é feito com a introdução do conjunto real e muito limitado de impressões digitais latentes de um banco de dados existente. É necessário empurrar cuidadosamente o algoritmo na direção certa, criando camadas e mais camadas de distorção – recortes, manchas, exclusão de partes da imagem – mantendo intactos os pontos importantes de minúcias.
Igor Janos conclui: “O resultado, depois de dias de treinamento e semanas de pesquisa, é uma impressão digital latente altamente realista, mas, principalmente, ‘não’ real.“
O que fazer com os dados sintéticos? Ensine sua rede neural
Depois de gerar dados sintéticos de alta qualidade, você pode usá-los para treinar outras redes que fazem o trabalho real de que você precisa. Isso pode ser o reconhecimento e o emparelhamento de impressões digitais latentes com suas contrapartes digitalizadas, como na pesquisa de Igor Janos, ou a correspondência de fotos de policiais com as imagens parciais de rostos das câmeras CCTV.
Fora do sistema judiciário, os dados sintéticos são usados diariamente. Por exemplo, são usados para aprimorar os modelos estatísticos das companhias de seguros ou para ajudar a identificar pagamentos fraudulentos, modelando o comportamento dos clientes para os bancos. Ele até mesmo torna acessíveis ao público dados sensíveis relacionados à saúde, gerando dados sintéticos modelados em pacientes reais sem violar sua confidencialidade.
Um dos usos mais “futuristas” dos dados sintéticos é o treinamento de carros autônomos. Em vez de permitir que os veículos autônomos treinem na estrada, a maior parte do treinamento é feita em vastas simulações em 3D de estradas, cruzamentos e cidades inteiras. Uma rede neural é liberada dentro dessas situações simuladas e pode obter anos de experiência de direção em questão de semanas ou meses.
Os dados do futuro são sintéticos
Em um mundo em que o aprendizado de máquina é usado em mais aplicativos a cada minuto, os dados sintéticos estão rapidamente ganhando destaque. Eles aprimorarão os grandes modelos e nos permitirão criar novos aplicativos que antes não imaginávamos serem possíveis. Prevê-se que o que hoje é um pequeno mercado de US$ 169 milhões cresça para US$ 3,5 bilhões até 2031.
E ele tem o potencial de tornar nosso mundo não apenas melhor, mas mais seguro para todos.
(Você pode encontrar mais conteúdo semelhante aqui)
Innovatrics apresenta soluções de biometria latente no Febraban Tech 2023
CredDefense fecha parceria com Innovatrics para incorporar tecnologia de Prova de Vida certificada
Empresas brasileiras mostraram muitos usos positivos da tecnologia biométrica na BioCon Brasil 2023
Sobre Innovatrics
A Innovatrics é um parceiro independente e confiável para tecnologia de gerenciamento de identidade biométrica. Até o momento, a empresa concluiu com êxito mais de 600 projetos em 80 países, com mais de um bilhão de pessoas processadas biometricamente usando o software da Innovatrics.
Combinada com uma abordagem inovadora e um atendimento proativo ao cliente, a Innovatrics capacita organizações de todo o mundo a integrar ou criar soluções poderosas e flexíveis de identificação biométrica de forma rápida e fácil.
Outros artigos da Innovatrics você lê aqui!
Você quer acompanhar nosso conteúdo? Então siga nossa página no LinkedIn!