Por Marcelo Luiz Brocardo
Este artigo é continuação do artigo Biometria comportamental aplicada a autenticação contínua | Parte 2 quanto a forma como lidamos com a informação ao longo dos últimos anos com uso da tecnologia de autenticação eletrônica.
No artigo anterior tratamos de Como funciona um sistema biométrico, Biometria da digitação, Autenticação Estática utilizando biometria comportamental e a gora damos continuidade com outros dois temas.
4 – Estilometria
A estilometria pode ser classificada como uma tecnologia de biometria comportamental, uma vez que analisa características sócio-linguísticas do autor.
A estilometria consiste em inferir a autoria de um documento, extrair e analisar os estilos de escrita ou recursos estilométricos do conteúdo do documento. Análise de autoria usando estilometria tem sido estudado principalmente com a finalidade de análise forense. Estilo de escrita é um hábito inconsciente e os padrões de vocabulário e gramática poderiam ser um indicador confiável da autoria. Estudos em estilometria tipicamente focam três problemas diferentes, incluindo, atribuição de autoria ou de identificação, caracterização e verificação de autoria.
Atribuição
Atribuição consiste em determinar o autor mais provável de um documento entre uma lista de pessoas conhecidas
Atribuição segue o processo de identificação biométrica típico, em que o sistema reconhece um autor através da comparação de um-para-muitos. O processo consiste em extrair características de textos de amostra e classificar as classes de acordo com os autores dos documentos. As características típicas que são extraídas de um texto incluem dados referentes a estrutura léxica, semântica e sintática.
A tecnologia por traz é similar a utilizado nos sistemas de classificação de textos. A principal diferença, porém, é que a atribuição é independente do tema, enquanto que na classificação de textos os rótulos da classe são baseados no tema do documento e as características incluem palavras-dependente referente ao tópico.
Os primeiros sucessos na tentativa de quantificar o estilo de escrita envolveu a resolução de disputada autoral das peças de Shakespeare por Mendenhall em 1887 e dos documentos “The Federalist Papers” por Mosteller e Wallace em 1964.
Recentemente, estudos sobre identificação de autoria investigado maneiras de identificar padrões de comunicações terroristas, o autor de um determinado e-mail para fins de informática forense, bem como a forma de recolher provas digitais para investigações ou resolver disputa autoral literária, histórica, ou musical.
Caracterização
Caracterização consiste em determinar as características (por exemplo, sexo, idade e raça) do autor de um documento anônimo.
Trabalhos sobre a caracterização têm como alvo a determinação de vários traços ou características de um autor, tais como sexo, idade, ou nível de educação. A caracterização é tratada como um problema de classificação de texto. A abordagem geral consiste em criar clusters sócio-linguísticos de documentos escritos pela mesma população, e em seguida, inferir o grupo de um documento anônimo.
Verificação
Verificação de autoria consiste em verificar se um documento foi escrito ou não por uma pessoa específica
A verificação de autoria consiste em verificar se um documento foi escrito ou não por um autor específico. Há poucos trabalhos sobre a verificação autoral fora do âmbito da detecção de plágio, e a maioria deles se concentra na análise de texto gerais (obras literárias).
Por outro lado, o desempenho de verificação de autoria de documentos on-line é afetado pelo tamanho do texto, o número de possíveis autores, o tamanho do conjunto de textos para análise, e também ao fato de que esses documentos são, em geral, bastante mal estruturados ou escritos (em oposição às obras literárias). A verificação segue processo de verificação biométrica típica, em que a identidade de um autor é verificado através de correspondência de um-para-um.
Alguns pesquisadores têm investigado a autoria como um problema de detecção de similaridade, em que o problema consiste em determinar o grau de semelhança dada duas peças de texto, através da medição da distância entre elas. Outros pesquisadores têm investigado esta questão como um problema de uma ou duas classes, com uma classe composta por documentos escritos pelo autor, e uma segunda classe composta por documentos escritos por outros autores.
5 – Autenticação contínua baseada na estilometria
Estilometria tem sido amplamente utilizado para a identificação e caracterização, mas apenas um pequeno número de obras têm como alvo a verificação autoral. Uma vertente nova de pesquisa é o uso da verificação de autoria no contexto de autenticação de usuário de forma contínua ou repetida.
A maioria das abordagens de análise de estilometria propostos na literatura usa tamanho do documento relativamente grande, o que é inaceitável para a autenticação contínua. Autenticação contínua requer a análise de um bloco de texto curto e um texto não estruturada, mantendo ao mesmo tempo as taxas de erro de verificação baixa.
A análise estilometrica usando mensagens curtas é um desafio devido à quantidade limitada de informação disponível para a tomada de decisão. A análise de textos curtos pode ser simulada pela decomposição de um texto longo em blocos de texto curto, como por exemplos de tamanhos de bloco de 500, 280, e 140 caracteres.
Como o princípio da autenticação contínua é monitorar o comportamento do usuário durante a sessão, então um sistema deve discriminar entre o comportamento normal e suspeito de um usuário. Em caso de comportamento suspeito, a sessão do usuário é fechada e um alerta é gerado.
PhD pela Universidade de Victoria no Canadá, onde estudou segurança da informação com foco em em autenticação contínua através de biometria comportamental.
Ele também cursou mestrado no LabSec da Universidade Federal de Santa Catarina e pesquisou certificação digital.
E é Colunista do CryptoID.
Contato: marcelo.luiz.brocardo@gmail.com
Acesse a coluna do Marcelo Brocardo do CryptoID
Leia também: Biometria comportamental aplicada a autenticação contínua | Parte 1