Ampliar o valor dos dados: Matching

No processo de Enriquecimento, as informações complementares provenientes de fontes de referência confiáveis podem ser utilizadas tanto para validação do conteúdo como para adição de informações ao registro. Temos como resultado uma base de dados mais completa, com indicadores de níveis de qualidade para cada dado e enriquecida com novas informações, como vimos no artigo: Ampliar o valor dos dados: Enriquecimento.

Após o enriquecimento ser aplicado, chegamos à etapa de Matching onde são aplicados algoritmos sofisticados para unificação dos dados mesmo com diferenças de escrita, problemas fonéticos, dados parcialmente completos, entre outros.

O Matching pode ser aplicado a dados de qualquer natureza o que possibilita a unificação de dados de Pessoas, tanto Físicas como Jurídicas, Endereços, Produtos, Materiais, entre outros.. e utiliza os níveis de qualidade e as informações enriquecidas na etapa de Enriquecimento para melhorar os resultados de unificação.

De acordo com a necessidade do Negócio pode ser necessário ser mais ou menos tolerante às diferenças existentes entre os dados que estão sendo unificados. Para garantir que somente os dados que apresentam o nível de igualdade tolerado sejam unificados são feitos ajustes no grau de rigidez/tolerância dos algoritmos de comparação utilizados no processo de Matching.

Os algoritmos que toleram diferenças em campos de Data, por exemplo, podem tolerar diferenças de alguns dias entre os campos de data que estão sendo comparados, ou pode tolerar troca de posição entre o dia e o mês, o que permitiria que uma data 12/02/2016 fosse considerada semelhante a data 02/12/2016.

Para os algoritmos que toleram diferenças nas grafias, dependendo do campo que está sendo comparado temos que ser mais ou menos tolerantes. Por exemplo para uma comparação do campo Primeiro Nome de uma pessoa física, podemos tolerar apenas diferenças fonéticas para esse campo e aceitar que “Luisa” seja identificado como semelhante a “Luiza”, porém não podemos aceitar que “Mario” seja considerado equivalente a “Maria”. Os ajustes feitos no algoritmo e composição com outras comparações nos permitem ajustar para que o nível de tolerância seja adequado.

O refinamento dos algoritmos do Matching deve ser feito de forma cíclica para garantir a melhoria contínua do processo e resolver os problemas que surgirem a medida em que novos dados são inseridos nas origens, e garantir a unificação dos dados de forma adequado as necessidades do Negócio.

Os dados unificados possibilitam preparar as bases de dados para construção da Visão 360o dos Clientes, uma vez que auxiliará identificar todos os produtos e serviços que o cliente possui, auxiliará obter todos os dados de contatos: endereços, telefones, email, evitará ter indicadores incorretos, segmentação indevida e quantidades não corretas.

A próxima etapa do processo de Qualidade de Dados, a Deduplicação, visa a retirada dos dados duplicados que foram unificados no processo de Matching, além de visar a ordenação, priorização e formação de novos registros. Estará no próximo artigo da série “Ampliar o valor dos dados” da tarks.

O framework de Governança e Qualidade de Dados desenvolvido pela tarks é amplamente customizável, utiliza tecnologia que permite processamento de amplo volume de dados e acelera a obtenção dos resultados tanto em ambientes On Premises, processamentos dentro do cluster Hadoop de Big Data e também processamentos em Cloud.

Entre em contato conosco para saber mais detalhes sobre como a tarks pode acelerar o desenvolvimento e implantação dos processos de Governança e Qualidade de Dados no ambiente da sua empresa: contato@tarks.com.br .

Diogo Horta
Fundador & CEO da tarks

big data data governance data quality matching

Ampliar o valor dos dados: Matching

Ampliar o valor dos dados: Matching

Posts recentes

Comentários

Arquivos

Categorias

Meta