Ampliar o valor dos dados: Sobrevivência

Ampliar o valor dos dados: Sobrevivência

23/03/2018 Big Data Data Governance Data Quality Deduplicação Sobrevivência Survivorship 0

É na etapa de Matching que são aplicados algoritmos sofisticados para unificação dos dados mesmo com diferenças de escrita, problemas fonéticos, dados parcialmente completos, entre outros. E, como vimos no artigo: Ampliar o valor dos dados: Matching, são necessários ajustes no grau de tolerância para as diferenças encontradas nos dados a fim de definir a unificação ou não dos registros, isso sempre de acordo com a necessidade do Negócio.

Agora, é no processo de Sobrevivência que tratamos os dados que foram unificados no Matching. Essa etapa do processo de Qualidade de Dados tem esse nome, por ser responsável pela escolha dos melhores dados entre os dados dos registros unificados, ou seja, somente os melhores dados dos registros sobrevivem (são escolhidos) para composição de novo registro. Além da formação de novos registros, o processo de Sobrevivência pode ser configurado para fazer a ordenação e a priorização dos registros e a retirada de duplicidade. Devido a esse último, o processo de Sobrevivência também pode ser chamado de processo de Deduplicação.

Processos de Qualidade de Dados - Sobrevivência

Dependendo do tipo do dado e a característica da informação que compõe os registros unificados no processo de Matching é necessário aplicar técnicas diferentes para sobrevivência (escolha) da melhor informação. As técnicas mais utilizadas são: Mais frequente; Mais Longo; Mais Curto; Mais recente; Mais antigo. Composições das técnicas ou expressões mais complexas também podem ser necessárias.

Por exemplo, um cliente entra em um dos canais disponíveis para acesso das informações bancárias e faz uma atualização dos seus dados cadastrais, por falha de um dos processos de integração a atualização não é refletida de forma correta e gerasse uma duplicidade na base de dados. Após o processo de Matching identificar a duplicidade e unir os registros desse cliente, a técnica de seleção do “Mais recente” pode ser utilizada no processo de Sobrevivência para sobreviver os dados que foram atualizados recente pelo cliente e garantir que na base de dados esteja a informação mais confiável disponível.

No caso de identificação de problema com os processos de carga de informações que implicaram em truncamento da informação carregada, por exemplo, a técnica de escolha do “Mais longo” pode ser utilizado para recuperar a informação.

Em algumas situações, não queremos retirar a duplicidade ou formar novos registros, queremos sim ordenar e priorizar as informações que possuímos e as técnicas de Sobrevivência também nos auxiliam para obtenção desses resultados. Por exemplo, temos uma lista de Telefones para contatos que foram unificados para um mesmo cliente, podemos utilizar uma composição das técnicas de “Mais frequente” com “Mais recente”, para definição da prioridade de contato e ordenar a lista de telefones.

A escolha da técnica a ser utilizada para sobrevivência da melhor informação deve ser definida de forma bastante criteriosa e com amplo conhecimento das características dos dados e das necessidades do negócio. Dessa forma, haverá garantia de sempre obter o resultado mais confiável e de minimizar os riscos.

Sobrevivência

Os dados deduplicados possibilitam que os processos que consomem esses dados processados sejam baseados na versão confiável da informação, na versão verdadeira das informações, garantindo que os dashboards, relatórios, indicadores, métricas, cálculos, sejam mais confiáveis e a tomada de decisão facilitada. A medida que os processos de Sobrevivência são refinados e customizados de acordo com as características das bases de dados e necessidades das organizações, os repositórios de dados passam a armazenar uma versão totalmente confíavel dos dados, composta com as melhores informações que podem ser obtidas para cada grupo de registros.

No próximo artigo da série “Ampliar o valor dos dados” da tarks, falaremos sobre os processos de Governança de Dados. Fique atento.

O framework de Governança e Qualidade de Dados desenvolvido pela tarks é amplamente customizável, utiliza tecnologia que permite processamento de amplo volume de dados e acelera a obtenção dos resultados tanto em ambientes On Premises, processamentos dentro do cluster Hadoop de Big Data e também processamentos em Cloud.

Entre em contato conosco para saber mais detalhes sobre como a tarks pode acelerar o desenvolvimento e implantação dos processos de Governança e Qualidade de Dados no ambiente da sua empresa: contato@tarks.com.br .

 

Diogo Horta
Fundador & CEO da tarks

Compartihe no: