Big Data Governance – importância da governança para Big Data

Big Data Governance – importância da governança para Big Data

20/06/2017 Big Data Data Governance Data Quality 0

Com a realidade do Big Data presente nas corporações e os clusters Hadoop em pleno funcionamento, processando um alto volume de dados proveniente das mais diversas origens, composto por dados estruturados, semi-estruturados e não-estruturados, torna-se importante garantir a qualidade e rastreabilidade desses dados para extrair informações confiáveis desses repositórios de dados.

Os investimentos elevados em tecnologia, tempo de desenvolvimento e processos para captura e transformação dos dados das diversas origens, podem não resultar nos benefícios desejados para os projetos de Big Data. Por não conseguirem garantir o nível de qualidade dos dados necessária, principalmente porque muitas das fontes de dados ficam fora das corporações (mídias sociais, logs de websites, conversas via call center, imagens, etc.) e não é possível controlar a qualidade dessas fontes.

Empregar tecnologias cognitivas, Inteligência Artificial, Machine Learning, Deep Learning, entre outras tecnologias avançadas, não são suficientes, caso hajam problemas de qualidade no repositório de dados, para obtenção de resultados condizentes com a quantidade de investimento empregada. Em uma análise exploratória inicial, pode-se identificar correlações entre os dados e até mesmo conseguir inferir alguns insights, porém, a medida que se deseja uma análise mais avançada (Advanced Analytics) quanto maior a qualidade e limpeza dos dados no seu cluster, melhores serão os resultados obtidos das análises.

Torna-se, então, necessário desenvolver mecanismos para tratamento de Qualidade dos Dados e gerenciamento do nível de qualidade para cada origem (interna ou externa a corporação) e acompanhá-lo continuamente para ajustar e refinar os processos de tratamento de qualidade a fim de aumentar o nível de confiabilidade dos dados contidos no cluster e permitir o uso de tecnologias avançadas para análise.

A medida que têm-se confiança nos dados, a etapa de análise e extração das informações necessitam de mecanismos de acompanhamento contínuo para garantir a confiabilidade das informações extraídas do cluster. Nessa etapa é que a Governança de Dados torna-se importante para os ambientes Big Data.

Ao relacionar aspectos de Qualidade de Dados, Segurança, Ciclo de Vida dos Dados e Glossário de Termos Corporativos, a Governança de Dados permite que sejam criados processos para melhoria contínua da qualidade dos dados, identificação/atribuição de todos os responsáveis pelas informações (Stewards), rastreabilidade dos dados e de todas as transformações feitas, possibilita auditoria das modificações nos processos para garantia da segurança, permite restringir o acesso aos dados para privacidade e permite ter um ambiente colaborativo entre as Áreas de Negócios e de equipes de TI, além de um Glossário com linguagem única e disponibilizada para toda a corporação.

A Governança de Dados quando aplicada aos ambientes Big Data, possibilita desenvolver mecanismos para gestão da informação proveniente das diversas tecnologias e processos coexistentes nos clusters Hadoop de forma organizada e ágil, e permite a colaboração entre as equipes de desenvolvimento, arquitetura e de Negócios e entrega a informação com a confiabilidade necessária com as devidas restrições de acesso, garantindo privacidade e segurança.

 

Diogo Horta
Fundador & CEO da tarks

Compartihe no: