Governança de dados – Variavel Constante

Qualidade de dados – Parte 2

No post anterior entramos bastante no campo teórico, com a intenção de esclarecer e desmistificar alguns termos e conceitos. Agora, vamos ver como colocar tudo o que vimos no post anterior em prática.

Se você não viu o post anterior… clique aqui, e leia ele primeiro, depois pode voltar pra cá =D!

Técnicas e ferramentas para Qualidade de dados

Perfil de dados (Data Profiling)

Data profiling é uma técnica para descoberta e investigação de problemas de qualidade de dados. É nessa etapa que você entende o “estado de saúde” dos seus dados.

– Data profiling envolve analisar uma ou múltiplas fontes de dados e coletar os metadados, traçar o perfil dos dados, ver valores faltantes, entender correlações entre atributos entre outras N possibilidades.

– O Data Steward(administrador de dados) usa os resultados para investigar a origem dos erros de dados

Inicialmente essa etapa era manual e muito morosa. Felizmente hoje temos ferramentas e bibliotecas em linguagens de programação que nos ajudam e são capazes de gerar uma perfil completo em segundos, ou minutos.

Análise e interpretação de dados (Data Parsing)

Data parsing é o processo de separação de entrada de dados complexas em campos separados. Isso também significa converter o dado em um tipo de dado diferente.

Exemplos:

– Converter um tipo de dado texto para numérico.
– Converter o nome completo ou endereço em campos separados.
– Converter HTML em plain text
– Converter um arquivo json em campos separados
– …

Padronização de Dados (Data Standardization)

Data standardization é o processo que converte o dado em um formato comum.

Enquanto no data parsing podemos quebrar um dado em mais de um campo para encontrar quem está fora do padrão, com data standardization colocamos esses dados fora do padrão, no padrão comum a todos.

Exemplos:

– Converter um telefone fora do padrão esperado:
– Entrada: 99999999999
– Saída: (99) 99999-9999
– Remover pontuação do CPF:
– Entrada: 999.999.999-99
– Saída: 99999999999
– Converter uma data fora do padrão esperado:
– Entrada: DD/MM/YYYY
– Saída: YYYY-MM-DD
– …

Resolução de identidade (Identity Resolution)

Trata-se de criar um único perfil de dados para uma entidade (cliente, fornecedor, funcionário…) contendo informações de diferentes fontes de dados.

Resolução de identidade é o processo que confere, valida e adiciona informação em um único e rico perfil de dados para uma pessoa, negócio ou outra entidade

Exemplos:

Imagine que uma empresa de serviços digitais tenha uma base de clientes com milhões de registros. A equipe de qualidade de dados descobre que muitos clientes possuem mais de uma conta na plataforma, por terem se cadastrado com nome, sobrenome e endereço de email diferentes. Com a resolução de identidade, a equipe une esses registros em um só, evitando que um mesmo cliente seja contabilizado várias vezes e melhorando a precisão da base de dados.

Em um hospital, é necessária a integração de diversos sistemas para conseguir uma visão completa do histórico de saúde de um paciente. No entanto, o cadastro de pacientes nem sempre é consistente, com variações de nomes, números de documentos e datas de nascimento. Com a resolução de identidade, os diferentes registros de cadastro podem ser unificados, facilitando a gestão de informações e assegurando uma melhor gestão de saúde

Em resumo, essa etapa visa unificar diferentes fontes de dados com intuito de criar um perfil único e rico da entidade em questão.

Processo de Resolução de Identidade

A seguir os 5 principais passos no processo de Resolução de identidade.

Identify (Identificar): Neste primeiro passo, você identifica todas as fontes de dados relevantes que contêm informações sobre as entidades que deseja resolver. Isso pode incluir bancos de dados internos, sistemas de CRM, Redes sociais, feeds de dados externos, entre outros. O objetivo é reunir todas as informações disponíveis sobre as entidades que serão tratadas durante o processo de resolução de identidade.
Connect (Conectar): O passo de conectar envolve a criação de pontos de conexões entre os dados de diferentes fontes que se referem à mesma entidade. Isso pode ser feito identificando e associando chaves de identidade comuns, como números de identificação exclusivos, endereços de e-mail, números de telefone, endereço IP, padrões de tempo, etc. O objetivo é estabelecer relações entre os dados dispersos que se referem à mesma entidade.
Match (Corresponder): Durante o passo de correspondência, os dados conectados através dos pontos de conexões são comparados e avaliados para identificar registros que se referem à mesma entidade, mesmo que possuam diferenças em termos de formatação, ortografia, abreviações, etc. Isso é feito usando técnicas de comparação de strings e algoritmos de correspondência que atribuem uma pontuação de semelhança entre os registros. O objetivo é encontrar correspondências precisas e confiáveis entre os dados conectados.
Validate (Validar): Depois que os registros correspondentes são identificados, é importante validar a precisão e a integridade das correspondências encontradas. Isso pode envolver a verificação manual das correspondências para garantir que não haja erros ou falsos positivos. Além disso, também é importante validar a qualidade dos dados de cada fonte que está sendo conectada para garantir que sejam confiáveis e precisos. O objetivo é garantir que as correspondências identificadas sejam válidas e representem com precisão as entidades em questão.
Activate (Ativar): O passo final é ativar as correspondências identificadas e validadas, o que pode incluir a consolidação dos registros correspondentes em um único registro mestre ou a atualização de sistemas e bancos de dados com as informações consolidadas. O objetivo é garantir que as correspondências identificadas sejam utilizadas de forma eficaz e que as informações consolidadas sejam disponibilizadas para uso em diferentes aplicativos e processos de negócios.

Esses cinco passos trabalham juntos para realizar com sucesso o processo de resolução de identidade, garantindo que as informações dispersas sobre as entidades sejam conectadas, correspondidas, validadas e ativadas de forma precisa e confiável.

Ligação de dados (Data Linkage):

Data linkage, também conhecido como record linkage, ou simplesmente ligação de dados, refere-se ao processo de conectar ou associar conjuntos de dados distintos que se referem à mesma entidade ou evento, para criar uma visão mais completa e integrada das informações.

Mas não se engane, apesar de muito parecidos, Identity resolution e Data Linkage tem propósitos diferentes…

Exemplos:

– Em um país como o Brasil, onde há muitas informações sobre as eleições em diferentes bases de dados, é possível utilizar o Data Linkage para unificar essas informações e gerar análises mais precisas. Por exemplo, cruzando informações de votos em diferentes eleições, é possível identificar padrões políticos de regiões e faixas etárias, contribuindo para análises mais precisas e fundamentadas.

– Em empresas que lidam com muitas fontes de dados, o Data Linkage é essencial para identificar oportunidades de negócio e segmentar clientes. Por exemplo, uma empresa de seguros pode cruzar informações de clientes que já sofreram acidentes ou sinistros com informações sobre características do veículo ou comportamento de direção, gerando perfis de risco e permitindo ajustes de preço e cobertura mais precisos.

Resolução de identidade x Data Linkage

Embora os termos “data linkage” (ligação de dados) e “identity resolution” (resolução de identidade) estejam relacionados e frequentemente usados em conjunto, eles se referem a aspectos ligeiramente diferentes do processo de integração e análise de dados:

Data Linkage (Ligação de Dados):
- A ligação de dados é o processo de conectar ou associar conjuntos de dados distintos que se referem a entidades ou eventos semelhantes, mas não necessariamente idênticos.
- O objetivo principal da ligação de dados é criar conexões entre diferentes fontes de dados para criar uma visão mais completa e integrada das informações.
- Isso pode envolver a identificação de chaves de identidade comuns entre os conjuntos de dados e a combinação dos dados com base nessas chaves.
- A ligação de dados não se concentra necessariamente na resolução de duplicatas ou na identificação de registros correspondentes, mas sim em criar associações entre os dados dispersos.
Identity Resolution (Resolução de Identidade):
- A resolução de identidade é um subconjunto da ligação de dados que se concentra especificamente na identificação e resolução de registros duplicados ou correspondentes em diferentes fontes de dados.
- O objetivo principal da resolução de identidade é identificar registros que se referem à mesma entidade ou indivíduo, mesmo que esses registros possam ter diferenças em termos de formatação, ortografia, abreviações, etc.
- Isso envolve a comparação de registros com base em chaves de identidade comuns e a aplicação de algoritmos de correspondência para determinar a similaridade entre os registros.
- A resolução de identidade resulta na consolidação de registros correspondentes em um único registro mestre, eliminando duplicatas e garantindo a integridade dos dados.

Em resumo, enquanto a ligação de dados se refere à conexão de conjuntos de dados distintos para criar uma visão integrada dos dados, a resolução de identidade é um aspecto específico desse processo que se concentra na identificação e eliminação de registros duplicados ou correspondentes.

Limpeza de dados (Data Cleansing):

Limpeza de dados é o processo de resolução de dados corrompidos, imprecisos, incompletos ou irrelevantes.

Esse processo se baseia nas etapas anteriores utilizando o data parsing, data standartization, identity resolution e data linkage.

A prática recomendada para qualidade de dados é determinar a origem dos erros, e eliminar a causa raíz.

Etapas da limpeza de dados:

– Identificar os campos de dados críticos
– Isso servirá para garantir que nosso tempo não seja gasto com dados sem muita relevância para o negócio

– Coletar os dados e resolver os problemas encontrados:
– Remover valores duplicados
– Resolver valores vazios
– Parsear e padronizar os dados.

– Revisar e melhorar

Enriquecimento de dados (Data Enhancement)

Data Enrichment é um processo de adicionar informações a uma base de dados existente, com o objetivo de enriquecê-la e torná-la mais útil para análises e tomadas de decisão. Por exemplo, ao adicionar informações demográficas, socioeconômicas e de comportamento do consumidor a uma base de dados de vendas, é possível criar segmentações mais precisas de clientes para direcionar campanhas de marketing.

Monitoramento e Inspeção (Data Inspection and Monitoring)

O processo de inspeção e monitoramento de dados talvez seja um dos mais subestimados dentro da qualidade de dados. Ele visa o aprimoramento contínuo, mostrando a saúde dos dados ao longo do tempo.

É interessante criar KPI’s para qualidade de dados. Dessa forma temos um compromisso com a qualidade, temos como medir nosso progresso e saber se o ROI (Retorno sobre o Investimento) está sendo positivo.
Sem um programa de monitoramento e um KPI para alcançar, a qualidade tende a cair.

Resumindo tudo em um passo a passo:

Step 1: Definir as metas de melhoria da qualidade de dados.

Etapa muito subestimada por muitos, mas é preciso investir tempo nessa etapa com o objetivo de definir o que exatamente queremos atingir com a melhoria na qualidade dos dados. É preciso saber também quais os processos de negócio serão impactados com o programa. A qualidade de dados não pode ser só um hype, ela tem que ter um objetivo muito claro e bem definido.

É preciso estar em alinhamento com o proprietário dos dados, pois será ele o responsável pela aprovação das iniciativas.

Daqui já podem sair as regras de qualidade de dados.

Step 2: Perfil de dados (Data Profiling):

Aqui será feito uma avaliação dos dados pra entender o cenário atual de saúde dos dados, e entender como está a qualidade em relação as dimensões da qualidade de dados.

Step 3: Conduzir uma avaliação da qualidade de dados:

Nessa etapa será avaliado o resultado do perfil de dados, com os objetivos que foram definidos no Step 1. Dessa avaliação surgirão os problemas que precisaremos resolver no step seguinte.

Um ponto importante é que aqui devemos avaliar a causa raíz do problema, para que possamos resolver o problema uma única vez.

Utilizar a técnica dos 5 porquês pode ser muito útil. Se você não conhece essa técnica, sugiro que leia este artigo.

Step 4: Resolver problemas de qualidade de dados:

Aqui é onde faremos o plano e a execução das melhorias.

Única premissa aqui, é que o plano deve cobrir todos os gaps encontrados na etapa anterior.

Importante definir as pessoas que executarão cada item do plano, e quando os itens serão executados.

Importante listar no plano tudo aquilo que for relevante para a execução do plano: treinamentos, budget, contratações, etc.

Este é um passo bem longo e importante pois podemos ter mudanças drásticas, como criação de novos times, alterações em sistemas, criação e/ou mudanças de processos, treinamentos…

Step 5: Monitorar e controlar:

Último mas não menos importante, é preciso monitorar a qualidade de dados, baseado sempre nas regras de qualidade de dados que foram levantadas no passo 1.

De tempos em tempos, é preciso reavaliar como está a saúde dos dados.

Lembre-se… é de extrema importância que a qualidade de dados esteja atrelada à um KPI ou algum indicador, para que a empresa tenha uma meta a ser perseguida.

Ufaaa…!!!

Acho que por enquanto isso é tudo… espero que essas anotações, que fiz para mim mesmo, sirvam para vocês também!

Abraço e até a próxima!

Qualidade de dados – Parte 1

Nesse post tentarei abordar de forma bem simples um dos temas que mais gosto. O objetivo principal é te mostrar que qualidade de dados não é somente para as gigantes do mercado e te convencer que este é um tema que deveria ser prioridade em qualquer empresa, até mesmo para a lanchonete da esquina.

O que é qualidade de dados?

De forma bem prática e resumida, qualidade de dados pode ser definido como… quão bem os seus dados satisfazem as necessidades de quem os usará… e isso não é restrito somente ao mundo digital.

Simples assim…

Vamos de exemplo:

Imagine que você é dono de uma lanchonete e possui cardápios impressos e plastificados… com uma arte linda. Um cliente entra, senta-se, e você leva à ele um dos cardápios. Ele examina com calma, vê que você serve x-salada e suco de laranja, e resolve fazer o pedido:

“Quero um x-salada”. Então você o informa que acabou o tomate.
“Ok, pode ser… quero também um suco de laranja por favor”. Então você o informa que acabou a laranja =/

Bom, não é muito incomum essa cena… e isso é um belo exemplo de uma Má qualidade de dados. Isso ai =)!

Lembra do conceito logo acima? “Quão bem os seus dados satisfazem a necessidade de quem os usará”. O cardápio dessa lanchonete está cheio de dados e informações, se eles não estiverem corretos, isso pode gerar um grande problema. Imagina se os preços estiverem desatualizados, pensa na confusão =/.

Pode parecer um exemplo bobo, mas essa experiência vivida nessa lanchonete acompanhará esse cliente por um bom tempo, talvez nem volte!

Perceberam que um dado pode ser algo do nosso mundo físico? Um preço, um ingrediente, uma temperatura, um endereço anotado em um papel… tudo isso são dados, e quando eles recebem um contexto, viram informação. Garantir a qualidade do dado, é também sobre garantir o contexto correto para ele. Afinal, você pode ter um endereço correto, vinculado ao cliente errado.

Escalando um pouco… o desenho abaixo mostra a importância da qualidade de dados para a performance de uma empresa:

Dados com qualidade GERAM informações com qualidade, que GERAM decisões com qualidade que GERAM resultados e aumentam a performance da empresa.

O que é gestão de qualidade de dados?

“Conjunto de práticas que visam aprimorar e manter informações de alta qualidade dentro da organização”.

Traduzindo:

Tudo aquilo que você faz para melhorar a qualidade dos seus dados.

De preferência de forma proativa, e não, reativa. Lembra do exemplo do x-salada logo acima? O ideal era que a falta do ingrediente fosse notada antes do cliente, e que o produto fosse sinalizado no cardápio como não disponível, ou minimamente, que falta um ingrediente.

Ok… e como poderia ser isso na prática?

Você poderia implantar uma rotina de atualização de cardápio diária, afim de indicar possíveis produtos que estejam em falta. Certo?! sim… maaas… e se fosse implantado processos para uma melhor gestão de estoque?! Acho que seria uma abordagem mais eficaz e inteligente… uma vez que você não precisaria mais ficar atualizando seu cardápio devido a falta de ingrediente.

Outro exemplo bem simples… mas a intenção é essa mesmo, para mostrar que qualidade de dados está no nosso dia-a-dia.

O objetivo final não é apenas manter a qualidade dos dados, mas melhorar o desempenho geral da empresa. Porque com dados de qualidade você terá informações de qualidade, o que gerará decisões de qualidade, o que trará bons resultados de negócio o que resultará em um melhor desempenho da empresa.

Pilares da gestão da qualidade de dados:

Certo, para continuarmos falando de qualidade de dados, vou procurar manter os exemplos o mais simples possível, para que vocês consigam enxergar a importância desse tema em qualquer empresa.

Pessoas:

De nada adianta você criar um conjunto de práticas que visem aprimorar os dados e mantê-los, sem ter pessoas-chaves nos lugares certos.

São elas que no final vão fazer a diferença para o sucesso do programa de qualidade de dados.

Perfil de dados:

Trata-se do processo para entender o estado atual dos dados. Isso será usado em posteriores comparações para analisar o avanço do programa de qualidade de dados.

Definindo Qualidade de Dados:

Aqui definimos as regras de qualidade e definimos nossas expectativas. Essas regras são baseadas nas metas que estamos querendo alcançar.

Relatório de dados:

Aqui relatamos e monitoramos a qualidade dos nossos dados para entender o ROI sobre o gerenciamento da qualidade dos dados.

Simples essa aqui né?!
Acompanhar regularmente a “saúde” dos dados.

Reparação de dados:

Aqui é onde corrigimos os dados que não estão dentro do padrão esperado.

Legal… mas e ai… como encaixo tudo isso na nossa lanchonete? =). Vamos lá!

Vamos voltar para a nossa lanchonete…

Bom, se você for contratar pessoas para lanchonete, você não colocará qualquer um em qualquer função… certo?! Isso é “Pessoas”.

Certo, e como saber onde e o que precisa ser corrigido? Aqui é preciso parar e fazer o levantamento de tudo o que você tem e como estão as coisas:
– Checagem dos cardápios pra ver se todos os preços estão corretos e se os produtos ali listados ainda estão sendo comercializados
– Checagem da sua lista de fornecedores pra ver se as informações de contato estão válidas e se a tabela de preços que você possui está atualizada… Isso é “Perfil de dados”.

Acho que deu pra entender né!?

Bom… depois desse grande levantamento, você encontrou problemas:
– Cardápios com preços errados e com produtos que não são mais comercializados
– Fornecedores com número de telefone inválido
– Tabela de preços de fornecedores desatualizadas
– …

Legal! Identificamos os problemas… mas como queremos que tudo fique?! Alguns exemplos:
– Cardápios atualizados diariamente
– Fornecedores com contatos válidos
– Tabelas de preços atualizadas
– …
Isso é “Definindo Qualidade de Dados”.

Show! Já sabemos como estão os nossos dados e já sabemos como queremos que ele fique… agora é hora de corrigir os problemas:
– Correção dos cardápios e implementação de rotina para atualização
– Correção dos contatos dos fornecedores e rotina periódica de validação desses contatos
– …
Isso é “Reparação de dados”.

E claro, depois de tudo isso, você precisa cuidar para que tudo o que foi corrigido se mantenha atualizado. Isso é “Relatório/Monitoramento de dados”.

Viu como Qualidade de dados está em tudo?! Existem vários termos bonitos que a gente usa, mas no final qualidade de dados é simples! Lembra da definição lá do início?! “Quão bem os seus dados satisfazem as necessidades de quem os usará”.

Bom… a partir desse momento vou deixar a nossa lanchonete de lado, pelo menos por ora, para trazer o tema um pouco mais para o lado corporativo.

Bora lá!

O impacto de uma má qualidade de dados

Decisões baseadas em dados… são tão boas quanto os dados em que elas são baseadas. Traduzindo: Dados ruins… decisões ruins!

Os dados estão por tudo ao nosso redor, e decisões baseadas em dados ruins podem afetar a nossa vida de diferentes formas:

Impacto nas Empresas: A má qualidade dos dados pode levar a análises incorretas, decisões equivocadas e prejuízos financeiros. Além disso, compromete a confiabilidade de produtos e serviços, afetando a reputação da empresa e a satisfação do cliente.
Impacto na Saúde: Dados imprecisos podem resultar em diagnósticos errôneos, tratamentos inadequados e colocar vidas em risco, impactando diretamente a qualidade dos cuidados de saúde.
Impacto nos Governos: Dados de má qualidade podem distorcer políticas públicas e alocação de recursos, prejudicando comunidades inteiras e minando a eficácia das iniciativas governamentais.
Desinformação e Confiança Pública: A disseminação de informações falsas ou manipuladas devido à má qualidade dos dados pode levar a desinformação generalizada, minando a confiança pública e prejudicando o funcionamento saudável da sociedade.

Estimativa de custo de uma má qualidade de dados

Isso é algo bem delicado e complicado de metrificar. Como saber o custo de uma má qualidade de dados?

Algumas situações deixam bastante explícita o tamanho do prejuízo da má qualidade de dados. Por exemplo problemas com orgãos regulatórios, onde as regras de tratamento de dados não estejam sendo cumpridas. Isso vai acarretar em multas e má reputação da empresa.

Mas e aquelas situações que não são tão explícitas assim? Como calcular o custo da oportunidade perdida? Como por exemplo a falta de dados, ou dados imprecisos de um cliente ou fornecedor que acabam acarretando em não renovação de contrato, ou uma negociação não tão vantajosa. Ou então aquele relatório que você recebeu e que te guiou a tomar uma decisão, porém se houvesse mais variáveis no relatório, a decisão seria diferente.

Enfim… nesses casos é complexo calcular o custo disso tudo.

Existem alguns casos de uso e estudos que mostram o custo da má qualidade de dados, mas não quero trazer esses números aqui. O que eu quero é estimular você a pensar nesse custo.

Imagina o tamanho do prejuízo de uma empresa, tomar decisões baseadas em dados imprecisos. Ou mesmo o risco de perder clientes, por coletar os dados para um fim, e acabar usando para outro.

Você já deve ter ouvido que cientistas de dados gastam cerca de 80% do seu tempo limpando e organizando os dados né?! pois é… e um cientista de dados é um dos profissionais mais caros do mercado.

Por que nós temos dados ruins?

Os 6 principais fatores:

1) Ainda existem muitas empresa que confiam mais na intuição do que nos dados. Isso obviamente resulta em pouco investimento na gestão de dados. E óbvio, sem recursos, não existe mágica.

2) Erros de entrada manual de dados:
Não sei se vocês sabiam… mas humanos erram… e bastante…

3) Silos de dados:
Cada departamento com o seu próprio conjunto de dados, suas próprias regras.
Os dados são coletados para uso e não são compartilhados, o que nos leva a dados duplicados e inconsistentes entre departamentos.

4) Migrações de dados e projetos de conversões:
Muitas vezes precisamos fazer migrações de dados entre sistemas, o que pode gerar problema na qualidade dos dados.
Importante ter um UAT (Teste de aceitação de usuário) adequado para garantir que tudo foi transferido como deveria, e que o usuário deu OK para a a migração.

5) Escalabilidade dos negócios e seus datasets:
Conforme a empresa cresce, é preciso ajustar a sua estratégia de dados.
Algo que funcionou para você quando a empresa era menor, pode não ser adequado quando a empresa cresce

6) Sem regras de governança de dados:
Se você não estabelecer regras para o uso dos dados, certamente terá problemas com a qualidade dos dados.

Tudo bem até aqui?! Certo… vamos seguir!

O que são dimensões da qualidade de dados?

São as diferentes maneiras pelas quais a qualidade dos dados pode ser medida.

Podem haver várias dimensões… porém o padrão global define 6 dimensões:

1) Precisão

Os dados representam com precisão a realidade!

– As vezes pode ser muito difícil identificar erros, pois podem exigir a comprovação de um dado por outros meios. Por exemplo: um nome errado no cadastro, que só poderia ser identificado, usando o número de documento e consultando o nome que consta no documento. Mas será q o errado na verdade não é o número de documento?!

– Outro exemplo comum: Número de telefone ou endereço de e-mail desatualizado. Nesse caso, a conferência desses dados também é difícil de fazer de forma automática, uma vez que só será identificado numa tentativa frustrada de contato.

– A falta de precisão nos dados pode trazer desconfiança, e os dados não serão utilizados. Pior ainda, em alguns setores, manter dados atualizados é altamente crítico e regulamentado, o que pode gerar sérios problemas.

– Em resumo: medir a precisão dos dados requer a verificação com uma referência autêntica

2) Validade

Os dados estão conforme o formato, tipo e intervalo (range) esperados!

Números de telefones fora do padrão, números de documento fora do padrão, código postal fora do padrão para o país do registro…

3) Oportunidade / Disponibilidade / Atualidade (Timeliness)

Os dados estão disponíveis quando esperado e necessário!

Muitas pessoas cometem o erro de achar que a atualidade dos dados é somente referente a garantir que os dados sejam atualizados. Isso é um erro.

Timeliness tem relação com a disponibilidade do dado.

– Ex: Se vou enviar um relatório com resultado financeiro da empresa do último trimestre, tenho alguns dias ou semanas para reunir e processar esses dados. Porém se preciso ligar para um contato de emergência de um paciente em uma UTI, preciso ter esse dado em questão de segundos ou minutos.

4) Completude

Todos os dados necessários estão presentes e você pode usá-los!

Se houver campos obrigatórios sem preenchimento, o dado não está completo

5) Singularidade / Unicidade

O dado aparece apenas uma vez no dataset.

É preciso garantir que apenas um registro exista no dataset.

6) Consistência

Os valores dos dados não conflitam com outros entre diferentes datasets

É preciso garantir que os dados de um registro são os mesmos em diferentes datasets.

Ex: dados de contato de um cliente, é preciso que eles sejam os mesmos no ERP, no CRM, no DW ou no DL.

O que são Regras de qualidade de dados?

Também conhecido como regras de validação de dados.

As regras de qualidade de dados são simplesmente as regras de negócios para seus dados.

Dentro de cada dimensão, temos regras de negócios que definem o que são dados bons dentro da dimensão.

– Quais são as regras de negócios em termos de integridade dos dados?

– Podemos saber quais são as regras de negócios para a validade dos dados?

– Quais são os diferentes formatos aceitáveis, etc.

As regras de qualidade de dados definirão a “aparência” dos dados, o que é esperado pelo time de negócio quando se trata dos dados.

Após a definição das regras de qualidade, elas serão implementadas como verificações automatizadas de qualidade de dados nos diferentes sistemas que contêm seus dados.

Quais os papéis dentro da Qualidade de dados

Papel	Responsabilidade
Data Quality Manager	Coordenar atividades de GQD
Data Quality Analyst	Executa atividades associadas com processos de data quality
Data Owner	proprietário dos dados, define requisitos e aplicações para um conjunto de dados, e garante conformidade com políticas e leis.
Data Stewards	monitora a qualidade dos dados, define padrões, identifica e soluciona problemas, e promove uma cultura de dados na empresa.
Data Custodian	Responsável pelo ambiente técnico da manutenção e armazenamento dos dados
Data consumer	Um usuário comum de dados.

Os papéis de DQ Manager e DQ Analyst são pessoas que serão contratadas para esse fim.

Já os outros papéis são pessoas que eventualmente desempenharão esse papel, mas que não foram contratadas exclusivamente pra isso.

Data Quality Manager:

Esse é um papel que será pouco visto em organizações pequenas.

O papel do Data Quality Manager é garantir que os dados em uma organização sejam precisos, completos e confiáveis. Isso envolve o desenvolvimento e implementação de políticas, processos e tecnologias para monitorar, melhorar e manter a qualidade dos dados ao longo do tempo, garantindo que eles atendam às necessidades e objetivos da organização.

Principais responsabilidades:

– Garantir a implementação de processos de qualidade de dados
– Definir dados críticos
– Definir metas de qualidade
– Limites de alertas e procedimentos de escalonamento
– Supervisionar a gestão de procedimentos para erros e remediações:
– Definição de planos de remediação com as áreas de negócio
– Garantir a conformidade das normas e padrões de qualidade de dados do grupo.

Esta é a pessoa que deve ter o mais profundo conhecimento sobre qualidade de dados.

Data Quality Analyst:

Será o responsável por resolver os problemas de dados e colaborar com os desenvolvedores para aprimorar os sistemas de origem dos dados.

Principais responsabilidades:

– Executar testes estatísticos em grandes conjuntos de dados para determinar a qualidade e integridade dos dados.
– Avaliar o design e o desempenho do sistema bem como o seu efeito na qualidade dos dados.
– Colaborar com desenvolvedores de banco de dados para aprimorar os processos de coleta e armazenamento dos dados.
– Executar queries para identificar problemas de código e expectativas de dados, bem como a limpeza dos dados.
– Juntar dados de fontes primárias ou secundárias afim de identificar tendências.
– Reportar achados nas análises de dados para a gestão para que seja priorizado as necessidades dos sistemas.
– Documentar processos e manter registros de dados.
– Aderir as boas práticas em análise e coleta de dados.
– Manter-se atualizado em desenvolvimento e tendências em análise de qualidade de dados.

O Gerente de GQD deve garantir que a equipe de analistas mantenham o foco na coisa certa, ao invés de tratar erros “bobos”.

Manter o foco nos grandes problemas, como por exemplo:

Falta de processos e procedimentos para manter o treinamento de qualidade de dados para os usuários
Alterar a infraestrutura de dados para facilitar a manutenção da qualidade de dados.

Problemas táticos de erros que acontecem no dia a dia, podem ser tratados pelos data owners e data stewards dos dados

Ex: Se ocorrem problemas no departamento de vendas, os analistas desse departamento deveriam resolver os problemas, e não os analistas de qualidade de dados.

Data Quality Owner

Essa é a pessoa que realmente especifica os requisitos de qualidade de dados para o conjunto de dados.

Normalmente, os proprietários dos dados são executivos seniores que representam a equipe do lado do negócio.

É extremamente importante que a equipe de dados mantenha um bom relacionamento com os proprietários dos dados, pois ele definitivamente será necessário para apoiar e conduzir o programa de qualidade de dados dentro de um domínio.

Tocar um programa de qualidade de dados se torna mais fácil quando se tem um patrocinador no alto escalão. De outro modo, será difícil convencer os donos de dados sobre a importância do programa de qualidade de dados.

Data Stewards

São o braço direito dos Data Owners. São especialistas nos dados do domínio ao qual ele pertence (Vendas, Marketing, Financeiro…).

Principais responsabilidades:

Manter os dados durante todo o cliclo de vida dele
Desenvolver processos de controle de qualidade em parceria com a equipe de qualidade de dados
Analisar dados que não parecem corretos e Implementar correções.
Criar e aplicar diretrizes internas sobre o uso de dados para garantir não apenas a eficiência interna, mas também a conformidade com os vários departamentos e obrigações regulatórias
Podem atuar na melhoria dos dados
Monitoramento de uso
Compartilhamento de boas práticas
Ajudar a fazer melhor uso dos dados disponíveis
Facilitar a comunicação entre os vários departamentos da organização

Data Custodian

Também conhecido como proprietário técnico dos dados.

Responsável por gerir o ambiente técnico de manutenção e armazenamento de dados.

Ex: Um DBA pode ser considerado um Data Custodian, pois é o responsável por manter o banco de dados íntegro, manter rotinas de backup entre outras atividades.

Data Consumer:

São os usuários dos dados, simples assim.

Serão as pessoas que usarão os dados no seu dia-a-dia. E todo o programa de qualidade de dados é voltado para entregar dados de qualidade para que os usuários possam fazer o seu trabalho.

Ajuda o Data Owner e Data Steward a definir o que é um dado de qualidade.

Normalmente existem centenas de consumidores de dados em um departamento, então é selecionado algumas pessoas, que serão os “Champions” e que serão as pessoas envolvidas no programa de qualidade de dados

Legal… mas e agora… por onde começo?!

Se você chegou até aqui, parabéns! Você realmente se interessa pelo assunto.

No próximo post, veremos como colocar tudo isso em prática. Você pode conferir aqui

Mas enquanto espera pelo próximo post, dá uma olhada no post anterior onde eu falei sobre Small Data e o poder dos detalhes

Abraço, e até a próxima!

Um pouco sobre Governança de Dados

Hoje, onde a quantidade de dados gerados e armazenados cresce exponencialmente, a governança de dados tornou-se essencial para empresas que desejam obter valor estratégico a partir dessas informações. Mas afinal, o que é governança de dados? Neste post, irei explorar de forma simples e acessível o conceito de governança de dados e fornecer um passo a passo básico para iniciar sua implementação em uma empresa. Compreender e aplicar práticas de governança de dados é fundamental para garantir a qualidade, integridade, segurança e conformidade dos dados, impulsionando o sucesso dos negócios.

Entendendo a Governança de Dados

A governança de dados é um conjunto de práticas, políticas, processos e controles que garantem que os dados sejam utilizados de maneira adequada e eficiente em uma organização. Envolve a definição de responsabilidades, diretrizes, padrões e métricas para a gestão dos dados em toda a empresa. O objetivo final da governança de dados é assegurar que as informações sejam confiáveis, consistentes, completas e disponíveis para tomada de decisões estratégicas.

Benefícios da Governança de Dados

A implementação adequada da governança de dados traz uma série de benefícios para as empresas. Primeiramente, promove a transparência e a colaboração entre os diversos setores, estabelecendo uma linguagem comum para a compreensão dos dados. Além disso, melhora a qualidade dos dados, reduzindo erros e inconsistências, o que resulta em melhores análises e tomadas de decisão. A governança de dados também auxilia no cumprimento de leis e regulamentações, como a proteção de dados pessoais, fortalecendo a segurança e a privacidade dos dados.

Passo a passo para Implementar a Governança de Dados

Para iniciar a implementação da governança de dados em uma empresa, é importante seguir alguns passos fundamentais:

Primeiramente, é necessário identificar e mapear os dados existentes na organização, incluindo sua localização, formato e origem.

Em seguida, deve-se estabelecer um comitê de governança de dados, com representantes de diferentes áreas, para definir políticas e diretrizes. Essas políticas devem abordar aspectos como padrões de nomenclatura, definição de papéis e responsabilidades, políticas de acesso e uso dos dados, entre outros.

Implementação e Monitoramento

Com as políticas definidas, é hora de implementar as mudanças necessárias para aprimorar a governança de dados. Isso pode envolver a adoção de novas tecnologias, como sistemas de gerenciamento de dados, ferramentas de controle e monitoramento, e a capacitação dos colaboradores por meio de treinamentos específicos. É importante também estabelecer indicadores de desempenho para avaliar a eficácia da governança de dados ao longo do tempo e realizar ajustes conforme necessário.

Cultura de Dados

Por fim, a implementação bem-sucedida da governança de dados requer a criação de uma cultura de dados dentro da empresa. Isso envolve conscientizar os colaboradores sobre a importância dos dados, promover a educação sobre boas práticas de gestão e incentivar a colaboração e o compartilhamento responsável das informações. A cultura de dados deve estar alinhada aos objetivos estratégicos da empresa, permitindo que os dados sejam usados como um ativo valioso para impulsionar a inovação e a vantagem competitiva.

Conclusão:

A governança de dados é um elemento-chave para uma gestão eficiente e bem-sucedida de informações nas organizações. Este post apresentou uma visão simples e prática do conceito, além de um passo a passo básico para iniciar a implementação da governança de dados em uma empresa. Ao adotar a governança de dados, as empresas estarão melhor preparadas para lidar com os desafios e oportunidades trazidos pela era dos dados, alcançando uma vantagem competitiva sustentável no mercado atual.

Esse é um assunto bastante amplo e um tanto quanto complexo. Recomendo fortemente a leitura do livro “Governança de Dados” do Carlos Barbieri.

Antes de ir embora, dá uma olhada nesse post sobre Alfabetização de dados, ficou bem legal

Abraço e até a próxima!