Nesse post tentarei abordar de forma bem simples um dos temas que mais gosto. O objetivo principal é te mostrar que qualidade de dados não é somente para as gigantes do mercado e te convencer que este é um tema que deveria ser prioridade em qualquer empresa, até mesmo para a lanchonete da esquina.
O que é qualidade de dados?
De forma bem prática e resumida, qualidade de dados pode ser definido como… quão bem os seus dados satisfazem as necessidades de quem os usará… e isso não é restrito somente ao mundo digital.
Simples assim…
Vamos de exemplo:
Imagine que você é dono de uma lanchonete e possui cardápios impressos e plastificados… com uma arte linda. Um cliente entra, senta-se, e você leva à ele um dos cardápios. Ele examina com calma, vê que você serve x-salada e suco de laranja, e resolve fazer o pedido:
“Quero um x-salada”. Então você o informa que acabou o tomate.
“Ok, pode ser… quero também um suco de laranja por favor”. Então você o informa que acabou a laranja =/
Bom, não é muito incomum essa cena… e isso é um belo exemplo de uma Má qualidade de dados. Isso ai =)!
Lembra do conceito logo acima? “Quão bem os seus dados satisfazem a necessidade de quem os usará”. O cardápio dessa lanchonete está cheio de dados e informações, se eles não estiverem corretos, isso pode gerar um grande problema. Imagina se os preços estiverem desatualizados, pensa na confusão =/.
Pode parecer um exemplo bobo, mas essa experiência vivida nessa lanchonete acompanhará esse cliente por um bom tempo, talvez nem volte!
Perceberam que um dado pode ser algo do nosso mundo físico? Um preço, um ingrediente, uma temperatura, um endereço anotado em um papel… tudo isso são dados, e quando eles recebem um contexto, viram informação. Garantir a qualidade do dado, é também sobre garantir o contexto correto para ele. Afinal, você pode ter um endereço correto, vinculado ao cliente errado.
Escalando um pouco… o desenho abaixo mostra a importância da qualidade de dados para a performance de uma empresa:
Dados com qualidade GERAM informações com qualidade, que GERAM decisões com qualidade que GERAM resultados e aumentam a performance da empresa.
O que é gestão de qualidade de dados?
“Conjunto de práticas que visam aprimorar e manter informações de alta qualidade dentro da organização”.
Traduzindo:
Tudo aquilo que você faz para melhorar a qualidade dos seus dados.
De preferência de forma proativa, e não, reativa. Lembra do exemplo do x-salada logo acima? O ideal era que a falta do ingrediente fosse notada antes do cliente, e que o produto fosse sinalizado no cardápio como não disponível, ou minimamente, que falta um ingrediente.
Ok… e como poderia ser isso na prática?
Você poderia implantar uma rotina de atualização de cardápio diária, afim de indicar possíveis produtos que estejam em falta. Certo?! sim… maaas… e se fosse implantado processos para uma melhor gestão de estoque?! Acho que seria uma abordagem mais eficaz e inteligente… uma vez que você não precisaria mais ficar atualizando seu cardápio devido a falta de ingrediente.
Outro exemplo bem simples… mas a intenção é essa mesmo, para mostrar que qualidade de dados está no nosso dia-a-dia.
O objetivo final não é apenas manter a qualidade dos dados, mas melhorar o desempenho geral da empresa. Porque com dados de qualidade você terá informações de qualidade, o que gerará decisões de qualidade, o que trará bons resultados de negócio o que resultará em um melhor desempenho da empresa.
Pilares da gestão da qualidade de dados:
Certo, para continuarmos falando de qualidade de dados, vou procurar manter os exemplos o mais simples possível, para que vocês consigam enxergar a importância desse tema em qualquer empresa.
Pessoas:
De nada adianta você criar um conjunto de práticas que visem aprimorar os dados e mantê-los, sem ter pessoas-chaves nos lugares certos.
São elas que no final vão fazer a diferença para o sucesso do programa de qualidade de dados.
Perfil de dados:
Trata-se do processo para entender o estado atual dos dados. Isso será usado em posteriores comparações para analisar o avanço do programa de qualidade de dados.
Definindo Qualidade de Dados:
Aqui definimos as regras de qualidade e definimos nossas expectativas. Essas regras são baseadas nas metas que estamos querendo alcançar.
Relatório de dados:
Aqui relatamos e monitoramos a qualidade dos nossos dados para entender o ROI sobre o gerenciamento da qualidade dos dados.
Simples essa aqui né?!
Acompanhar regularmente a “saúde” dos dados.
Reparação de dados:
Aqui é onde corrigimos os dados que não estão dentro do padrão esperado.
Legal… mas e ai… como encaixo tudo isso na nossa lanchonete? =). Vamos lá!
Vamos voltar para a nossa lanchonete…
Bom, se você for contratar pessoas para lanchonete, você não colocará qualquer um em qualquer função… certo?! Isso é “Pessoas”.
Certo, e como saber onde e o que precisa ser corrigido? Aqui é preciso parar e fazer o levantamento de tudo o que você tem e como estão as coisas:
– Checagem dos cardápios pra ver se todos os preços estão corretos e se os produtos ali listados ainda estão sendo comercializados
– Checagem da sua lista de fornecedores pra ver se as informações de contato estão válidas e se a tabela de preços que você possui está atualizada… Isso é “Perfil de dados”.
Acho que deu pra entender né!?
Bom… depois desse grande levantamento, você encontrou problemas:
– Cardápios com preços errados e com produtos que não são mais comercializados
– Fornecedores com número de telefone inválido
– Tabela de preços de fornecedores desatualizadas
– …
Legal! Identificamos os problemas… mas como queremos que tudo fique?! Alguns exemplos:
– Cardápios atualizados diariamente
– Fornecedores com contatos válidos
– Tabelas de preços atualizadas
– …
Isso é “Definindo Qualidade de Dados”.
Show! Já sabemos como estão os nossos dados e já sabemos como queremos que ele fique… agora é hora de corrigir os problemas:
– Correção dos cardápios e implementação de rotina para atualização
– Correção dos contatos dos fornecedores e rotina periódica de validação desses contatos
– …
Isso é “Reparação de dados”.
E claro, depois de tudo isso, você precisa cuidar para que tudo o que foi corrigido se mantenha atualizado. Isso é “Relatório/Monitoramento de dados”.
Viu como Qualidade de dados está em tudo?! Existem vários termos bonitos que a gente usa, mas no final qualidade de dados é simples! Lembra da definição lá do início?! “Quão bem os seus dados satisfazem as necessidades de quem os usará”.
Bom… a partir desse momento vou deixar a nossa lanchonete de lado, pelo menos por ora, para trazer o tema um pouco mais para o lado corporativo.
Bora lá!
O impacto de uma má qualidade de dados
Decisões baseadas em dados… são tão boas quanto os dados em que elas são baseadas. Traduzindo: Dados ruins… decisões ruins!
Os dados estão por tudo ao nosso redor, e decisões baseadas em dados ruins podem afetar a nossa vida de diferentes formas:
- Impacto nas Empresas: A má qualidade dos dados pode levar a análises incorretas, decisões equivocadas e prejuízos financeiros. Além disso, compromete a confiabilidade de produtos e serviços, afetando a reputação da empresa e a satisfação do cliente.
- Impacto na Saúde: Dados imprecisos podem resultar em diagnósticos errôneos, tratamentos inadequados e colocar vidas em risco, impactando diretamente a qualidade dos cuidados de saúde.
- Impacto nos Governos: Dados de má qualidade podem distorcer políticas públicas e alocação de recursos, prejudicando comunidades inteiras e minando a eficácia das iniciativas governamentais.
- Desinformação e Confiança Pública: A disseminação de informações falsas ou manipuladas devido à má qualidade dos dados pode levar a desinformação generalizada, minando a confiança pública e prejudicando o funcionamento saudável da sociedade.
Estimativa de custo de uma má qualidade de dados
Isso é algo bem delicado e complicado de metrificar. Como saber o custo de uma má qualidade de dados?
Algumas situações deixam bastante explícita o tamanho do prejuízo da má qualidade de dados. Por exemplo problemas com orgãos regulatórios, onde as regras de tratamento de dados não estejam sendo cumpridas. Isso vai acarretar em multas e má reputação da empresa.
Mas e aquelas situações que não são tão explícitas assim? Como calcular o custo da oportunidade perdida? Como por exemplo a falta de dados, ou dados imprecisos de um cliente ou fornecedor que acabam acarretando em não renovação de contrato, ou uma negociação não tão vantajosa. Ou então aquele relatório que você recebeu e que te guiou a tomar uma decisão, porém se houvesse mais variáveis no relatório, a decisão seria diferente.
Enfim… nesses casos é complexo calcular o custo disso tudo.
Existem alguns casos de uso e estudos que mostram o custo da má qualidade de dados, mas não quero trazer esses números aqui. O que eu quero é estimular você a pensar nesse custo.
Imagina o tamanho do prejuízo de uma empresa, tomar decisões baseadas em dados imprecisos. Ou mesmo o risco de perder clientes, por coletar os dados para um fim, e acabar usando para outro.
Você já deve ter ouvido que cientistas de dados gastam cerca de 80% do seu tempo limpando e organizando os dados né?! pois é… e um cientista de dados é um dos profissionais mais caros do mercado.
Por que nós temos dados ruins?
Os 6 principais fatores:
1) Ainda existem muitas empresa que confiam mais na intuição do que nos dados. Isso obviamente resulta em pouco investimento na gestão de dados. E óbvio, sem recursos, não existe mágica.
2) Erros de entrada manual de dados:
Não sei se vocês sabiam… mas humanos erram… e bastante…
3) Silos de dados:
Cada departamento com o seu próprio conjunto de dados, suas próprias regras.
Os dados são coletados para uso e não são compartilhados, o que nos leva a dados duplicados e inconsistentes entre departamentos.
4) Migrações de dados e projetos de conversões:
Muitas vezes precisamos fazer migrações de dados entre sistemas, o que pode gerar problema na qualidade dos dados.
Importante ter um UAT (Teste de aceitação de usuário) adequado para garantir que tudo foi transferido como deveria, e que o usuário deu OK para a a migração.
5) Escalabilidade dos negócios e seus datasets:
Conforme a empresa cresce, é preciso ajustar a sua estratégia de dados.
Algo que funcionou para você quando a empresa era menor, pode não ser adequado quando a empresa cresce
6) Sem regras de governança de dados:
Se você não estabelecer regras para o uso dos dados, certamente terá problemas com a qualidade dos dados.
Tudo bem até aqui?! Certo… vamos seguir!
O que são dimensões da qualidade de dados?
São as diferentes maneiras pelas quais a qualidade dos dados pode ser medida.
Podem haver várias dimensões… porém o padrão global define 6 dimensões:
1) Precisão
Os dados representam com precisão a realidade!
– As vezes pode ser muito difícil identificar erros, pois podem exigir a comprovação de um dado por outros meios. Por exemplo: um nome errado no cadastro, que só poderia ser identificado, usando o número de documento e consultando o nome que consta no documento. Mas será q o errado na verdade não é o número de documento?!
– Outro exemplo comum: Número de telefone ou endereço de e-mail desatualizado. Nesse caso, a conferência desses dados também é difícil de fazer de forma automática, uma vez que só será identificado numa tentativa frustrada de contato.
– A falta de precisão nos dados pode trazer desconfiança, e os dados não serão utilizados. Pior ainda, em alguns setores, manter dados atualizados é altamente crítico e regulamentado, o que pode gerar sérios problemas.
– Em resumo: medir a precisão dos dados requer a verificação com uma referência autêntica
2) Validade
Os dados estão conforme o formato, tipo e intervalo (range) esperados!
Números de telefones fora do padrão, números de documento fora do padrão, código postal fora do padrão para o país do registro…
3) Oportunidade / Disponibilidade / Atualidade (Timeliness)
Os dados estão disponíveis quando esperado e necessário!
Muitas pessoas cometem o erro de achar que a atualidade dos dados é somente referente a garantir que os dados sejam atualizados. Isso é um erro.
Timeliness tem relação com a disponibilidade do dado.
– Ex: Se vou enviar um relatório com resultado financeiro da empresa do último trimestre, tenho alguns dias ou semanas para reunir e processar esses dados. Porém se preciso ligar para um contato de emergência de um paciente em uma UTI, preciso ter esse dado em questão de segundos ou minutos.
4) Completude
Todos os dados necessários estão presentes e você pode usá-los!
Se houver campos obrigatórios sem preenchimento, o dado não está completo
5) Singularidade / Unicidade
O dado aparece apenas uma vez no dataset.
É preciso garantir que apenas um registro exista no dataset.
6) Consistência
Os valores dos dados não conflitam com outros entre diferentes datasets
É preciso garantir que os dados de um registro são os mesmos em diferentes datasets.
Ex: dados de contato de um cliente, é preciso que eles sejam os mesmos no ERP, no CRM, no DW ou no DL.
O que são Regras de qualidade de dados?
Também conhecido como regras de validação de dados.
As regras de qualidade de dados são simplesmente as regras de negócios para seus dados.
Dentro de cada dimensão, temos regras de negócios que definem o que são dados bons dentro da dimensão.
– Quais são as regras de negócios em termos de integridade dos dados?
– Podemos saber quais são as regras de negócios para a validade dos dados?
– Quais são os diferentes formatos aceitáveis, etc.
As regras de qualidade de dados definirão a “aparência” dos dados, o que é esperado pelo time de negócio quando se trata dos dados.
Após a definição das regras de qualidade, elas serão implementadas como verificações automatizadas de qualidade de dados nos diferentes sistemas que contêm seus dados.
Quais os papéis dentro da Qualidade de dados
Papel | Responsabilidade |
Data Quality Manager | Coordenar atividades de GQD |
Data Quality Analyst | Executa atividades associadas com processos de data quality |
Data Owner | proprietário dos dados, define requisitos e aplicações para um conjunto de dados, e garante conformidade com políticas e leis. |
Data Stewards | monitora a qualidade dos dados, define padrões, identifica e soluciona problemas, e promove uma cultura de dados na empresa. |
Data Custodian | Responsável pelo ambiente técnico da manutenção e armazenamento dos dados |
Data consumer | Um usuário comum de dados. |
Os papéis de DQ Manager e DQ Analyst são pessoas que serão contratadas para esse fim.
Já os outros papéis são pessoas que eventualmente desempenharão esse papel, mas que não foram contratadas exclusivamente pra isso.
Data Quality Manager:
Esse é um papel que será pouco visto em organizações pequenas.
O papel do Data Quality Manager é garantir que os dados em uma organização sejam precisos, completos e confiáveis. Isso envolve o desenvolvimento e implementação de políticas, processos e tecnologias para monitorar, melhorar e manter a qualidade dos dados ao longo do tempo, garantindo que eles atendam às necessidades e objetivos da organização.
Principais responsabilidades:
– Garantir a implementação de processos de qualidade de dados
– Definir dados críticos
– Definir metas de qualidade
– Limites de alertas e procedimentos de escalonamento
– Supervisionar a gestão de procedimentos para erros e remediações:
– Definição de planos de remediação com as áreas de negócio
– Garantir a conformidade das normas e padrões de qualidade de dados do grupo.
Esta é a pessoa que deve ter o mais profundo conhecimento sobre qualidade de dados.
Data Quality Analyst:
Será o responsável por resolver os problemas de dados e colaborar com os desenvolvedores para aprimorar os sistemas de origem dos dados.
Principais responsabilidades:
– Executar testes estatísticos em grandes conjuntos de dados para determinar a qualidade e integridade dos dados.
– Avaliar o design e o desempenho do sistema bem como o seu efeito na qualidade dos dados.
– Colaborar com desenvolvedores de banco de dados para aprimorar os processos de coleta e armazenamento dos dados.
– Executar queries para identificar problemas de código e expectativas de dados, bem como a limpeza dos dados.
– Juntar dados de fontes primárias ou secundárias afim de identificar tendências.
– Reportar achados nas análises de dados para a gestão para que seja priorizado as necessidades dos sistemas.
– Documentar processos e manter registros de dados.
– Aderir as boas práticas em análise e coleta de dados.
– Manter-se atualizado em desenvolvimento e tendências em análise de qualidade de dados.
O Gerente de GQD deve garantir que a equipe de analistas mantenham o foco na coisa certa, ao invés de tratar erros “bobos”.
Manter o foco nos grandes problemas, como por exemplo:
- Falta de processos e procedimentos para manter o treinamento de qualidade de dados para os usuários
- Alterar a infraestrutura de dados para facilitar a manutenção da qualidade de dados.
Problemas táticos de erros que acontecem no dia a dia, podem ser tratados pelos data owners e data stewards dos dados
Ex: Se ocorrem problemas no departamento de vendas, os analistas desse departamento deveriam resolver os problemas, e não os analistas de qualidade de dados.
Data Quality Owner
Essa é a pessoa que realmente especifica os requisitos de qualidade de dados para o conjunto de dados.
Normalmente, os proprietários dos dados são executivos seniores que representam a equipe do lado do negócio.
É extremamente importante que a equipe de dados mantenha um bom relacionamento com os proprietários dos dados, pois ele definitivamente será necessário para apoiar e conduzir o programa de qualidade de dados dentro de um domínio.
Tocar um programa de qualidade de dados se torna mais fácil quando se tem um patrocinador no alto escalão. De outro modo, será difícil convencer os donos de dados sobre a importância do programa de qualidade de dados.
Data Stewards
São o braço direito dos Data Owners. São especialistas nos dados do domínio ao qual ele pertence (Vendas, Marketing, Financeiro…).
Principais responsabilidades:
- Manter os dados durante todo o cliclo de vida dele
- Desenvolver processos de controle de qualidade em parceria com a equipe de qualidade de dados
- Analisar dados que não parecem corretos e Implementar correções.
- Criar e aplicar diretrizes internas sobre o uso de dados para garantir não apenas a eficiência interna, mas também a conformidade com os vários departamentos e obrigações regulatórias
- Podem atuar na melhoria dos dados
- Monitoramento de uso
- Compartilhamento de boas práticas
- Ajudar a fazer melhor uso dos dados disponíveis
- Facilitar a comunicação entre os vários departamentos da organização
Data Custodian
Também conhecido como proprietário técnico dos dados.
Responsável por gerir o ambiente técnico de manutenção e armazenamento de dados.
Ex: Um DBA pode ser considerado um Data Custodian, pois é o responsável por manter o banco de dados íntegro, manter rotinas de backup entre outras atividades.
Data Consumer:
São os usuários dos dados, simples assim.
Serão as pessoas que usarão os dados no seu dia-a-dia. E todo o programa de qualidade de dados é voltado para entregar dados de qualidade para que os usuários possam fazer o seu trabalho.
Ajuda o Data Owner e Data Steward a definir o que é um dado de qualidade.
Normalmente existem centenas de consumidores de dados em um departamento, então é selecionado algumas pessoas, que serão os “Champions” e que serão as pessoas envolvidas no programa de qualidade de dados
Legal… mas e agora… por onde começo?!
Se você chegou até aqui, parabéns! Você realmente se interessa pelo assunto.
No próximo post, veremos como colocar tudo isso em prática. Você pode conferir aqui
Mas enquanto espera pelo próximo post, dá uma olhada no post anterior onde eu falei sobre Small Data e o poder dos detalhes
Abraço, e até a próxima!