Em 1995 Bill Inmon, considerado o pai do Data Warehouse, definiu o termo como uma coleção de dados não-voláteis, históricos, integrados e orientados por assunto para suporte do processo decisório dos gestores. Já Ralph Kimball definiu o DW de uma maneira mais simples e direta em 2002, afirmando que um DW é uma cópia de dados transacionais, especificamente estruturados para consulta e análise.
De uma maneira prática, o Data Warehouse (ou Armazém de Dados) é um banco de dados estruturado para a análise gerencial voltado para o processo de tomada de decisão, e a sua construção é um importante passo para o processo de BI, ou seja, a construção de um DW está incluído como parte do projeto de BI de uma organização.
O uso de um DW vai trazer uma série de benefícios no processo de BI da organização, entre eles a facilidade de operar com dados integrados, a obtenção de informações de qualidade, a rapidez nas consultas e a flexibilidade na geração de informações.
Em termos físicos, o Data Warehouse é um grande banco de dados que possui a responsabilidade de reunir em um único repositório, os dados das diversas fontes necessárias para a análise de um determinado tipo de negócio.
Assim, o DW pode trazer dados vindos de bancos de dados dos Sistemas de Informação da empresa, como o ERP (Enterprise Resource Planing), planilhas em Excel, arquivos externos em diversos formatos, como o XML, ou ainda arquivos advindos de sites externos a partir de técnicas como Web Scraping.
Pelo fato desses dados estarem na maioria das vezes em formatos diferentes, precisamos convertê-los para uma linguagem canônica, ou seja, uma linguagem comum a todos eles, como a SQL, que é utilizada na maioria das vezes.
Esse processo de conversão ocorre na fase chamada de ETL (Extraction, Transformation e Load), onde os dados serão trabalhados em uma área temporária, conhecida como Stage (assunto de um post futuro aqui no blog), com o objetivo de integrar toda a base, para só depois ser carregada no DW.
O DW possui características marcantes, como apontam as principais literaturas na área de BI baseadas na definição de Immon:
- Orientação por assunto: os DWs apresentam um assunto específico, ou seja, um DW vai tratar de uma área da organização como finanças, marketing, recursos humanos, vendas. Muitas vezes um grande DW pode ser subdivido em partes menores, melhores gerenciáveis, nesse caso teremos os Data Marts (outro assunto ao qual dedicarei um post exclusivo futuramente aqui no blog);
- Volatilidade: os dados de um DW serão utilizados apenas para cargas e consultas, ou seja, nenhuma operação de atualização de dados ocorrerá em um DW. Caso algum dado mude ao longo do tempo, essa mudança será carregada na base no próximo período de carga de dados;
- Variação no tempo: os dados de um DW pertencem a um período de tempo que corresponde ao período em que a carga do banco foi realizada. Assim, podemos dizer que um DW pode estar utilizando os dados que correspondem as vendas de 2010 à 2017, e que a próxima carga será feita em 01 de janeiro de 2019, quando as vendas do ano de 2018 serão carregadas;
- Integração: os dados precisam estar formatados para seguir um padrão específico de dados, para que estes façam sentido quando analisados em conjunto. Um exemplo clássico é a transformação de um campo destinado ao sexo de um cliente que em uma base pode estar descrito como “M” ou “F”, e na outra “H” ou “M”, ou ainda “0” ou “1” numa terceira base de dados, no processo de integração (Figura 1) deveremos escolher qual padrão de codificação do campo sexo será usado.
É fundamental deixar claro que, para que as consultas sejam geradas e para que possamos tirar o melhor proveito dessa arquitetura, necessitamos de ferramentas que vão operar na camada de consulta dos dados. Dessa forma, precisamos utilizar players de BI como o Power BI, Qlikview e Oracle Data Visualization, plugados no nosso DW para extrair insights e informações para apoiar o processo decisório da organização. Podemos ainda utilizar ferramentas de mineração e Data Science para extrair insumos importantes e realizarmos análise preditiva, mirando no futuro dos negócios de uma organização.
Para que tudo isso seja possível, precisamos, antes de tudo, termos a clara certeza de onde queremos chegar com o processo de BI, para que a modelagem do DW seja assertiva, e que o ETL possa traduzir as necessidades de dados da organização em informações consolidadas para a carga dessa grande base histórica e integradora dos principais dados do negócio de uma organização.