Fases de Desenvolvimento do Modelo Dimensional
De Wiki.infotuga.com
No processo de desenvolvimento do modelo dimensional de uma Data Warehouse existem quatro pontos que terão de ser seguidos, sendo eles: Sistema operacional, Declaração do grão, Escolha das dimensões e Identificação dos factos.
A metodologia normalmente utilizada na concepção do modelo dimensional é a Top-Down, pois primeiro identifica os processos mais importantes na organização a de onde estamos a obter informação.
Tabela de conteúdo |
Sistema Operacional
O sistema operacional consiste na recolha de informação de diversas fontes, sendo uma das fases mais demoradas pois consistem em aglomerar várias informações com diferentes tipos de formatação. No momento em que se dá a extracção dos dados, estes são reorganizados de acordo com a nova estrutura e contextualizados de forma a formar uma apresentação transparente e com múltiplas aplicações (figura 1).
Figura 1
fonte: imasters
Exemplo de aplicação
Imaginemos que a empresa quer analisar as tendências dos consumidores na compra de um produto, para efeitos de marketing. Após varias entrevistas e analise do processo de vendas, suponha que consegui-o reunir as seguintes informações:
- A informação referente aos consumidores altero-se
- Passando de uma divisão por cidade (Malagueira, Bacelo, Barreiro, Alcácer do sal) para uma divisão por Distrito (Setúbal, Évora)
- Os relatórios mais importantes para o marketing são:
- Receitas mensais e custos por vendedor;
- Receitas e unidades vendidas por região;
- Receitas mensais dos consumidores;
- Percentagem do vendedor nas vendas.
- Valor mais elevado de vendas no período de um ano.
Todos os valores estão introduzidos em diferentes bases de dados relacionais.
No momento em que for terminado está fase toda a informação necessária para a escolha do grão, para criação das dimensões e para identificar os factos estará disponível.
Declaração do grão
Este consiste no nível de detalhe necessário para uma eficaz utilização da informação no Data Warehouse. Sendo o nível de detalhe inversamente proporcional a granulação, i.e., quanto maior o detalhe da informação menor será a granularidade implícita.
Exemplo
- Vendas por dia em determinada região
- Vendas por mês em determinada região
O tamanho do grão das Vendas por dia será menor que o grão das Vendas por mês, contudo a dimensão das Vendas por dia será superior as Vendas por mês pois terá um maior numero de registos superior.
Deste modo é preciso cuidado com o grão escolhido se for pequeno demais resultará em um numero de registos astronómico, se for grande demais a informação que se poderá retirar será inútil ao utilizador. É devido a está razão que a declaração do grão tem crescido de importância por parte dos gestores envolvidos no processo de tomadas de decisão.
Utilizando o Sistema de informação para determinar a granulação
Uma revisão cuidadosa da informação obtida na fase dos Sistemas de Informação, deverá ser o suficiente para determinar a granulação necessária para as tabelas de factos. Seguindo o exemplo pratico, o grão de:
- Consumidor por Produto
A granulação das tabelas de factos representam sempre o menor nível a que corresponde a dimensão. Ao revermos a informação do Sistema de informação, tomamos conta que a granulação do consumidor por produto e o menor nível pois não é possível reduzi-lo mais, este já expressa o menor nível de registo na tabela de factos,(em alguns casos a dimensão produto pode ser reduzido pois pode ser composto por várias componentes).
- Consumidor por Produto por Distrito
Devido as tendências dos consumidores a análise inclui uma componente geográfica, é necessário decidir qual o menor nível na informação referente a região. Sabemos que a organização alterou o seu índice regional de cidades para Distrito do pais, tornando este menor nível em termos geográficos. Temos assim o terceiro componente que definirá o tamanho do grão nas tabelas de factos.
- Consumidor por Produto por Distrito por Dia
As tendências dos consumidores ocorrem ao longo do tempo, assim as tabelas de factos devem incluir uma componente temporal. Supondo que a organização pode escolher um espaço temporal para os seus relatórios, podendo ser anual, semestral, trimestral ou mensal, o menor nível da informação possível será o diário (uma vez que o registro de vendas por hora é impossível ou simplesmente inviável), este nível permite a comparação das vendas de dois dias distintos de forma a obter o dia em que se efectuo o maior valor de vendas do ano. Este implica que por cada dia se crie um registo, mesmo num espaço de 10 anos o numero de registo será de 3650 registos, representando em termos de registos um valor relativamente pequeno. Terminamos o nível de granulação das tabelas de factos.
Escolha das dimensões
Uma vez escolhido o nível de granularidade para as dimensões das tabelas de factos, torna-se mais fácil a identificação das dimensões. A matriz em bus é a melhor maneira de definir as dimensões dos factos, sendo que o grão normalmente corresponde as dimensões (figura2).
(…) “A determinação cuidadosa do grão determina a dimensionalidade primária da tabela de factos. É assim possível adicionar dimensões a tabela de factos primária, onde essas dimensões adicionais tomam naturalmente a dimensão primária. Se as dimensões adicionadas não respeitarem o grão definido, é necessário a revisão do grão de modo a acomodar as novas dimensões” (…) (Kimball, 2002).
Identificação dos factos
Esta fase centra-se na identificação dos valores numéricos ou não numéricos que preencheram cada linha das tabelas de factos. Podendo ser armazenado em cada tabela factos apenas factos do mesmo tipo de detalhe, e aqui que a escolha do grão ajudara na selecção dos valores a utilizar. Em termos simples a escolha dos factos têm de ser idênticas ao grau do grão escolhido. Ao considerar factos potenciais podemos ser obrigados a redefinir o grão ou as dimensões anteriormente seleccionadas. Existem dois tipos de factos: qualitativos ou numéricos.
Os factos qualitativos, ou descritivos, são pouco utilizados pois devido a sua forma estão sujeitos a diversos tipos de escrutínio.
Os factos numéricos, ou típicos, são normalmente utilizados como medidas de aferição de um negócio, sendo analisados através de funções matemáticas, como o somatório ou valor inimo e máximo.
A análise dos dados numéricos pode ser efectuada de diversas formas, contudo primeiro é necessário carácter dos factos, estes determinaram que tipo de factos puderam integrar uma tabela.
Carácter dos factos
Facto aditivo
Os factos aditivos são factos que podem ser somados relativamente a todas as dimensões de um esquema estrela, i.e., a agregação e o tipo de operação mais comum num data mart , é a adição, operação que apenas pode ser executado em factos deste tipo.
Tendo em conta que o tipo de análise de informação mais comum efectuada num Data Warehouse consiste num elevado numero de dados, raramente se aplica a uma única linha na tabela de factos, os dados numéricos tornam-se a forma mais rápida e eficaz de se obter a informação pretendida.
(…) “Os factos mais úteis na tabela de factos são os numéricos e os aditivos” (…) (Kimball,2002)
Facto semi-aditivo
Consistem em factos que apenas podem ser somados relativamente a algumas dimensões, i.e., os factos semi-aditivos apenas possuem significado quando apresentados como informação complementar.
Exemplo: Número médio de alunos no curso de informática e gestão no ano de 2008.
Facto não aditivo
Os factos não aditivos são factos que não podem ser adicionados em qualquer dimensão, pois a informação resultante não teria qualquer significado, usualmente trata-se de factos que envolvam rácios e percentagens.
Referencias
Tabelas de Factos e Dimensão das Tabelas
An Engineer's View
What Not to Do
Imasters
Bibliografia
Caldeira, C. Data Warehousing - Conceitos e Modelos. Edições Silabo, 2008. ISBN: 978-972-618-479-9
Kimball, Ralph. The data warehouse toolkit: the complete guide to dimensional modeling. Wiley Computer Publishing, 2002. ISBN 0-471-20024-7

