A busca, armazenamento e recuperação de dados – TI
Nos capítulos anteriores nos referimos aos termos data mining, data warehouse e search query languages. Neste capítulo vamos ampliar um pouco mais o conceito, antes de aprender um pouco mais sobre as grandes bases de dados, que são repositórios de dados armazenados em alguma seqüência logicamente estruturada.
A finalidade clara é “endereçar via diferentes perspectivas” as informações que podem ser transformadas em conhecimento pelas organizações, levando em conta que a posse da informação e a rapidez de atendimento das necessidades do mercado, são palavras chave para manutenção da competitividade no mercado contemporâneo.
É a partir das informações coletadas que a “realidade cultural” pode fazer significado para os analistas da organização. A primeira atividade é levantar quais dados são necessários, categorizá-los e determinar uma estrutura que lhes dê algum significado lógico e alguma estrutura padronizada para que todas as pessoas acessem a informação do mesmo modo. Esta atividade é aquela conhecida como “data mining”.
Esta estrutura claramente definida e sujeita a padronização é quem vai permitir a criação e disseminação de novos conhecimentos em todas as áreas de interesse da organização e permitir que ela seja mais facilmente adequável às mudanças que a velocidade da evolução tecnológica impõe para as organizações do mercado contemporâneo.
Os dados a serem armazenados estão diretamente relacionados com as atividades da empresa e devem ser categorizados e estruturados, após um levantamento inicial de quais dados, em quais fontes e sob que forma estes dados vão ser trabalhados. Esta é a fase conhecida como data mining, que traduzida ao pé da letra significa, “mineração de dados”. Os sistemas de mineração de dados devem ser atendidos por ferramentas que tornem viável a análise posterior e que esta análise permita representar informações que permitam a construção de novos conhecimentos, a partir de construções sociais. Seguindo esta linha de raciocínio compreendemos a necessidade de padrões claramente definidos. As teorias mais atuais que envolvem a atividade de mineração de dados, consideram que a partir dela é que vai se tornar possível a criação de ambientes de aprendizagem ricos (objetos de aprendizagem) em mídias diversas, que permitam reconstruir situações de geração do conhecimento, que orientem novas formas de criação de conhecimento. Assim o repositório de dados deve permitir acesso guiado ou livre sob perspectivas diversificadas, o que determina a fase inicial de pesquisa das informações.
Assim que recuperadas, organizadas de acordo com um determinado padrão, vamos ter que definir uma forma lógica e uma forma física de armazenamento que permita a sua recuperação (objeto a ser tratado com detalhes quando estudarmos os sistemas de gerenciamento de bancos de dados). É a etapa de data warehouse. O seu conceito é mais abrangente e abarca toda uma série de possibilidades para que a organização possa obter, a partir dos dados e das informações armazenadas, a criação de novos conhecimentos ou desenvolvimento de novas “práticas recomendadas”.
A primeira vez que o conceito foi utilizado por CODD (1993) o que a revela também como uma ciência recente. O autor considera como uma definição completa e complexa sobre data mining:
“O conceito de data warehouse descreve uma coleção de dados, orientados, integrados, não voláteis e variáveis no tempo, utilizada para suportar decisões gerenciais estratégicas que venham a favorecer as necessidades de informação para os responsáveis pela tomada de decisão”. (CODD, 1993).
Em nossos cursos utilizamos uma definição mais simples e convergente e que está mais de acordo com nossa cultura e que considera que o conceito de data warehouse consiste na agregação, consolidação de dados destinados a montarem visões de cenários existentes na realidade do mercado contemporâneo. Eles devem permitir a síntese dos dados armazenados em muitas dimensões. Ele é um repositório de informações que vão ser utilizadas de forma on-line com o propósito de providenciar dados para processos analíticos que dão suporte à decisão.
Para desenvolver um processo de data warehouse é necessário que os dados armazenados apresentem graus variáveis de integração, provenientes de diversas fontes, desde que consideradas confiáveis. Ele é um processo complexo, sujeito a erros e que deve ser relacionado a contextos ou cenários previamente estabelecidos, sendo que os mesmos dados, submetidos a uma visão de um contexto diferenciado, podem apresentar resultados totalmente diferenciados. Este relacionamento, conforme serão vistos no tratamento dos sistemas de gerenciamento de bancos de dados são normalmente estabelecido por alguma técnica. A que temos utilizado de modo mais freqüente com os alunos de nossos cursos, diz respeito ao modelo E-R (entidade – relacionamento) criando um projeto de uma base de dados operacional. A sua definição está diretamente relacionada com um projeto lógico (como os dados estão organizados) e um projeto físico (como os dados são armazenados no repositório). A terceira e última parte diz respeito aos processos de recuperação, o que é feito com ferramentas conhecidas como linguagens de consulta de dados de quarta geração. Os pontos críticos são a sua criação e a previsão de crescimento, que não deve ficar além de uma taxa (determinada caso a caso) que torne o processo de recuperação demorado e extensivo. Em nossos cursos utilizamos um modelo denominado UML – Unified Modelling Language que apresentam uma solução gráfica mais compreensível pelos programadores das aplicações de recuperação de dados.
Tendo “captado os dados”, os tendo armazenado de uma “forma logicamente estruturada”, a última etapa e a fase de recuperação, para então permitir que eles sejam analisados, em um processo subseqüente que foge do escopo do estudo da tecnologia envolvida. É a etapa de recuperação dos dados, denominada como Search Query Languages, ou seja, o uso de linguagens de quarta geração para recuperação das informações armazenadas nas grandes bases de dados.
Nesta fase recomenda-se a montagem dos cenários onde estes dados vão ser utilizados, já que são aplicáveis na dependência do contexto. A partir destes cenários é que temos as “visões usuárias” sobre os dados armazenados de acordo com algum padrão nos sistemas de gerenciamento de bases de dados.
Os modelos de dados com os quais trabalhamos, normalmente são multidimensionais, com dados montados a partir de “tabelas planas” que são consideradas “arquivos individuais” componentes da base de dados. Uma “visão usuária” contém dados que são provenientes de múltiplas destas tabelas e relacionadas diretamente ao contexto no qual os dados vão ser analisados.
É um processo de grande complexidade, o trio: data mining, data warehouse e search query language, é uma atividade de elevado custo, não somente na fase de levantamento, mas também na fase de implantação e utilização. Nas atividades de manutenção e crescimento da base instalada reside a maior parte do ciclo de vida dos sistemas que são conhecidos de uma forma geral apenas como data warehouse ou “armazém de dados”.
A orientação a objetos e a implantação de modelos relacionais são as técnicas mais indicadas para a formatação dos modelos. Elas não fazem parte do escopo deste capítulo, mas serão exaustivamente estudadas por estarem diretamente relacionadas com ele.
O importante é destacar que o processo data warehouse é considerado como um dos fatores críticos de sucesso para muitas organizações, que sem as informações que ele lhe fornece, não poderiam dar continuidade ao papel de liderança do mercado.