Autor: Ricardo Nicolau

Business Analytics

Parece haver uma alternativa para as “rugas” dos RBDMS, como explica Ricardo Nicolau, consultor da área de Business Analytics da Mind Source.

Há mais de 25 anos que os sistemas de bases de dados relacionais (RDBMS) têm suportado a árdua tarefa de suportar os dados das organizações. Apesar do desenvolvimento de alternativas, os sistemas RDBMS perduraram até aos dias de hoje, assentando a sua longevidade na confiança, integridade e sucesso operacional dos sistemas informáticos de todo o mundo. Contudo, as primeiras “rugas” começam agora a surgir, motivadas pela falta de velocidade e capacidade de lidar com enormes volumes de dados que acompanham as necessidades de análises dos sistemas atuais (sobretudo os “web based” de comércio eletrónico de grande escala, redes sociais ou até motores de busca). A grande incógnita surge: será que começa a ser proibitivo utilizar bases de dados tradicionais SQL?

No que toca ao processamento de bases de dados, a mudança está a ser impulsionada por quatro grandes vetores:
– velocidade (a rapidez de acesso a dados físicos não está a acompanhar o crescente acréscimo de rapidez da rede),

– escalabilidade (dificuldade em escalar os RDBMS de forma eficiente),

– volume (a quantidade de informação passou de dezenas de gigabytes na década de 90 para os tera e petabytes nos últimos anos) e

– integridade (necessidade de aceder e combinar dados de várias origens, muitas vezes de fontes não-relacionais).

Há alternativas? Sim, Hadoop!

Uma das alternativas mais abordadas atualmente é Hadoop, uma implementação Open Source de Map Reduce. O Map Reduce consiste num método simples e poderoso para processamento e análise de volumes de dados verdadeiramente gigantescos.

E se a minha informação tender para infinito?

Manter volumes de dados gigantescos num sistema RDBMS torna-se caro e difícil com abordagens de ETL. Combinar de forma eficiente múltiplas fontes de dados simultâneas ou que não conseguem simplesmente residir numa mesma máquina física (ou mesmo em dezenas de máquinas) é impensável. O Hadoop contorna esta situação utilizando um sistema de ficheiros distribuídos (HDFS) que foi projetado para lidar de forma coerente com conjuntos de dados que residem em vários servidores distribuídos.

O processamento de dados com Hadoop é muito provavelmente o próximo passo na evolução de Big Data. Quão maior for a informação existente, mais importante se torna otimizar os recursos consumidos. Técnicas de Hadoop ajudarão nesta matéria, proporcionando-lhe a sensação de capacidade de análise de informação infinita.

Onde residem então as principais diferenças entre RDBMS e Hadoop/Map Reduce?

Os RDBMS têm a sua ordem de grandeza nos gigabytes, o acesso é interativo, o “schema” é estrutural e definido, a linguagem assenta no SQL, tem uma alta integridade de dados, a sua escalabilidade não é linear, promove várias leituras e escritas de informação e tem uma baixa latência de interação com os dados.

Com Hadoop, a ordem de grandeza reside nos petabytes, o acesso é normalmente efetuado por “batch”, ao nível de “schema” é não-estrutural, tem uma linguagem procedimental (Java, C, etc.), promove uma baixa integridade dos dados, uma escalabilidade linear, promove uma única escrita e vários acessos a leitura de informação e uma alta latência na interação com os dados.

Analisando a informação anterior, conseguimos concluir que a implementação Hadoop/Map Reduce não irá substirtuir os RDBMS tradicionais. Certamente ainda teremos RDBMS por vários anos, contudo era essencial que se encontrasse uma alternativa aos desafios de aumento de flexibilidade, tempos de resposta rápidos a análises de dados e capacidade de resolução de problemas em tempo útil.

Parece que se encontrou um “facelift” à altura para o disfarce das rugas encontradas nos RBDMS…

Está preparado para aceitar diminuir o efeito das “rugas” nos RDBMS da sua organização?

Publicado a 17-10-2015 em Computer World

http://www.computerworld.com.pt/2014/10/17/hadoop-ou-nao-ha/