A Ciência de Gerir com Dados
O crescimento explosivo da Internet levou ao aparecimento dos motores de busca, que foram na verdade as primeiras entidades a ter que resolver os problemas de armazenamento de quantidades massivas de dados ao custo mais baixo possível e com um desempenho e uma capacidade de resposta até então inigualadas.
O que hoje consideramos as ferramentas e metodologias de referência para análise de Big Data tiveram origem nos esforços que, por exemplo, a Google fez para endereçar estes problemas de escala. O atual ecossistema Hadoop nasceu de publicações que a Google disponibilizou, explicando, sem dar a implementação, como tinha arquitetado as suas plataformas. Na verdade, estas, revolucionárias na forma como endereçaram o problema de escala com o recurso a trabalho de investigação anteriormente levado a cabo, acabaram por ser sobretudo eficientes a reempacotar conceitos sobre os quais havia muitas décadas de trabalho e experiência. Empresas como a Cloudera e toda uma rica comunidade de código aberto nasceram assim do que começou quase por ser um trabalho de engenharia inversa dos sistemas que a Google tinha inventado para solucionar as questões colocadas pelo crescimento desordenado dos dados.
Juntamente com o crescimento dos dados, surgiu assim uma ampla gama de ferramentas, técnicas e competências para analisá-los. Estes foram principalmente centrados em datasets de grandes dimensões, mas de alguma forma, limitados temporalmente, raramente analisados em tempo real. A partir destas tecnologias em tempo diferido, por assim dizer, surgiram centenas, mesmo milhares, de ferramentas especializadas para armazenar, processar e visualizar estes dados de grande volume.
Na última década, os sistemas que geram os dados nas empresas estão a evoluir e a mudar de forma. Embora as fontes mencionadas acima se tenham tornado uma parte crítica da tomada de decisão das organizações modernas, são apenas uma fração do panorama. Agora, cada vez mais recursos são dedicados ao streaming de dados.
Embora a transformação digital tenha introduzido um conjunto diversificado de novas fontes de dados, cada uma com as suas próprias peculiaridades e desafios, há um tema comum que as liga: na sua maioria, os dados de negócios são estruturados e apresentados de forma tabular. Quer se trate de demonstrações financeiras, estatísticas de desempenho ou tempos de resolução de tickets de suporte, os dados empresariais tendem a ser normalmente gerados por um punhado de fontes e facilmente armazenados em folhas de cálculo e bases de dados relacionais. Conforme os dados se acumulam, linhas, colunas e tabelas são acrescentada para representar informações históricas ou processos de negócios.
O streaming de dados, por outro lado, segue um conjunto diferente de regras. Como o nome indica, é gerado por um fluxo de eventos que ocorrem de forma contínua. Embora cada um desses eventos seja pequeno em tamanho, como os dados de IoT, acumulam-se rapidamente numa enorme quantidade de dados à medida que são criados. Esses dados não são, naturalmente, estruturados. Há alguns anos, poucas organizações trabalhavam com streaming de dados, mas esse número está em ascensão. Há várias razões para que o streaming de dados tenda a não parar.
A primeira razão tem que ver com a evolução da natureza do software. Um artigo do Wall Street Journal de 2011 tornou-se famoso por anunciar que "o software está a devorar o mundo", e essa tendência não foi revertida nos anos subsequentes. O desenvolvimento do software de hoje não está limitado a um conjunto de empresas especializadas. Firmas de todos os setores, do retalho ao bancário, estão a desenvolver ferramentas e aplicações para melhorar os processos internos ou oferecer um melhor serviço aos seus clientes. Com software vem o fluxo contínuo dos dados. Registos de servidores, fluxo de cliques, estatísticas granulares de utilização. Numa época em que cada grande empresa é também uma empresa de software, a acumulação de um grande volume de dados de streaming é incontornável.
Paralelamente, apesar do ruído hiperbólico em torno da Internet das Coisas ter diminuído, esta tecnologia tem vindo a alcançar uma adoção significativa em indústrias como transportes, energia e manufatura. As máquinas e as infraestruturas modernas estão a ser inundadas por sensores que produzem um fluxo interminável de dados. As empresas nestes verticais só agora estão a começar realmente a criar valor a partir de dados gerados pelas máquinas, mas à medida que as ferramentas de medição e análise crescem em sofisticação, essa tendência tende a expandir-se significativamente.
Finalmente, as redes neuronais, deep learning e algoritmos de decisão dependem do processamento de streaming em larga escala, identificando tendências e outliers entre milhares ou milhões de eventos de dados semelhantes. Embora aqui também haja muito trabalho para se fazer, poucos especialistas discordariam de que essas tecnologias irão desempenhar um papel importante na indústria e na ciência na próxima década. À medida que a inteligência artificial e o machine learning se tornam mais comuns, é provável que vejamos uma crescente procura por ferramentas e pessoal qualificado para capturar, processar e estruturar dados de streaming.
As tendências indicadas anteriormente provavelmente continuarão a sua atual trajetória de crescimento ou acelerarão significativamente - e é por isso que organizações com visão de futuro deverão estar a incorporar a análise de dados em streaming nas suas estratégias analíticas. Este é um processo de longo prazo que não começa ou termina com a compra de mais um conjunto de tecnologias. O streaming de dados apresenta um conjunto único de desafios, e as formas tradicionais de analisar não podem, geralmente, ser usadas sem um amplo trabalho de infraestrutura. O mercado tem estado a movimentar-se por forma a dar resposta atempada aos requisitos do streaming. Os principais fornecedores de soluções de cloud têm; cada um, as suas próprias apostas, muitas vezes complementadas com os de empresas emergentes como a americana Databricks ou a euro-chinesa Ververica. Os jogadores estão ainda a movimentar-se no terreno e não há uma solução que tenha o total domínio. É contudo, interessante notar que, enquanto a primeira onda de inovação nesta área surgiu, como referido, da área dos motores de busca da Internet, a vaga mais recente do streaming é sustentada em tecnologia que está a ser desenvolvida para ou por empresas da sharing economy, como a Uber, que necessitam, pela natureza da sua atividade de ter análise de baixa latência, em tempo real.
Planear é, neste campo, uma opção melhor do que o improviso. As empresas que querem garantir que os seus sistemas de análise de dados continuarão a proporcionar valor no espaço de três, cinco ou dez anos, devem estar a preparar- se para um futuro no qual o streaming de dados desempenha um papel primordial.
Fonte: IT Insight