De acordo com a IDC, o mercado de software e serviços de dados e análises em nuvem atingiu US$ 90 bilhões em 2021 e espera-se o dobro até 2026
Por Guy Eden
Em todos os setores, as empresas continuam a concentrar esforços na coleta de dados e na busca por maneiras inovadoras de obter informações práticas. As organizações estão dispostas a investir tempo e dinheiro para fazer isso acontecer.
De acordo com a IDC, o mercado de software e serviços de dados e análises em nuvem atingiu US$ 90 bilhões em 2021 e espera-se o dobro até 2026, à medida que as empresas continuam a investir em inteligência artificial e aprendizado de máquina (IA/ML) e modernas iniciativas de dados.
No entanto, apesar dos altos níveis de investimento, os projetos de dados muitas vezes podem gerar resultados insatisfatórios. Uma pesquisa recente sobre programas avançados de análise de dados realizada pela McKinsey revelou que as empresas gastam 80% do seu tempo realizando tarefas repetitivas, como preparação de dados, onde ocorre pouco trabalho de valor agregado.
Além disso, descobriram que apenas 10% das empresas sentem que têm esse problema sob controle.
Então, por que as taxas de fracasso de projetos de dados são tão altas apesar do aumento do investimento e foco?
Muitas variáveis podem impactar o sucesso do projeto. Os fatores frequentemente citados incluem a complexidade do projeto e escassez de talentos. Cientistas de dados, arquitetos de nuvem e engenheiros de dados são escassos globalmente. As empresas também reconhecem que muitos de seus projetos de dados estão falhando porque têm dificuldade em operacionalizar as iniciativas de dados à escala de produção.
Isso levou ao surgimento do DataOps como uma nova estrutura para superar desafios comuns. DataOps é a aplicação de práticas ágeis de engenharia e de DevOps ao campo da gestão de dados para ajudar as organizações a transformar rapidamente novos conhecimentos em entregas de produção totalmente operacionalizadas que desbloqueiam valor empresarial a partir de dados.
Ferramentas e metodologias DataOps podem ajudá-lo a fazer o melhor uso do seu investimento em dados. Mas se quiser ter sucesso em sua jornada DataOps, é preciso ser capaz de operacionalizar os dados.
Desafios de orquestração de dados
A maioria dos fluxos de trabalho de canalização de dados é imensamente complexa e se executa através de muitas aplicações, fontes de dados e tecnologias de infraestrutura que precisam trabalhar juntas.
Embora o objetivo seja automatizar esses processos em produção, a realidade é que, sem uma plataforma poderosa de orquestração de fluxo de trabalho, entregar esses projetos em escala empresarial pode ser caro e frequentemente requer um tempo significativo gasto em trabalho manual.
Os projetos de orquestração de fluxo de dados têm quatro estágios-chave:
A ingestão envolve a coleta de dados de fontes tradicionais como soluções de planejamento de recursos empresariais (ERP) e gestão de recursos de clientes (CRM), sistemas financeiros e muitos outros sistemas de registro, além de dados de fontes modernas como dispositivos, sensores da Internet das Coisas (IoT) e mídias sociais.
O armazenamento aumenta a complexidade com inúmeras ferramentas e tecnologias diferentes que fazem parte da canalização de dados. Onde e como se armazenam os dados depende muito da persistência, do valor relativo dos conjuntos de dados, da taxa de atualização dos seus modelos de análise e da velocidade com que você pode mover os dados para processamento.
O processamento tem muitos dos mesmos desafios. Quanto processamento puro/bruto é necessário? É constante ou variável? É agendado, orientado por evento ou ad hoc – para uma finalidade específica? Como minimizar os custos? A lista é interminável.
Para obter informações, requer mover a saída de dados para sistemas de análise. Esta camada também é complexa, com um número crescente de ferramentas representando a última milha na canalização de dados.
Com novas tecnologias de dados e nuvem sendo frequentemente introduzidas, as empresas estão constantemente reavaliando suas pilhas de tecnologia. Esta inovação em evolução cria pressão e rotatividade que podem ser desafiadoras porque as empresas precisam adotar facilmente novas tecnologias e escalá-las em produção. Em última análise, se um novo serviço de análise de dados não estiver em produção em escala, as empresas não estão obtendo informações processáveis ou alcançando valor.
Alcançar a produção em escala
Executar com sucesso fluxos de trabalho críticos para o negócio em escala na produção não acontece por acaso. A plataforma adequada de orquestração de fluxo de trabalho pode contribuir para simplificar canalização de dados e obter informações práticas necessárias.
Com isso em mente, aqui estão oito capacidades essenciais a serem procuradas na plataforma de orquestração de fluxo de trabalho:
– Suporte a fluxos de trabalho heterogêneos: As empresas estão migrando rapidamente para a nuvem e, no futuro previsível, terão fluxos de trabalho em um mix altamente complexo de ambientes híbridos. Para muitos, isso incluirá o suporte ao mainframe e sistemas distribuídos em todo data center e várias nuvens privadas e/ou públicas. Se a plataforma de orquestração não puder lidar com a diversidade de aplicativos e infraestrutura subjacente, haverá uma estratégia de automação altamente fragmentada com muitos silos de automação que requerem integrações personalizadas complicadas para lidar com dependências de fluxo de trabalho entre plataformas.
– Gestão de acordos de nível de serviço (Service level agreement – SLA): Fluxos de trabalho comerciais, desde modelos de ML que preveem riscos até o fechamento financeiro e liquidações de pagamento, todos têm SLAs de conclusão que às vezes são regidos por diretrizes estabelecidas por agências reguladoras. S plataforma de orquestração deve ser capaz de entender e notificar sobre falhas de tarefas e atrasos em fluxos de trabalho complexos, e precisa ser capaz de mapear problemas para impactos comerciais mais amplos.
– Tratamento de erros e notificações: Ao ser executado em produção, mesmo os fluxos de trabalho mais bem projetados terão falhas e atrasos. É vital que as equipes adequadas sejam notificadas para se evitem longas discussões apenas para descobrir quem precisa trabalhar em um problema. A plataforma de orquestração deve enviar automaticamente notificações para as equipes certas no momento certo.
– Autoreparação e correção: Quando as equipes respondem a falhas de trabalho dentro dos fluxos de trabalho comerciais, tomam medidas corretivas, como reiniciar um trabalho, excluir um arquivo ou limpar um cache, ou tabela temporária. A plataforma de orquestração deve permitir que os engenheiros de automação configurem tais ações para acontecerem automaticamente na próxima vez que o mesmo problema ocorrer.
– Visibilidade de ponta a ponta: Os fluxos de trabalho executam processos comerciais interconectados em pilhas de tecnologia híbridas. A plataforma de orquestração deve ser capaz de mostrar claramente a linhagem de seus fluxos de trabalho. Isso é essencial para ajudá-lo a entender relações entre aplicativos e os processos empresariais que suportam. Isso também é importante para a gestão de mudanças. Ao fazer alterações, é fundamental ver o que acontece antes de depois de um processo.
– Experiência do usuário (User Experience – UX) de autoatendimento para múltiplas pessoas: A orquestração de fluxo de trabalho é um esporte em equipe com muitos interessados, como equipes de dados, desenvolvedores, operações, proprietários de processos empresariais e outros. Cada equipe tem diferentes casos de uso e preferências sobre como querem interagir com as ferramentas de orquestração. Isso significa que sua plataforma de orquestração deve oferecer a interface de usuário (UI) e a experiência do usuário (UX) adequadas para cada equipe, para que possam se beneficiar da tecnologia.
– Normas de produção: Executar fluxos de trabalho em produção requer aderência a padrões, o que significa usar convenções de nomenclatura corretas, padrões de tratamento de erros, etc. A plataforma de orquestração deve ter um mecanismo que forneça uma maneira muito simples de definir tais padrões e orientar os usuários para os padrões apropriados quando estiverem construindo fluxos de trabalho.
– Compatibilidade práticas DevOps: À medida que as empresas adotam práticas DevOps, como integração contínua e canalização de implantação contínua (CI/CD), o desenvolvimento de fluxo de trabalho, modificação e até mesmo a implantação de infraestrutura de fluxo de trabalho, a plataforma de orquestração deve ser capaz de se encaixar em práticas de lançamento modernas.
A necessidade de dados está em alta e não mostra sinais de diminuição, o que significa que ter a capacidade de armazenar, processar e operacionalizar esses dados continuará sendo crucial para o sucesso de qualquer organização. Práticas de DataOps combinadas com capacidades poderosas de orquestração podem ajudar empresas a orquestrar canalizações de dados, simplificar o processo de entrega de dados e melhorar os resultados empresariais.
O que aprendemos com o vazamento de dados da AGF+?