Amaggi
Alta latência na captura de mudanças do banco de dados Oracle, impedindo análises em tempo real e decisões operacionais ágeis.
O Desafio
Alta latência na captura de mudanças do banco de dados Oracle, impedindo análises em tempo real e decisões operacionais ágeis.
A Solução
Resumo Executivo
A Amaggi, líder global no agronegócio e uma das maiores traders de soja do mundo, enfrentava desafios críticos de latência ao capturar mudanças em seus sistemas transacionais Oracle. A solução proprietária Oracle GoldenGate não apenas apresentava custos proibitivos, mas também não conseguia acompanhar o volume crescente de transações operacionais.
A Techrom implementou uma arquitetura moderna de streaming baseada em Apache Kafka e Change Data Capture (CDC) open-source, que não apenas eliminou os gargalos de performance mas também reduziu custos em 60-80% comparado à solução anterior.
O Contexto
Desafios do Negócio
Com operações que abrangem originação, industrialização e trading de commodities agrícolas, a Amaggi depende de decisões rápidas baseadas em dados atualizados. O agronegócio opera com margens apertadas onde minutos de atraso em informações críticas podem resultar em milhões em oportunidades perdidas.
Limitações Técnicas
Oracle GoldenGate:
- Licenciamento custando milhões anuais
- Latência de captura de mudanças em minutos
- Escalabilidade limitada para volumes crescentes
- Complexidade operacional exigindo equipe especializada
Impacto Operacional:
- Dashboards operacionais defasados em 15-30 minutos
- Impossibilidade de alertas em tempo real para eventos críticos
- Análises de estoque e logística baseadas em dados obsoletos
- Gargalo para iniciativas de analytics e ML
Nossa Abordagem
Fase 1: Assessment e PoC (4 semanas)
Mapeamento de requisitos:
- Identificamos 15 sistemas fonte Oracle com 200+ tabelas críticas
- Estabelecemos SLAs de latência (target: <5 segundos end-to-end)
- Definimos volumes esperados: 20,000+ mudanças/segundo em picos
Prova de Conceito:
- Implementamos PoC em ambiente não produtivo
- Validamos latência, throughput e confiabilidade
- Testamos failover e disaster recovery scenarios
- Comparamos custos: Open-source vs. Oracle GoldenGate
Fase 2: Arquitetura e Implementação (8 semanas)
Componentes da solução:
1. Change Data Capture (Debezium)
- Connector Debezium para Oracle
- Captura de mudanças via transaction logs
- Schema Registry para governança de formatos
- Exactly-once semantics
2. Apache Kafka (Backbone de Streaming)
- Cluster Kafka distribuído (9 brokers)
- Partitioning otimizado por chave de negócio
- Replicação factor 3 para alta disponibilidade
- Retenção configurável por tópico
3. Spark Structured Streaming (Processing)
- Processamento de streams Kafka em micro-batches
- Transformações e enriquecimentos
- Join com dados de referência
- Validação de qualidade de dados
4. Delta Lake (Serving Layer)
- Storage ACID-compliant no S3
- Partitioning por data e entidade
- Time travel para auditoria
- Compaction automatizado
5. Databricks SQL (Analytics)
- Dashboards em tempo real
- Queries SQL ad-hoc
- Integração com ferramentas BI existentes
Fase 3: Migração Incremental (12 semanas)
Migramos sistemas de forma faseada para minimizar riscos:
Wave 1: Sistemas não críticos (validação de arquitetura) Wave 2: Sistemas core de operação e logística Wave 3: Sistemas financeiros e compliance
Estratégia de dual-run:
- Oracle GoldenGate e nova solução rodando em paralelo
- Validação de consistência de dados
- Cutover gradual por sistema
- Rollback plan testado
Fase 4: Otimização (8 semanas)
Pós go-live:
- Tuning de performance (partitions, batch sizes)
- Rightsizing de recursos cloud
- Automation de operação (monitoring, alerting)
- Transfer de conhecimento para equipe Amaggi
Resultados e Impacto
Métricas Técnicas
Performance:
- Throughput: 20,000+ mudanças/segundo processadas (picos de 35K+)
- Latência: Redução de 15-30 minutos para <5 segundos (99th percentile)
- Disponibilidade: 99.9% uptime (vs. 99.5% anterior)
- Zero data loss: Exactly-once garantido via Kafka transactions
Custos:
- Redução de 60-80%: Licenças Oracle GoldenGate eliminadas
- TCO 5 anos: $8M → $1.5M
- OPEX reduzido: Equipe de 5 para 2 pessoas (automação)
Impacto de Negócio
Decisões Operacionais:
- Gestores têm visibilidade em tempo real de estoque, produção, logística
- Alertas automáticos para anomalias (e.g., atrasos em transporte)
- Otimização de rotas de logística baseada em dados frescos
Analytics e ML Habilitados:
- Data scientists acessam dados históricos + real-time via Delta Lake
- Modelos de forecasting de demanda atualizados continuamente
- Detecção de anomalias em processos industriais
Agilidade:
- Tempo para adicionar nova tabela ao CDC: 4 semanas → 2 dias
- Novos dashboards criados por analistas de negócio (self-service)
Tecnologias e Competências
Stack Implementado
Ingestão:
- Debezium Connector para Oracle
- Kafka Connect framework
- Confluent Schema Registry
Streaming:
- Apache Kafka 3.x (MSK gerenciado AWS)
- 9 brokers distribuídos em 3 AZs
- 150+ tópicos
Processamento:
- Apache Spark 3.x (Databricks)
- Spark Structured Streaming
- Delta Live Tables para pipelines
Storage:
- Delta Lake em S3
- Partitioning otimizado
- Z-ordering para queries
Analytics:
- Databricks SQL
- Power BI integrado
- Custom dashboards operacionais
Governança e Monitoring
Data Quality:
- Great Expectations integrado em pipelines
- Alertas automáticos para violações de qualidade
- Quarentena de registros problemáticos
Observability:
- Prometheus + Grafana para métricas Kafka
- Datadog para monitoring end-to-end
- PagerDuty para alertas críticos
Security:
- Encryption at rest (S3/EBS)
- Encryption in transit (TLS)
- Fine-grained access control (Unity Catalog)
Conclusão
O projeto com a Amaggi demonstra como streaming moderno pode transformar operações críticas em empresas de agronegócio. A eliminação de latência de dados não apenas gerou economia massiva de custos, mas habilitou novos casos de uso que antes eram impossíveis.
Principais Learnings:
- Migração incremental mitiga riscos (dual-run essencial)
- Open-source pode substituir ferramentas proprietárias caras sem sacrificar confiabilidade
- Streaming não é apenas sobre tecnologia, mas sobre mudar cultura de decisão
- Transfer de conhecimento é crítico para sustentabilidade de longo prazo
A Amaggi agora possui uma plataforma moderna de dados que escala com o crescimento do negócio e serve como fundação para iniciativas futuras de AI/ML.
