Genie 3 + Maps: IA Transforma Street View em Mundo Jogável
Genie 3 transforma 280 bi de imagens do Street View em mundos jogáveis sob demanda. Como funciona, limites e o uso no Waymo.
por Cleverson

O Genie 3 acaba de receber a integração que muda o que entendemos por mapa: o modelo de mundo do Google DeepMind agora consome o acervo de Street View do Google Maps para gerar simulações jogáveis ancoradas em endereços reais. Anunciada em 19 de maio de 2026, a função transforma 280 bilhões de imagens em ambientes navegáveis em tempo real — e levanta perguntas concretas sobre o futuro de treinamento de IA, jogos generativos e até robotaxis.
TL;DR
- Genie 3 é o modelo de mundo do Google DeepMind: gera vídeo interativo em 720p a 24fps a partir de texto.
- O Google conectou o Street View ao Genie via Maps Imagery Grounding: você fixa um pin no mapa e o modelo cria uma cena jogável daquele lugar.
- Disponível para assinantes do Google AI Ultra (US$ 200/mês) com 18+ anos; o pin geográfico funciona apenas em locais nos EUA por enquanto.
- A Waymo já usa o Genie 3 para treinar robotaxis em cenários raros — de nevascas a elefantes na pista.
- Ainda há limites: o modelo não entende física, “esquece” após cerca de 1 minuto e o resultado parece game, não foto.
O que é o Genie 3 e por que ele importa
O Genie 3 é o que o DeepMind chama de world model — uma IA que não devolve uma frase nem uma imagem estática, mas um ambiente interativo, controlável quadro a quadro. Você descreve uma cena (texto) ou aponta um ponto do mapa (imagem) e o modelo gera os próximos frames em tempo real, reagindo aos seus inputs como em um videogame.
Anunciado originalmente em agosto de 2025 como pré-visualização de pesquisa, o Genie 3 chegou ao público geral só agora, em maio de 2026, com uma escolha estratégica: em vez de competir cabeça a cabeça com Sora ou Veo na geração de vídeos lineares, o Google posicionou o Genie como simulador. A diferença prática? Vídeo gerado por IA é cinema — você assiste. Um world model é parque temático — você anda dentro.
Para quem desenvolve, isso abre uma classe de produto inédita: ambientes infinitos, baratos e contextualizados a partir de um prompt. Eu venho acompanhando world models desde a versão 1 do Genie, e o salto de qualidade aqui é desproporcional. A versão 2 perdia coerência em 10 segundos. A 3 mantém a topologia por minutos.
Como o Genie 3 usa o Street View: passo a passo
O fluxo público é simples e roda dentro do Google Labs, na URL labs.google/projectgenie/. Os passos:
- Você abre o experimento no Labs com uma conta Ultra ativa.
- Solta um pin em um endereço dos EUA dentro do Google Maps embarcado.
- Escolhe um estilo opcional (
Desert Sands,Stone Age,Ocean World,B&W filmetc.). - Descreve um personagem — pode ser herói de quadrinho, animal ou figura em claymation.
- O Genie 3 carrega a imagem panorâmica do Street View daquele ponto, alinha a topologia e gera o primeiro frame da simulação. A partir dali, você caminha, olha em volta, muda clima.
Internamente, o pulo do gato é a tecnologia que o Google batizou de Maps Imagery Grounding. Em vez de “imaginar do zero” a geografia, o modelo recebe a imagem real como semente espacial. O Street View funciona como âncora — o resto vem do generativo.
Especificações técnicas: 720p, 24fps e o muro de um minuto
Olhando os números brutos divulgados pelo DeepMind:
| Característica | Genie 2 | Genie 3 |
|---|---|---|
| Resolução | 360p | 720p |
| Frame rate | ~12fps | 24fps |
| Memória visual | ~10s | ~60s |
| Geração | Auto-regressiva por frame | Auto-regressiva por frame |
| Representação 3D | Implícita | Implícita (sem NeRF/Gaussian Splatting) |
| Interação | Limitada | Tempo real |
A escolha de não usar NeRF ou Gaussian Splatting é deliberada. Esses métodos exigem reconstrução 3D explícita — caro, lento, dependente de varredura prévia. O Genie 3 gera tudo “frame a frame com base na descrição do mundo e nas ações”, como descreve o paper oficial. Isso troca consistência geométrica perfeita por flexibilidade radical: qualquer prompt vira mundo.
O muro de um minuto é a limitação que mais incomoda. Depois de cerca de 60 segundos andando, o modelo começa a esquecer o que estava atrás de você. Se você girar 360°, há boa chance da paisagem ter mudado. Para jogos curtos e demonstrações, funciona. Para uma sessão de RPG de duas horas, ainda não.
Maps Imagery Grounding: o coração da integração
O grande feito técnico não é renderizar bem o ponto inicial — Street View já faz isso há 18 anos. É manter a coerência espacial conforme você se afasta. Jonathan Herbert, diretor do Google Maps, foi direto ao explicar isso ao TechCrunch: o avanço não é “reconstrução fiel”, e sim “continuidade espacial”. O Genie 3 lembra a vizinhança em 360° e constrói as próximas ruas a partir dessa base.
O acervo é colossal:
- 280 bilhões de imagens capturadas
- 110 países cobertos
- 7 continentes mapeados
- Quase 20 anos de coleta cumulativa
Para o Genie, esse arquivo é um conjunto de dados de treinamento que nenhum concorrente tem como replicar — nem a Meta, nem a OpenAI, nem a xAI. É a primeira vez, na prática, que “o Google ter o Street View” virou vantagem direta em IA generativa, não só em busca local.
Por que isso muda o jogo para a Waymo
A integração Genie 3 + Street View já tem um cliente interno consumindo: a Waymo, divisão de robotaxis da Alphabet. O time da Waymo usa o Genie 3 para gerar cenários raros que seriam custosos ou impossíveis de filmar na rua:
- Tornados em zona urbana
- Animais grandes atravessando a pista (elefantes, em um exemplo citado pelo TechCrunch)
- Tempestades de neve em cidades onde nunca neva
- Comportamento errático de pedestres em condições atípicas
A lógica é simples: um sistema de direção autônoma só fica seguro se for testado em edge cases. E edge case, por definição, é raro — coletar dados reais leva décadas. Treinar em mundo simulado por IA acelera isso para semanas. Com o Street View no loop, a Waymo pega uma esquina específica de Phoenix ou São Francisco e roda mil variantes de “e se chovesse granizo agora?” sobre aquela geometria real.
Isso também tem implicações fortes para o time da Voyia, plataforma de gestão escolar que mantemos aqui na Agathas: o mesmo princípio — treinar agentes em ambiente simulado antes de soltá-los em produção — vale para qualquer IA que precise lidar com cenários raros. Você pode ler como pensamos infraestrutura de tecnologia aplicada ao Moodle no aplicativo personalizado — a régua de “validar em ambiente controlado antes” é a mesma.
Aplicações práticas: jogos, treinamento e educação
Para além do hype, as aplicações concretas que vão chegar antes ao mercado são:
- Jogos generativos: cenários sob demanda em vez de level design manual
- Treinamento de agentes: IA aprendendo política em mundos novos a cada episódio
- Educação imersiva: walkthroughs históricos (caminhar pela Roma Antiga partindo do mapa atual)
- Prévia turística: visualização do destino no estilo da cidade
- Robótica simulada: braços e drones treinando em variedade de cenários
- Cinema e VFX: pré-visualização de cenas geradas a partir de locações reais
O caso mais imediato é o dos estúdios indie de jogos. Hoje, criar um open world exige um time de level designers. Com Genie 3, um designer solo prototipa em um dia. Não substitui produção AAA, mas elimina barreira de entrada para experimentação.
Para quem trabalha com tráfego pago e produto, há outra janela: ads interativos. Imagine um anúncio em que o usuário “caminha” pela vitrine virtual da sua loja em vez de ver um carrossel estático. Não é cá pra mim, mas o caminho está aberto — vale acompanhar de perto, especialmente se você toca ofertas locais como discutimos no post sobre WhatsApp empresarial e API Oficial.
Limites atuais: física, alucinações e photorealism
Vale colocar a barba no molho. As limitações que o próprio DeepMind admite:
- Física inexistente: em uma demo, uma mulher correndo no Joshua Tree passa direto por cactos e arbustos. Não há colisão.
- Textos quebrados: placas, letreiros e qualquer coisa escrita renderiza como rabisco.
- Alucinação geográfica: a esquina é reconhecível, mas detalhes ao redor migram conforme você se move.
- Multi-agente limitado: dois personagens controlados ao mesmo tempo ainda não funcionam bem.
- Photorealism: o resultado parece game, não filme. Jack Parker-Holder, pesquisador da DeepMind, estima que o gap para qualidade de vídeo (Veo, Sora) é de “seis a 12 meses”.
Para casos como simulação de robotaxi, a falta de física é grave. Treinar um carro a respeitar pedestres em um mundo onde pedestres atravessam paredes pode introduzir vieses perigosos. A Waymo, claro, usa o Genie em combinação com outros simuladores físicos — não como única fonte de verdade.
Como acessar o Genie 3 com Street View
O pacote completo exige três condições:
- Assinatura Google AI Ultra ativa (US$ 200/mês na data deste post)
- 18 anos ou mais (verificação pela conta Google)
- Acesso ao Google Labs em
labs.google/projectgenie/
A funcionalidade global de geração via texto já está liberada. O pin no mapa funciona só nos EUA — o Google sinalizou expansão, sem data confirmada para Brasil. Quem está fora dos EUA pode usar o Genie 3 sem o ancoramento de Street View, gerando mundos puramente prompt-driven.
Importante: o Labs é uma vitrine experimental. APIs públicas para integrar o Genie 3 em produtos próprios ainda não existem. Quem quer construir SaaS em cima disso precisa esperar — provavelmente via Vertex AI nos próximos meses.
Genie 3 vs. concorrentes: Veo, Sora e GameNGen
| Modelo | Tipo | Interativo? | Resolução | Duração estável |
|---|---|---|---|---|
| Genie 3 (DeepMind) | World model | Sim, real-time | 720p @ 24fps | ~1 min |
| Veo 3 (Google) | Geração de vídeo | Não | 1080p | Até 60s lineares |
| Sora (OpenAI) | Geração de vídeo | Não | 1080p | Até 20s lineares |
| GameNGen (Google) | Simulação de jogo | Sim (apenas Doom) | 720p | Indefinido (jogo fechado) |
O Genie 3 é o único da lista que combina três coisas: interatividade em tempo real, mundo aberto e base em dados reais via Street View. Veo e Sora geram clipes mais bonitos, mas não respondem a input. GameNGen interage, mas só dentro de um jogo treinado especificamente.
É comum confundir o Genie com o Veo. A regra que uso: se você vai assistir, é Veo (ou Sora). Se você vai andar dentro, é Genie.
O que esperar dos próximos 12 meses
Olhando o roadmap implícito nos comunicados oficiais:
- Expansão geográfica do pin de Street View para fora dos EUA — Brasil deve entrar pelo seu Street View já mapeado.
- Melhora de física — colisão e gravidade são prioridade declarada.
- API/Vertex AI — abertura para devs construírem produtos.
- Memória estendida — passar do muro de 1 minuto para horas.
- Multi-agente — múltiplos personagens controlados simultaneamente.
Se eu fosse apostar onde isso quebra primeiro em larga escala, diria simulação automotiva. Não pela Waymo só — toda fabricante que vende sistema ADAS vai querer simulação infinita. Volkswagen, BYD, Stellantis. O custo de treinamento em pista real é tão alto que qualquer ganho de 10x em iteração paga o licenciamento.
Em segundo lugar, jogos generativos. Não para substituir AAA, mas para um novo nicho de experiências curtas tipo “TikTok jogável” — caminhar pelo bairro do seu personagem favorito em estilo claymation, por exemplo.
Conclusão: do mapa estático ao mundo dinâmico
Por quase duas décadas o Street View foi um produto de referência — você consultava para saber como era um lugar. Com Genie 3, ele vira matéria-prima de simulação: um banco de dados que alimenta mundos jogáveis sob demanda.
Para desenvolvedores no Brasil, o impacto direto ainda é pequeno (sem pin local, sem API pública), mas vale acompanhar. A combinação Street View + world model é o tipo de vantagem competitiva que só uma empresa com 18 anos coletando imagem panorâmica do mundo inteiro consegue oferecer. Quando isso virar API, vai redefinir como construímos qualquer produto que envolva espaço — de logística a realidade aumentada.
Para os assinantes Ultra que estão nos EUA: vale o teste. Para o resto de nós, é hora de estudar.
Perguntas frequentes
O que é o Genie 3 do Google DeepMind?
Genie 3 é o modelo de mundo (world model) do Google DeepMind, lançado em pré-visualização em agosto de 2025 e aberto ao público em maio de 2026. Diferente de geradores de vídeo como Veo e Sora, que produzem clipes lineares, o Genie 3 gera ambientes interativos em tempo real: você descreve uma cena, recebe os primeiros frames e segue navegando como em um videogame, com a IA gerando cada novo quadro a 24fps em 720p. É o primeiro produto comercial do Google a unir geração frame-a-frame, controle por input do usuário e ancoramento em imagens reais do Street View.
Quanto custa usar o Genie 3 com Street View?
O acesso à integração Genie 3 + Street View exige assinatura do plano Google AI Ultra, que custa US$ 200 por mês na data de publicação deste post. Além da assinatura, é necessário ter 18 anos ou mais e usar o experimento dentro do Google Labs em labs.google/projectgenie/. O Google ainda não disponibiliza API pública para integrar o Genie 3 em produtos próprios — quem quer construir SaaS em cima da tecnologia precisa esperar a abertura via Vertex AI, prevista para os próximos meses, sem data exata confirmada.
O Genie 3 com Street View funciona no Brasil?
Parcialmente. A geração de mundos via texto (sem âncora de mapa) já funciona globalmente, inclusive no Brasil, para quem tem assinatura Google AI Ultra ativa. O recurso de fixar um pin no Google Maps e gerar a simulação a partir daquela coordenada, porém, é restrito a endereços nos Estados Unidos no lançamento. O Google sinalizou que vai expandir geograficamente, e o Brasil tem cobertura razoável de Street View — por isso é provável que esteja entre os próximos países, mas não há data confirmada para essa expansão.
O Genie 3 substitui o Veo ou o Sora?
Não. Veo (Google) e Sora (OpenAI) são geradores de vídeo: produzem clipes lineares de alta resolução para você assistir. Genie 3 é world model: produz ambiente interativo para você andar dentro e controlar. Para um anúncio em vídeo, um curta cinematográfico ou uma demo de produto, Veo e Sora entregam mais qualidade visual — chegam a 1080p e maior duração estável. Para treinamento de agentes, prototipagem de jogos, simulação de robôs ou experiências imersivas controláveis, só o Genie 3 resolve. São produtos complementares, não concorrentes diretos.
Como a Waymo usa o Genie 3 para treinar robotaxis?
A Waymo, divisão de carros autônomos da Alphabet, usa o Genie 3 para gerar cenários raros que seriam impossíveis de coletar em rua: tornados em zona urbana, animais grandes na pista, tempestades de neve em cidades quentes e comportamentos atípicos de pedestres. Com o Street View no loop, o time pega uma esquina específica de Phoenix ou São Francisco e roda milhares de variantes climáticas e de tráfego sobre aquela geometria real. Importante: o Genie 3 não substitui simuladores físicos da Waymo — ele é usado em combinação com outros sistemas, já que o modelo ainda não entende colisão e gravidade.
Posts relacionados

ComfyUI no Google Colab: Gerar Imagens e Vídeos com IA
Como rodar ComfyUI no Google Colab para gerar imagens e vídeos com IA — sem GPU local, com Wan 2.2, Flux e SDXL.

Azure Linux 4: Microsoft Lança Distro Baseada em Fedora
Microsoft trocou o CBL-Mariner pelo Fedora como upstream do Azure Linux 4 e amplia o foco para VMs Azure. O que isso significa na prática.

GitHub Invadido: Extensão VS Code Vazou 3.800 Repositórios
O GitHub invadido em maio/2026 mostra como uma única extensão VS Code envenenada derruba fortalezas. Veja o ataque e como blindar seu time.