Publicado em 25 de maio de 2026 · 10 min

Genie 3 + Maps: IA Transforma Street View em Mundo Jogável

Genie 3 transforma 280 bi de imagens do Street View em mundos jogáveis sob demanda. Como funciona, limites e o uso no Waymo.

por Cleverson Gouvêa

Mapa do Google com pin sobre cidade dos EUA gerando ambiente 3D pelo Genie 3

O Genie 3 acaba de receber a integração que muda o que entendemos por mapa: o modelo de mundo do Google DeepMind agora consome o acervo de Street View do Google Maps para gerar simulações jogáveis ancoradas em endereços reais. Anunciada em 19 de maio de 2026, a função transforma 280 bilhões de imagens em ambientes navegáveis em tempo real — e levanta perguntas concretas sobre o futuro de treinamento de IA, jogos generativos e até robotaxis.

TL;DR

Genie 3 é o modelo de mundo do Google DeepMind: gera vídeo interativo em 720p a 24fps a partir de texto.

O Google conectou o Street View ao Genie via Maps Imagery Grounding: você fixa um pin no mapa e o modelo cria uma cena jogável daquele lugar.

Disponível para assinantes do Google AI Ultra (US$ 200/mês) com 18+ anos; o pin geográfico funciona apenas em locais nos EUA por enquanto.

A Waymo já usa o Genie 3 para treinar robotaxis em cenários raros — de nevascas a elefantes na pista.

Ainda há limites: o modelo não entende física, “esquece” após cerca de 1 minuto e o resultado parece game, não foto.

O que é o Genie 3 e por que ele importa

O Genie 3 é o que o DeepMind chama de world model — uma IA que não devolve uma frase nem uma imagem estática, mas um ambiente interativo, controlável quadro a quadro. Você descreve uma cena (texto) ou aponta um ponto do mapa (imagem) e o modelo gera os próximos frames em tempo real, reagindo aos seus inputs como em um videogame.

Anunciado originalmente em agosto de 2025 como pré-visualização de pesquisa, o Genie 3 chegou ao público geral só agora, em maio de 2026, com uma escolha estratégica: em vez de competir cabeça a cabeça com Sora ou Veo na geração de vídeos lineares, o Google posicionou o Genie como simulador. A diferença prática? Vídeo gerado por IA é cinema — você assiste. Um world model é parque temático — você anda dentro.

Para quem desenvolve, isso abre uma classe de produto inédita: ambientes infinitos, baratos e contextualizados a partir de um prompt. Eu venho acompanhando world models desde a versão 1 do Genie, e o salto de qualidade aqui é desproporcional. A versão 2 perdia coerência em 10 segundos. A 3 mantém a topologia por minutos.

Como o Genie 3 usa o Street View: passo a passo

O fluxo público é simples e roda dentro do Google Labs, na URL labs.google/projectgenie/. Os passos:

Você abre o experimento no Labs com uma conta Ultra ativa.
Solta um pin em um endereço dos EUA dentro do Google Maps embarcado.
Escolhe um estilo opcional (Desert Sands, Stone Age, Ocean World, B&W film etc.).
Descreve um personagem — pode ser herói de quadrinho, animal ou figura em claymation.
O Genie 3 carrega a imagem panorâmica do Street View daquele ponto, alinha a topologia e gera o primeiro frame da simulação. A partir dali, você caminha, olha em volta, muda clima.

Internamente, o pulo do gato é a tecnologia que o Google batizou de Maps Imagery Grounding. Em vez de “imaginar do zero” a geografia, o modelo recebe a imagem real como semente espacial. O Street View funciona como âncora — o resto vem do generativo.

Especificações técnicas: 720p, 24fps e o muro de um minuto

Olhando os números brutos divulgados pelo DeepMind:

Característica	Genie 2	Genie 3
Resolução	360p	720p
Frame rate	~12fps	24fps
Memória visual	~10s	~60s
Geração	Auto-regressiva por frame	Auto-regressiva por frame
Representação 3D	Implícita	Implícita (sem NeRF/Gaussian Splatting)
Interação	Limitada	Tempo real

A escolha de não usar NeRF ou Gaussian Splatting é deliberada. Esses métodos exigem reconstrução 3D explícita — caro, lento, dependente de varredura prévia. O Genie 3 gera tudo “frame a frame com base na descrição do mundo e nas ações”, como descreve o paper oficial. Isso troca consistência geométrica perfeita por flexibilidade radical: qualquer prompt vira mundo.

O muro de um minuto é a limitação que mais incomoda. Depois de cerca de 60 segundos andando, o modelo começa a esquecer o que estava atrás de você. Se você girar 360°, há boa chance da paisagem ter mudado. Para jogos curtos e demonstrações, funciona. Para uma sessão de RPG de duas horas, ainda não.

Maps Imagery Grounding: o coração da integração

O grande feito técnico não é renderizar bem o ponto inicial — Street View já faz isso há 18 anos. É manter a coerência espacial conforme você se afasta. Jonathan Herbert, diretor do Google Maps, foi direto ao explicar isso ao TechCrunch: o avanço não é “reconstrução fiel”, e sim “continuidade espacial”. O Genie 3 lembra a vizinhança em 360° e constrói as próximas ruas a partir dessa base.

O acervo é colossal:

280 bilhões de imagens capturadas
110 países cobertos
7 continentes mapeados
Quase 20 anos de coleta cumulativa

Para o Genie, esse arquivo é um conjunto de dados de treinamento que nenhum concorrente tem como replicar — nem a Meta, nem a OpenAI, nem a xAI. É a primeira vez, na prática, que “o Google ter o Street View” virou vantagem direta em IA generativa, não só em busca local.

Por que isso muda o jogo para a Waymo

A integração Genie 3 + Street View já tem um cliente interno consumindo: a Waymo, divisão de robotaxis da Alphabet. O time da Waymo usa o Genie 3 para gerar cenários raros que seriam custosos ou impossíveis de filmar na rua:

Tornados em zona urbana
Animais grandes atravessando a pista (elefantes, em um exemplo citado pelo TechCrunch)
Tempestades de neve em cidades onde nunca neva
Comportamento errático de pedestres em condições atípicas

A lógica é simples: um sistema de direção autônoma só fica seguro se for testado em edge cases. E edge case, por definição, é raro — coletar dados reais leva décadas. Treinar em mundo simulado por IA acelera isso para semanas. Com o Street View no loop, a Waymo pega uma esquina específica de Phoenix ou São Francisco e roda mil variantes de “e se chovesse granizo agora?” sobre aquela geometria real.

Isso também tem implicações fortes para o time da Voyia, plataforma de gestão escolar que mantemos aqui na Agathas: o mesmo princípio — treinar agentes em ambiente simulado antes de soltá-los em produção — vale para qualquer IA que precise lidar com cenários raros. Você pode ler como pensamos infraestrutura de tecnologia aplicada ao Moodle no aplicativo personalizado — a régua de “validar em ambiente controlado antes” é a mesma.

Aplicações práticas: jogos, treinamento e educação

Para além do hype, as aplicações concretas que vão chegar antes ao mercado são:

Jogos generativos: cenários sob demanda em vez de level design manual
Treinamento de agentes: IA aprendendo política em mundos novos a cada episódio
Educação imersiva: walkthroughs históricos (caminhar pela Roma Antiga partindo do mapa atual)
Prévia turística: visualização do destino no estilo da cidade
Robótica simulada: braços e drones treinando em variedade de cenários
Cinema e VFX: pré-visualização de cenas geradas a partir de locações reais

O caso mais imediato é o dos estúdios indie de jogos. Hoje, criar um open world exige um time de level designers. Com Genie 3, um designer solo prototipa em um dia. Não substitui produção AAA, mas elimina barreira de entrada para experimentação.

Para quem trabalha com tráfego pago e produto, há outra janela: ads interativos. Imagine um anúncio em que o usuário “caminha” pela vitrine virtual da sua loja em vez de ver um carrossel estático. Não é cá pra mim, mas o caminho está aberto — vale acompanhar de perto, especialmente se você toca ofertas locais como discutimos no post sobre WhatsApp empresarial e API Oficial.

Limites atuais: física, alucinações e photorealism

Vale colocar a barba no molho. As limitações que o próprio DeepMind admite:

Física inexistente: em uma demo, uma mulher correndo no Joshua Tree passa direto por cactos e arbustos. Não há colisão.
Textos quebrados: placas, letreiros e qualquer coisa escrita renderiza como rabisco.
Alucinação geográfica: a esquina é reconhecível, mas detalhes ao redor migram conforme você se move.
Multi-agente limitado: dois personagens controlados ao mesmo tempo ainda não funcionam bem.
Photorealism: o resultado parece game, não filme. Jack Parker-Holder, pesquisador da DeepMind, estima que o gap para qualidade de vídeo (Veo, Sora) é de “seis a 12 meses”.

Para casos como simulação de robotaxi, a falta de física é grave. Treinar um carro a respeitar pedestres em um mundo onde pedestres atravessam paredes pode introduzir vieses perigosos. A Waymo, claro, usa o Genie em combinação com outros simuladores físicos — não como única fonte de verdade.

Como acessar o Genie 3 com Street View

O pacote completo exige três condições:

Assinatura Google AI Ultra ativa (US$ 200/mês na data deste post)
18 anos ou mais (verificação pela conta Google)
Acesso ao Google Labs em labs.google/projectgenie/

A funcionalidade global de geração via texto já está liberada. O pin no mapa funciona só nos EUA — o Google sinalizou expansão, sem data confirmada para Brasil. Quem está fora dos EUA pode usar o Genie 3 sem o ancoramento de Street View, gerando mundos puramente prompt-driven.

Importante: o Labs é uma vitrine experimental. APIs públicas para integrar o Genie 3 em produtos próprios ainda não existem. Quem quer construir SaaS em cima disso precisa esperar — provavelmente via Vertex AI nos próximos meses.

Genie 3 vs. concorrentes: Veo, Sora e GameNGen

Modelo	Tipo	Interativo?	Resolução	Duração estável
Genie 3 (DeepMind)	World model	Sim, real-time	720p @ 24fps	~1 min
Veo 3 (Google)	Geração de vídeo	Não	1080p	Até 60s lineares
Sora (OpenAI)	Geração de vídeo	Não	1080p	Até 20s lineares
GameNGen (Google)	Simulação de jogo	Sim (apenas Doom)	720p	Indefinido (jogo fechado)

O Genie 3 é o único da lista que combina três coisas: interatividade em tempo real, mundo aberto e base em dados reais via Street View. Veo e Sora geram clipes mais bonitos, mas não respondem a input. GameNGen interage, mas só dentro de um jogo treinado especificamente.

É comum confundir o Genie com o Veo. A regra que uso: se você vai assistir, é Veo (ou Sora). Se você vai andar dentro, é Genie.

O que esperar dos próximos 12 meses

Olhando o roadmap implícito nos comunicados oficiais:

Expansão geográfica do pin de Street View para fora dos EUA — Brasil deve entrar pelo seu Street View já mapeado.
Melhora de física — colisão e gravidade são prioridade declarada.
API/Vertex AI — abertura para devs construírem produtos.
Memória estendida — passar do muro de 1 minuto para horas.
Multi-agente — múltiplos personagens controlados simultaneamente.

Se eu fosse apostar onde isso quebra primeiro em larga escala, diria simulação automotiva. Não pela Waymo só — toda fabricante que vende sistema ADAS vai querer simulação infinita. Volkswagen, BYD, Stellantis. O custo de treinamento em pista real é tão alto que qualquer ganho de 10x em iteração paga o licenciamento.

Em segundo lugar, jogos generativos. Não para substituir AAA, mas para um novo nicho de experiências curtas tipo “TikTok jogável” — caminhar pelo bairro do seu personagem favorito em estilo claymation, por exemplo.

Conclusão: do mapa estático ao mundo dinâmico

Por quase duas décadas o Street View foi um produto de referência — você consultava para saber como era um lugar. Com Genie 3, ele vira matéria-prima de simulação: um banco de dados que alimenta mundos jogáveis sob demanda.

Para desenvolvedores no Brasil, o impacto direto ainda é pequeno (sem pin local, sem API pública), mas vale acompanhar. A combinação Street View + world model é o tipo de vantagem competitiva que só uma empresa com 18 anos coletando imagem panorâmica do mundo inteiro consegue oferecer. Quando isso virar API, vai redefinir como construímos qualquer produto que envolva espaço — de logística a realidade aumentada.

Para os assinantes Ultra que estão nos EUA: vale o teste. Para o resto de nós, é hora de estudar.

Perguntas frequentes

O que é o Genie 3 do Google DeepMind?

Genie 3 é o modelo de mundo (world model) do Google DeepMind, lançado em pré-visualização em agosto de 2025 e aberto ao público em maio de 2026. Diferente de geradores de vídeo como Veo e Sora, que produzem clipes lineares, o Genie 3 gera ambientes interativos em tempo real: você descreve uma cena, recebe os primeiros frames e segue navegando como em um videogame, com a IA gerando cada novo quadro a 24fps em 720p. É o primeiro produto comercial do Google a unir geração frame-a-frame, controle por input do usuário e ancoramento em imagens reais do Street View.

Quanto custa usar o Genie 3 com Street View?

O acesso à integração Genie 3 + Street View exige assinatura do plano Google AI Ultra, que custa US$ 200 por mês na data de publicação deste post. Além da assinatura, é necessário ter 18 anos ou mais e usar o experimento dentro do Google Labs em labs.google/projectgenie/. O Google ainda não disponibiliza API pública para integrar o Genie 3 em produtos próprios — quem quer construir SaaS em cima da tecnologia precisa esperar a abertura via Vertex AI, prevista para os próximos meses, sem data exata confirmada.

O Genie 3 com Street View funciona no Brasil?

Parcialmente. A geração de mundos via texto (sem âncora de mapa) já funciona globalmente, inclusive no Brasil, para quem tem assinatura Google AI Ultra ativa. O recurso de fixar um pin no Google Maps e gerar a simulação a partir daquela coordenada, porém, é restrito a endereços nos Estados Unidos no lançamento. O Google sinalizou que vai expandir geograficamente, e o Brasil tem cobertura razoável de Street View — por isso é provável que esteja entre os próximos países, mas não há data confirmada para essa expansão.

O Genie 3 substitui o Veo ou o Sora?

Não. Veo (Google) e Sora (OpenAI) são geradores de vídeo: produzem clipes lineares de alta resolução para você assistir. Genie 3 é world model: produz ambiente interativo para você andar dentro e controlar. Para um anúncio em vídeo, um curta cinematográfico ou uma demo de produto, Veo e Sora entregam mais qualidade visual — chegam a 1080p e maior duração estável. Para treinamento de agentes, prototipagem de jogos, simulação de robôs ou experiências imersivas controláveis, só o Genie 3 resolve. São produtos complementares, não concorrentes diretos.

Como a Waymo usa o Genie 3 para treinar robotaxis?

A Waymo, divisão de carros autônomos da Alphabet, usa o Genie 3 para gerar cenários raros que seriam impossíveis de coletar em rua: tornados em zona urbana, animais grandes na pista, tempestades de neve em cidades quentes e comportamentos atípicos de pedestres. Com o Street View no loop, o time pega uma esquina específica de Phoenix ou São Francisco e roda milhares de variantes climáticas e de tráfego sobre aquela geometria real. Importante: o Genie 3 não substitui simuladores físicos da Waymo — ele é usado em combinação com outros sistemas, já que o modelo ainda não entende colisão e gravidade.

#genie-3 #google-deepmind #google-maps #inteligencia-artificial #street-view #waymo #world-model

Sobre o autor

Cleverson Gouvêa

Cleverson Gouvêa é desenvolvedor Full Stack, especialista em soluções digitais e CTO do IEJUR – Instituto de Estudos Jurídicos, com sede em Goiânia (GO). Com mais de 15 anos de experiência no mercado digital, fundou em 2008 a Agathas Web, empresa dedicada ao desenvolvimento de soluções inteligentes para clientes no Brasil e no exterior. Ao longo da carreira, consolidou expertise em tecnologias como PHP, Laravel, Moodle e WordPress, além de atuar com infraestrutura em servidores Linux, ambientes em nuvem e otimização de performance com Redis. É certificado em Moodle e reconhecido como Cloud Expert, tendo gerenciado ambientes críticos de ensino a distância para instituições educacionais. Apaixonado por inovação, está em constante evolução tecnológica, ampliando seu repertório com Node.js, Next.js e as mais modernas stacks do desenvolvimento web. Também é especialista em gestão de tráfego pago e tecnologias mobile reativas, entregando soluções completas e integradas aos seus clientes. Sua atuação vai além do código: une visão estratégica, liderança técnica e um olhar de negócio para transformar desafios digitais em resultados reais.

Ver todos

Posts relacionados

Cloud de IA em 2026: O Guia Para Empresas Brasileiras

Enquanto gigantes despejam trilhões em data centers, veja como sua empresa usa cloud de IA sem construir infraestrutura nenhuma — de forma prática.

IA para Criar Slides: Guia para Empresas em 2026

Um deck inteiro em poucos prompts virou rotina. Veja as ferramentas que valem o clique e como aplicar IA sem cair no conteúdo genérico.

Inteligência Artificial Luzia: Spilo Chega ao WhatsApp

A Luzia lançou o Spilo, um "segundo cérebro" no WhatsApp. Entenda o recado por trás e o que negócios brasileiros têm a ganhar com isso.