GLM-5.2: a China cruzou a fronteira da IA (custo importa)

>

GLM-5.2: a China cruzou a fronteira e o alvo não é a inteligência, é o seu custo

GLM-5.2: a China cruzou a fronteira e o alvo não é a inteligência, é o seu custo

GLM-5.2: a China cruzou a fronteira e o alvo não é a inteligência, é o seu custo

A China cruzou a fronteira da IA com o GLM-5.2. Mas o golpe estratégico não é a inteligência, é o custo. Por que 80% dos seus workflows não precisam mais de modelo caro, e a decisão que o seu CFO precisa tomar em 90 dias.

A China cruzou a fronteira da IA com o GLM-5.2. Mas o golpe estratégico não é a inteligência, é o custo. Por que 80% dos seus workflows não precisam mais de modelo caro, e a decisão que o seu CFO precisa tomar em 90 dias.

A China lançou o GLM-5.2, seu 1º modelo de fronteira de verdade. Entenda por que o custo — não a inteligência — vai definir seu orçamento de IA.

Imagine que você é o CFO de uma empresa brasileira que colocou IA em produção há seis meses. No dia 1º de junho, você abre a fatura e o número está até 100 vezes maior que o do mês anterior. Mesmo produto. Mesmo uso. Conta nova.

Isso não é hipótese. Foi exatamente o que aconteceu com clientes da Microsoft depois do reajuste de preços do Copilot.

Passei o fim de semana mergulhado em benchmarks, papers de arquitetura e relatórios de custo. Você não precisa.

A China não está "um ano atrás". E também não "alcançou" os Estados Unidos. As duas narrativas estão erradas — e a verdade é muito pior para quem vende token caro.

Nas próximas linhas: o que a Zhipu realmente entregou com o GLM-5.2, por que o custo passou a importar mais que a inteligência, e a única decisão que o seu time precisa tomar nos próximos 90 dias.


AI Weekly em 30 segundos

  • A China lançou o GLM-5.2, o primeiro modelo chinês competitivo em performance bruta — não só em custo. Em vários benchmarks, supera o GPT-5.5.

  • "A China está atrás" está errado. "A China alcançou os EUA" também. A verdade é que a China domina a fronteira de Pareto: o melhor custo-benefício do mercado.

  • Por tarefa, segundo a Artificial Analysis: DeepSeek V4 custa US$ 0,06. GPT-5.5 (raciocínio alto), US$ 0,99. Claude Opus 4.8, US$ 1,78. O Fable 5 lidera em performance e custa 54 vezes mais que o DeepSeek.

  • A Microsoft, dona da maior parte da OpenAI, está avaliando rodar DeepSeek no Copilot para cortar custo. Esse é o sinal.

  • O abismo de custo não é arquitetura. É capital: cerca de US$ 50 bilhões por gigawatt de data center — e subindo.

  • Em poucos anos, 80% dos tokens do mundo serão commodity. Hoje, isso significa 80% vindos de modelos chineses.

  • Para o executivo: workflows corporativos pedem profundidade, não amplitude. Você não precisa do modelo mais inteligente. Precisa do mais barato que resolve.


O que é um modelo de fronteira

(e por que essa palavra agora pesa)

Um modelo de fronteira é um modelo de IA que opera no limite da capacidade técnica disponível — o estado da arte em raciocínio, código e tarefas complexas. Importa porque, até esta semana, "fronteira" era sinônimo de "americano". O GLM-5.2 quebrou essa associação.

A Zhipu, um dos principais laboratórios da China, entregou o primeiro modelo chinês que compete em performance bruta — não em inteligência-por-custo, em performance pura. Ele supera tudo que o Google já lançou em LLMs nos benchmarks, e bate o GPT-5.5 em vários deles.

Modelos anteriores prometiam. O DeepSeek v4 chegou perto. Mas estavam, sem rodeios, atrás.

Agora não mais.

Só que aqui mora a primeira armadilha narrativa. O GLM-5.2 é excelente em domínios específicos — código, sobretudo. Em tarefas que exigem lidar com informação genuinamente nova, o buraco continua. No FutureSim, um benchmark que mede a capacidade de prever eventos posteriores ao treino usando notícias reais, a distância entre modelos fechados americanos e modelos abertos chineses ainda é gigantesca.

Tradução: a China alcançou a excelência em fatias de alto valor, mas tem deficiências claras de generalização.

"A China alcançou os EUA"? Não. "A China está atrás"? Também não. A China otimizou para o que o mercado realmente compra.


Atenção esparsa:


como cortar custo sem cortar qualidade

Aqui está a parte técnica que define o seu orçamento.

Quase todo LLM funciona igual: recebe uma sequência de palavras e prevê a próxima. Para isso, cada palavra "olha para trás" e presta atenção nas anteriores buscando atributos úteis. Em "o copo verde", a palavra copo presta atenção em verde para herdar a "verdura".

A pergunta de um bilhão de dólares: toda palavra precisa prestar atenção em todas as anteriores?

Na frase "o copo, ãhn, ééé, hmm, ah sim, verde, estava…", o copo precisa mesmo atender ao "ãhn" e ao "ééé"? Ou basta focar no "verde"?

Atenção densa, o que os modelos americanos majoritariamente fazem: cada palavra atende a todas, sem distinção. Garante que nenhuma relação se perca — ao custo de uma quantidade brutal de computação.

Atenção esparsa, o caminho chinês: um indexador pré-seleciona bons candidatos e impõe um teto. Se o limite é 20 palavras e você tem 1.000 anteriores, só 20 são atendidas. O custo da atenção para de crescer com o tamanho do texto, com uma perda mínima de qualidade.

O GLM-5.2 adiciona uma camada extra chamada IndexShare. Enquanto o DeepSeek roda o indexador em toda camada do modelo, o GLM-5.2 roda só a cada algumas camadas. Em sequências longas, isso corta o custo computacional em quase 3x.

Engenhoso. Mas guarde este ponto, porque ele desmonta o mito mais conveniente do Vale do Silício: atenção esparsa não é segredo nem genialidade exclusiva da China. Qualquer pesquisador competente reconhece o tradeoff como ótimo. O motivo real do abismo de custo é outro — e a gente chega lá.


Inteligência por custo:


o número que o seu CFO precisa ver

Inteligência por custo é quanta capacidade útil um modelo entrega por real gasto — e não a sua capacidade máxima isolada. Importa porque a maioria dos workflows corporativos não precisa do modelo mais inteligente do planeta. Precisa do mais barato que resolve a tarefa com qualidade suficiente.

A Artificial Analysis atualizou seu Intelligence Index para a versão 4.1 e passou a medir não só a qualidade do modelo, mas o custo por tarefa. O resultado é constrangedor.

Modelo

Índice de Inteligência

Custo por tarefa

Leitura honesta

DeepSeek V4 Pro Max

44

~US$ 0,06

o piso de custo do mercado

GPT-5.5 (raciocínio alto)

US$ 0,99

~16x o DeepSeek

Claude Opus 4.8 (máx)

US$ 1,78

~30x o DeepSeek

Fable 5

60 (topo do índice)

54x o DeepSeek por tarefa

Dados: Artificial Analysis, Intelligence Index v4.1.

O Fable 5 lidera em performance. Maravilha. Mas a pergunta de negócio não é "ele é o melhor?". É: ele é 54 vezes melhor na tarefa média?

Não é.

Ninguém leva uma Ferrari para arar a roça quando uma Hilux faz o serviço melhor, mais barato e sem drama. Para empresas que rodam IA em escala no Brasil — pensa em Nubank, iFood, Stone, Mercado Livre —, uma diferença de 54x não é uma linha de custo. É a diferença entre uma margem saudável e uma margem que evapora.

E essa é a tese que a maioria em San Francisco se recusa a entender: workflows corporativos são feitos para profundidade, não amplitude. Eles desejam modelos especializados e não dão a mínima se o modelo é bom em tarefas fora do escopo.

Generalização é o que empurra a fronteira. Não é o que dirige a adoção corporativa.

Em poucos anos, tokens commodity serão pelo menos 80% de tudo que o mundo gera. E hoje, isso significa 80% dos tokens do planeta saindo de modelos chineses.


A Microsoft está olhando para o DeepSeek


Esse é o sinal.

Se você ainda achava isso teórico, eis o golpe.

A Microsoft está avaliando seriamente usar o DeepSeek v4 Flash como um dos modelos por baixo do Copilot, para derrubar custo de operação e oferecer um preço mais competitivo — justo depois do reajuste de 1º de junho que multiplicou faturas por até 100x.

Pare e absorva o tamanho disso.

A Microsoft, que basicamente é dona da OpenAI e tem acesso à sua propriedade intelectual, está considerando rodar um modelo chinês porque os modelos americanos ficaram caros demais para servir.

E o GLM-5.2, o protagonista desta edição, marca 11 pontos a mais que o GPT-5.4 mini (em raciocínio alto) no índice da Artificial Analysis — custando menos por tarefa.

Isso não é "a China alcançando". Isso é derrota estratégica no mercado de tokens commodity.


Por que os EUA não conseguem competir no preço


(e não é a arquitetura)

Aqui está a verdade que poucos dizem em voz alta.

Modelos chineses não são mais baratos porque a arquitetura é mais frugal ou porque pesquisadores chineses carregam o mandato do céu. Atenção esparsa, lembra, qualquer um implementa.

O motivo é mais simples e mais cruel: custo de capital.

Quando a Anthropic te serve um token, ela não está pagando só o custo operacional de gerar aquele token. Está pagando o custo de ter construído o data center antes. E esse é o número que dói: algo entre US$ 50 e US$ 100 bilhões por gigawatt — e que, em vez de cair, está subindo. Para dimensionar a insanidade: a Meta vai gastar mais em IA neste ano do que o Estado alemão gasta em defesa.

É software altamente comoditizado rodando sobre hardware não-comoditizado e caríssimo. Esse é o gargalo. Não é código.

E tem um agravante que mata qualquer estratégia de "vamos só proibir o modelo": computação em tempo de inferência ainda escala.

A Vals.ai rodou um teste delicioso. O Fable 5 caiu de volta para o Opus 4.8 em 199 de 200 tarefas — ou seja, era essencialmente o Opus respondendo. Mesmo assim, o resultado teve o dobro da nota de rodar o Opus 4.8 diretamente. E o dobro do custo, porque gerou o dobro de tokens. Dobrou o pensamento, dobrou a performance.

Noam Brown, líder de raciocínio da OpenAI, resume o fenômeno: à medida que os modelos ficam mais capazes, a performance em benchmark vira cada vez mais uma função de quanto poder de computação você joga no problema.

A implicação é demolidora para a política americana atual. Banir um modelo específico é inútil, porque um modelo pior com mais computação chega na mesma performance. O gênio saiu da garrafa. Se você realmente quisesse frear o progresso, teria que ir atrás da computação — não dos modelos.

A leitura cínica do mercado é que a cruzada por banir modelos é captura regulatória disfarçada de segurança: modelos chineses comoditizam o negócio dos grandes laboratórios, e tirá-los do caminho protege margem. Há uma defesa legítima do outro lado — risco real de cibersegurança e uso indevido —, e vale notar que a própria Anthropic argumentou que o GPT-5.5, amplamente disponível, já oferece risco comparável ao do Mythos. O que, ironicamente, enfraquece o argumento de que esses modelos são perigosos demais para existir.

Você decide de que lado da mesa senta. Mas a conclusão estratégica é a mesma: a vantagem dos EUA é uma vantagem de computação. Em vez de exportar proibição, deveriam derrubar o custo de capital de quem implanta IA. É exatamente nisso que a China ganha — em colocar a máquina rodando a um custo melhor.


Outros sinais da semana

SpaceX compra a Anysphere (Cursor) por US$ 60 bilhões. Fechamento previsto para o terceiro trimestre, com o Cursor a US$ 2 bilhões de ARR — cerca de 30x receita. No anúncio, o CEO soltou uma revelação curiosa: tanto o Opus quanto o GPT teriam por volta de 1,5 trilhão de parâmetros. Mais enxuto do que muita gente imaginava.

O Google lançou o Open Knowledge Format (OKF). Um padrão para representar conhecimento corporativo em arquivos markdown que humanos, ferramentas de dados e agentes de IA conseguem ler. Não substitui banco, schema ou API — documenta o que tudo isso significa. Como o próprio Google resume: a IA é tão inteligente quanto o contexto que você entrega a ela. É engenharia de contexto virando padrão de mercado.

A EpochAI testou se o Mythos é hype. Conclusão dividida: o modelo é um avanço real em desenvolvimento de exploits (cerca de 7 meses à frente da tendência), mas a evidência de que ele encontra vulnerabilidades novas é fraca. Mozilla e Palo Alto elogiaram; o mantenedor do curl não viu nada além do que ferramentas antigas já entregam.

O DeepSeek pode entrar na Entity List dos EUA. Segundo a Reuters, o governo americano segurou a inclusão do DeepSeek, da CXMT e de mais de 100 empresas, em meio a tensões com Pequim. É o maior intervalo sem novas adições em mais de uma década. Banir um modelo aberto exigiria tratar arquivos digitais como contrabando — basicamente proibir um arquivo cheio de multiplicações de matrizes.


Perguntas que você vai receber na próxima reunião

O que é o GLM-5.2? É o novo modelo da Zhipu, laboratório chinês. É o primeiro modelo da China competitivo em performance bruta com os melhores modelos americanos, usando atenção esparsa e uma técnica de economia de computação chamada IndexShare. Em vários benchmarks, supera o GPT-5.5.

A China alcançou os EUA em inteligência artificial? Não, e nem ficou para trás. A China alcançou excelência em domínios específicos de alto valor (como código) e domina o custo-benefício, mas ainda fica atrás em generalização e em lidar com informação genuinamente nova. As duas narrativas extremas estão erradas.

Por que os modelos de IA chineses são tão mais baratos? Em parte por arquiteturas como a atenção esparsa, mas principalmente por custo de capital. Laboratórios americanos pagam entre US$ 50 e US$ 100 bilhões por gigawatt de data center, e esse custo está embutido em cada token servido. A diferença de arquitetura é o fator menor.

Vale a pena usar modelos chineses em produção no Brasil? Para os cerca de 80% dos workflows que exigem profundidade e não amplitude, sim — é a melhor relação inteligência-por-custo disponível. Reserve os modelos de fronteira para os 20% de tarefas que realmente precisam deles. Avalie sempre as exigências de compliance e LGPD da sua operação.

É seguro e legal usar o DeepSeek? A maioria das empresas acessa esses modelos via provedores hospedados nos EUA, como a Fireworks ou os hyperscalers, sem contrato direto com o DeepSeek. A situação da Entity List americana está em evolução. Não é aconselhamento jurídico — leve a decisão final para o seu time de jurídico e compliance.

O que é atenção esparsa? É um mecanismo em que cada palavra do texto presta atenção apenas a um subconjunto pré-selecionado de palavras anteriores, escolhido por um indexador. Isso mantém o custo de computação quase constante mesmo quando o texto cresce, com uma perda pequena de qualidade.

Modelos de fronteira como o Fable 5 ou o Claude Opus 4.8 ainda valem a pena? Sim, para as tarefas mais difíceis, onde o prêmio de custo compra uma capacidade que nenhum modelo commodity tem. Mas isso é uma fatia pequena da demanda total. O erro caro é mandar tudo para a fronteira por padrão.


A única decisão que importa nos próximos 90 dias

Nos próximos seis meses, tokens commodity vão dominar o volume. Em um a três anos, o abismo de custo não terá fechado — porque ele é de capital, não de código.

Duas opções:

Opção 1: Mandar tudo para o modelo de fronteira por padrão, pagar 54x e assistir a linha de IA devorar a sua margem enquanto o concorrente roda mais barato.

Opção 2: Montar um portfólio de modelos. Modelos chineses e commodity para os 80% de tarefas que pedem profundidade. Modelos de fronteira para os 20% que realmente exigem.

Se você escolheu a segunda, comece por aqui:

  1. Mapeie suas tarefas de IA. Separe as que exigem inteligência de fronteira das que não exigem. Provavelmente 80% não exigem.

  2. Faça uma análise de custo por tarefa, não uma comparação de benchmark. Benchmark é vaidade. Custo por tarefa é o seu P&L.

  3. Teste um modelo commodity no seu workflow de maior volume. Acesse via provedores hospedados nos EUA para contornar a questão regulatória enquanto ela se resolve.

  4. Construa roteamento. Modelo barato por padrão, escalando para a fronteira só nas tarefas sinalizadas. Essa é a essência da inteligência híbrida: a máquina certa para o trabalho certo, ao custo certo.

  5. Acompanhe o debate de computação e regulação — mas não aposte seu roadmap em uma proibição. O gênio já saiu da garrafa.

A pergunta não é se o modelo chinês é tão bom quanto o de fronteira.

A pergunta é por que você ainda está pagando 54 vezes mais para arar a roça.

Fontes desta edição: Artificial Analysis (Intelligence Index v4.1), EpochAI, Vals.ai, Reuters, Mark Gurman (Bloomberg), NVIDIA, Google e a análise de Ignacio de Gregorio (TheWhiteBox).

Imagine que você é o CFO de uma empresa brasileira que colocou IA em produção há seis meses. No dia 1º de junho, você abre a fatura e o número está até 100 vezes maior que o do mês anterior. Mesmo produto. Mesmo uso. Conta nova.

Isso não é hipótese. Foi exatamente o que aconteceu com clientes da Microsoft depois do reajuste de preços do Copilot.

Passei o fim de semana mergulhado em benchmarks, papers de arquitetura e relatórios de custo. Você não precisa.

A China não está "um ano atrás". E também não "alcançou" os Estados Unidos. As duas narrativas estão erradas — e a verdade é muito pior para quem vende token caro.

Nas próximas linhas: o que a Zhipu realmente entregou com o GLM-5.2, por que o custo passou a importar mais que a inteligência, e a única decisão que o seu time precisa tomar nos próximos 90 dias.


AI Weekly em 30 segundos

  • A China lançou o GLM-5.2, o primeiro modelo chinês competitivo em performance bruta — não só em custo. Em vários benchmarks, supera o GPT-5.5.

  • "A China está atrás" está errado. "A China alcançou os EUA" também. A verdade é que a China domina a fronteira de Pareto: o melhor custo-benefício do mercado.

  • Por tarefa, segundo a Artificial Analysis: DeepSeek V4 custa US$ 0,06. GPT-5.5 (raciocínio alto), US$ 0,99. Claude Opus 4.8, US$ 1,78. O Fable 5 lidera em performance e custa 54 vezes mais que o DeepSeek.

  • A Microsoft, dona da maior parte da OpenAI, está avaliando rodar DeepSeek no Copilot para cortar custo. Esse é o sinal.

  • O abismo de custo não é arquitetura. É capital: cerca de US$ 50 bilhões por gigawatt de data center — e subindo.

  • Em poucos anos, 80% dos tokens do mundo serão commodity. Hoje, isso significa 80% vindos de modelos chineses.

  • Para o executivo: workflows corporativos pedem profundidade, não amplitude. Você não precisa do modelo mais inteligente. Precisa do mais barato que resolve.


O que é um modelo de fronteira

(e por que essa palavra agora pesa)

Um modelo de fronteira é um modelo de IA que opera no limite da capacidade técnica disponível — o estado da arte em raciocínio, código e tarefas complexas. Importa porque, até esta semana, "fronteira" era sinônimo de "americano". O GLM-5.2 quebrou essa associação.

A Zhipu, um dos principais laboratórios da China, entregou o primeiro modelo chinês que compete em performance bruta — não em inteligência-por-custo, em performance pura. Ele supera tudo que o Google já lançou em LLMs nos benchmarks, e bate o GPT-5.5 em vários deles.

Modelos anteriores prometiam. O DeepSeek v4 chegou perto. Mas estavam, sem rodeios, atrás.

Agora não mais.

Só que aqui mora a primeira armadilha narrativa. O GLM-5.2 é excelente em domínios específicos — código, sobretudo. Em tarefas que exigem lidar com informação genuinamente nova, o buraco continua. No FutureSim, um benchmark que mede a capacidade de prever eventos posteriores ao treino usando notícias reais, a distância entre modelos fechados americanos e modelos abertos chineses ainda é gigantesca.

Tradução: a China alcançou a excelência em fatias de alto valor, mas tem deficiências claras de generalização.

"A China alcançou os EUA"? Não. "A China está atrás"? Também não. A China otimizou para o que o mercado realmente compra.


Atenção esparsa:


como cortar custo sem cortar qualidade

Aqui está a parte técnica que define o seu orçamento.

Quase todo LLM funciona igual: recebe uma sequência de palavras e prevê a próxima. Para isso, cada palavra "olha para trás" e presta atenção nas anteriores buscando atributos úteis. Em "o copo verde", a palavra copo presta atenção em verde para herdar a "verdura".

A pergunta de um bilhão de dólares: toda palavra precisa prestar atenção em todas as anteriores?

Na frase "o copo, ãhn, ééé, hmm, ah sim, verde, estava…", o copo precisa mesmo atender ao "ãhn" e ao "ééé"? Ou basta focar no "verde"?

Atenção densa, o que os modelos americanos majoritariamente fazem: cada palavra atende a todas, sem distinção. Garante que nenhuma relação se perca — ao custo de uma quantidade brutal de computação.

Atenção esparsa, o caminho chinês: um indexador pré-seleciona bons candidatos e impõe um teto. Se o limite é 20 palavras e você tem 1.000 anteriores, só 20 são atendidas. O custo da atenção para de crescer com o tamanho do texto, com uma perda mínima de qualidade.

O GLM-5.2 adiciona uma camada extra chamada IndexShare. Enquanto o DeepSeek roda o indexador em toda camada do modelo, o GLM-5.2 roda só a cada algumas camadas. Em sequências longas, isso corta o custo computacional em quase 3x.

Engenhoso. Mas guarde este ponto, porque ele desmonta o mito mais conveniente do Vale do Silício: atenção esparsa não é segredo nem genialidade exclusiva da China. Qualquer pesquisador competente reconhece o tradeoff como ótimo. O motivo real do abismo de custo é outro — e a gente chega lá.


Inteligência por custo:


o número que o seu CFO precisa ver

Inteligência por custo é quanta capacidade útil um modelo entrega por real gasto — e não a sua capacidade máxima isolada. Importa porque a maioria dos workflows corporativos não precisa do modelo mais inteligente do planeta. Precisa do mais barato que resolve a tarefa com qualidade suficiente.

A Artificial Analysis atualizou seu Intelligence Index para a versão 4.1 e passou a medir não só a qualidade do modelo, mas o custo por tarefa. O resultado é constrangedor.

Modelo

Índice de Inteligência

Custo por tarefa

Leitura honesta

DeepSeek V4 Pro Max

44

~US$ 0,06

o piso de custo do mercado

GPT-5.5 (raciocínio alto)

US$ 0,99

~16x o DeepSeek

Claude Opus 4.8 (máx)

US$ 1,78

~30x o DeepSeek

Fable 5

60 (topo do índice)

54x o DeepSeek por tarefa

Dados: Artificial Analysis, Intelligence Index v4.1.

O Fable 5 lidera em performance. Maravilha. Mas a pergunta de negócio não é "ele é o melhor?". É: ele é 54 vezes melhor na tarefa média?

Não é.

Ninguém leva uma Ferrari para arar a roça quando uma Hilux faz o serviço melhor, mais barato e sem drama. Para empresas que rodam IA em escala no Brasil — pensa em Nubank, iFood, Stone, Mercado Livre —, uma diferença de 54x não é uma linha de custo. É a diferença entre uma margem saudável e uma margem que evapora.

E essa é a tese que a maioria em San Francisco se recusa a entender: workflows corporativos são feitos para profundidade, não amplitude. Eles desejam modelos especializados e não dão a mínima se o modelo é bom em tarefas fora do escopo.

Generalização é o que empurra a fronteira. Não é o que dirige a adoção corporativa.

Em poucos anos, tokens commodity serão pelo menos 80% de tudo que o mundo gera. E hoje, isso significa 80% dos tokens do planeta saindo de modelos chineses.


A Microsoft está olhando para o DeepSeek


Esse é o sinal.

Se você ainda achava isso teórico, eis o golpe.

A Microsoft está avaliando seriamente usar o DeepSeek v4 Flash como um dos modelos por baixo do Copilot, para derrubar custo de operação e oferecer um preço mais competitivo — justo depois do reajuste de 1º de junho que multiplicou faturas por até 100x.

Pare e absorva o tamanho disso.

A Microsoft, que basicamente é dona da OpenAI e tem acesso à sua propriedade intelectual, está considerando rodar um modelo chinês porque os modelos americanos ficaram caros demais para servir.

E o GLM-5.2, o protagonista desta edição, marca 11 pontos a mais que o GPT-5.4 mini (em raciocínio alto) no índice da Artificial Analysis — custando menos por tarefa.

Isso não é "a China alcançando". Isso é derrota estratégica no mercado de tokens commodity.


Por que os EUA não conseguem competir no preço


(e não é a arquitetura)

Aqui está a verdade que poucos dizem em voz alta.

Modelos chineses não são mais baratos porque a arquitetura é mais frugal ou porque pesquisadores chineses carregam o mandato do céu. Atenção esparsa, lembra, qualquer um implementa.

O motivo é mais simples e mais cruel: custo de capital.

Quando a Anthropic te serve um token, ela não está pagando só o custo operacional de gerar aquele token. Está pagando o custo de ter construído o data center antes. E esse é o número que dói: algo entre US$ 50 e US$ 100 bilhões por gigawatt — e que, em vez de cair, está subindo. Para dimensionar a insanidade: a Meta vai gastar mais em IA neste ano do que o Estado alemão gasta em defesa.

É software altamente comoditizado rodando sobre hardware não-comoditizado e caríssimo. Esse é o gargalo. Não é código.

E tem um agravante que mata qualquer estratégia de "vamos só proibir o modelo": computação em tempo de inferência ainda escala.

A Vals.ai rodou um teste delicioso. O Fable 5 caiu de volta para o Opus 4.8 em 199 de 200 tarefas — ou seja, era essencialmente o Opus respondendo. Mesmo assim, o resultado teve o dobro da nota de rodar o Opus 4.8 diretamente. E o dobro do custo, porque gerou o dobro de tokens. Dobrou o pensamento, dobrou a performance.

Noam Brown, líder de raciocínio da OpenAI, resume o fenômeno: à medida que os modelos ficam mais capazes, a performance em benchmark vira cada vez mais uma função de quanto poder de computação você joga no problema.

A implicação é demolidora para a política americana atual. Banir um modelo específico é inútil, porque um modelo pior com mais computação chega na mesma performance. O gênio saiu da garrafa. Se você realmente quisesse frear o progresso, teria que ir atrás da computação — não dos modelos.

A leitura cínica do mercado é que a cruzada por banir modelos é captura regulatória disfarçada de segurança: modelos chineses comoditizam o negócio dos grandes laboratórios, e tirá-los do caminho protege margem. Há uma defesa legítima do outro lado — risco real de cibersegurança e uso indevido —, e vale notar que a própria Anthropic argumentou que o GPT-5.5, amplamente disponível, já oferece risco comparável ao do Mythos. O que, ironicamente, enfraquece o argumento de que esses modelos são perigosos demais para existir.

Você decide de que lado da mesa senta. Mas a conclusão estratégica é a mesma: a vantagem dos EUA é uma vantagem de computação. Em vez de exportar proibição, deveriam derrubar o custo de capital de quem implanta IA. É exatamente nisso que a China ganha — em colocar a máquina rodando a um custo melhor.


Outros sinais da semana

SpaceX compra a Anysphere (Cursor) por US$ 60 bilhões. Fechamento previsto para o terceiro trimestre, com o Cursor a US$ 2 bilhões de ARR — cerca de 30x receita. No anúncio, o CEO soltou uma revelação curiosa: tanto o Opus quanto o GPT teriam por volta de 1,5 trilhão de parâmetros. Mais enxuto do que muita gente imaginava.

O Google lançou o Open Knowledge Format (OKF). Um padrão para representar conhecimento corporativo em arquivos markdown que humanos, ferramentas de dados e agentes de IA conseguem ler. Não substitui banco, schema ou API — documenta o que tudo isso significa. Como o próprio Google resume: a IA é tão inteligente quanto o contexto que você entrega a ela. É engenharia de contexto virando padrão de mercado.

A EpochAI testou se o Mythos é hype. Conclusão dividida: o modelo é um avanço real em desenvolvimento de exploits (cerca de 7 meses à frente da tendência), mas a evidência de que ele encontra vulnerabilidades novas é fraca. Mozilla e Palo Alto elogiaram; o mantenedor do curl não viu nada além do que ferramentas antigas já entregam.

O DeepSeek pode entrar na Entity List dos EUA. Segundo a Reuters, o governo americano segurou a inclusão do DeepSeek, da CXMT e de mais de 100 empresas, em meio a tensões com Pequim. É o maior intervalo sem novas adições em mais de uma década. Banir um modelo aberto exigiria tratar arquivos digitais como contrabando — basicamente proibir um arquivo cheio de multiplicações de matrizes.


Perguntas que você vai receber na próxima reunião

O que é o GLM-5.2? É o novo modelo da Zhipu, laboratório chinês. É o primeiro modelo da China competitivo em performance bruta com os melhores modelos americanos, usando atenção esparsa e uma técnica de economia de computação chamada IndexShare. Em vários benchmarks, supera o GPT-5.5.

A China alcançou os EUA em inteligência artificial? Não, e nem ficou para trás. A China alcançou excelência em domínios específicos de alto valor (como código) e domina o custo-benefício, mas ainda fica atrás em generalização e em lidar com informação genuinamente nova. As duas narrativas extremas estão erradas.

Por que os modelos de IA chineses são tão mais baratos? Em parte por arquiteturas como a atenção esparsa, mas principalmente por custo de capital. Laboratórios americanos pagam entre US$ 50 e US$ 100 bilhões por gigawatt de data center, e esse custo está embutido em cada token servido. A diferença de arquitetura é o fator menor.

Vale a pena usar modelos chineses em produção no Brasil? Para os cerca de 80% dos workflows que exigem profundidade e não amplitude, sim — é a melhor relação inteligência-por-custo disponível. Reserve os modelos de fronteira para os 20% de tarefas que realmente precisam deles. Avalie sempre as exigências de compliance e LGPD da sua operação.

É seguro e legal usar o DeepSeek? A maioria das empresas acessa esses modelos via provedores hospedados nos EUA, como a Fireworks ou os hyperscalers, sem contrato direto com o DeepSeek. A situação da Entity List americana está em evolução. Não é aconselhamento jurídico — leve a decisão final para o seu time de jurídico e compliance.

O que é atenção esparsa? É um mecanismo em que cada palavra do texto presta atenção apenas a um subconjunto pré-selecionado de palavras anteriores, escolhido por um indexador. Isso mantém o custo de computação quase constante mesmo quando o texto cresce, com uma perda pequena de qualidade.

Modelos de fronteira como o Fable 5 ou o Claude Opus 4.8 ainda valem a pena? Sim, para as tarefas mais difíceis, onde o prêmio de custo compra uma capacidade que nenhum modelo commodity tem. Mas isso é uma fatia pequena da demanda total. O erro caro é mandar tudo para a fronteira por padrão.


A única decisão que importa nos próximos 90 dias

Nos próximos seis meses, tokens commodity vão dominar o volume. Em um a três anos, o abismo de custo não terá fechado — porque ele é de capital, não de código.

Duas opções:

Opção 1: Mandar tudo para o modelo de fronteira por padrão, pagar 54x e assistir a linha de IA devorar a sua margem enquanto o concorrente roda mais barato.

Opção 2: Montar um portfólio de modelos. Modelos chineses e commodity para os 80% de tarefas que pedem profundidade. Modelos de fronteira para os 20% que realmente exigem.

Se você escolheu a segunda, comece por aqui:

  1. Mapeie suas tarefas de IA. Separe as que exigem inteligência de fronteira das que não exigem. Provavelmente 80% não exigem.

  2. Faça uma análise de custo por tarefa, não uma comparação de benchmark. Benchmark é vaidade. Custo por tarefa é o seu P&L.

  3. Teste um modelo commodity no seu workflow de maior volume. Acesse via provedores hospedados nos EUA para contornar a questão regulatória enquanto ela se resolve.

  4. Construa roteamento. Modelo barato por padrão, escalando para a fronteira só nas tarefas sinalizadas. Essa é a essência da inteligência híbrida: a máquina certa para o trabalho certo, ao custo certo.

  5. Acompanhe o debate de computação e regulação — mas não aposte seu roadmap em uma proibição. O gênio já saiu da garrafa.

A pergunta não é se o modelo chinês é tão bom quanto o de fronteira.

A pergunta é por que você ainda está pagando 54 vezes mais para arar a roça.

Fontes desta edição: Artificial Analysis (Intelligence Index v4.1), EpochAI, Vals.ai, Reuters, Mark Gurman (Bloomberg), NVIDIA, Google e a análise de Ignacio de Gregorio (TheWhiteBox).

Imagine que você é o CFO de uma empresa brasileira que colocou IA em produção há seis meses. No dia 1º de junho, você abre a fatura e o número está até 100 vezes maior que o do mês anterior. Mesmo produto. Mesmo uso. Conta nova.

Isso não é hipótese. Foi exatamente o que aconteceu com clientes da Microsoft depois do reajuste de preços do Copilot.

Passei o fim de semana mergulhado em benchmarks, papers de arquitetura e relatórios de custo. Você não precisa.

A China não está "um ano atrás". E também não "alcançou" os Estados Unidos. As duas narrativas estão erradas — e a verdade é muito pior para quem vende token caro.

Nas próximas linhas: o que a Zhipu realmente entregou com o GLM-5.2, por que o custo passou a importar mais que a inteligência, e a única decisão que o seu time precisa tomar nos próximos 90 dias.


AI Weekly em 30 segundos

  • A China lançou o GLM-5.2, o primeiro modelo chinês competitivo em performance bruta — não só em custo. Em vários benchmarks, supera o GPT-5.5.

  • "A China está atrás" está errado. "A China alcançou os EUA" também. A verdade é que a China domina a fronteira de Pareto: o melhor custo-benefício do mercado.

  • Por tarefa, segundo a Artificial Analysis: DeepSeek V4 custa US$ 0,06. GPT-5.5 (raciocínio alto), US$ 0,99. Claude Opus 4.8, US$ 1,78. O Fable 5 lidera em performance e custa 54 vezes mais que o DeepSeek.

  • A Microsoft, dona da maior parte da OpenAI, está avaliando rodar DeepSeek no Copilot para cortar custo. Esse é o sinal.

  • O abismo de custo não é arquitetura. É capital: cerca de US$ 50 bilhões por gigawatt de data center — e subindo.

  • Em poucos anos, 80% dos tokens do mundo serão commodity. Hoje, isso significa 80% vindos de modelos chineses.

  • Para o executivo: workflows corporativos pedem profundidade, não amplitude. Você não precisa do modelo mais inteligente. Precisa do mais barato que resolve.


O que é um modelo de fronteira

(e por que essa palavra agora pesa)

Um modelo de fronteira é um modelo de IA que opera no limite da capacidade técnica disponível — o estado da arte em raciocínio, código e tarefas complexas. Importa porque, até esta semana, "fronteira" era sinônimo de "americano". O GLM-5.2 quebrou essa associação.

A Zhipu, um dos principais laboratórios da China, entregou o primeiro modelo chinês que compete em performance bruta — não em inteligência-por-custo, em performance pura. Ele supera tudo que o Google já lançou em LLMs nos benchmarks, e bate o GPT-5.5 em vários deles.

Modelos anteriores prometiam. O DeepSeek v4 chegou perto. Mas estavam, sem rodeios, atrás.

Agora não mais.

Só que aqui mora a primeira armadilha narrativa. O GLM-5.2 é excelente em domínios específicos — código, sobretudo. Em tarefas que exigem lidar com informação genuinamente nova, o buraco continua. No FutureSim, um benchmark que mede a capacidade de prever eventos posteriores ao treino usando notícias reais, a distância entre modelos fechados americanos e modelos abertos chineses ainda é gigantesca.

Tradução: a China alcançou a excelência em fatias de alto valor, mas tem deficiências claras de generalização.

"A China alcançou os EUA"? Não. "A China está atrás"? Também não. A China otimizou para o que o mercado realmente compra.


Atenção esparsa:


como cortar custo sem cortar qualidade

Aqui está a parte técnica que define o seu orçamento.

Quase todo LLM funciona igual: recebe uma sequência de palavras e prevê a próxima. Para isso, cada palavra "olha para trás" e presta atenção nas anteriores buscando atributos úteis. Em "o copo verde", a palavra copo presta atenção em verde para herdar a "verdura".

A pergunta de um bilhão de dólares: toda palavra precisa prestar atenção em todas as anteriores?

Na frase "o copo, ãhn, ééé, hmm, ah sim, verde, estava…", o copo precisa mesmo atender ao "ãhn" e ao "ééé"? Ou basta focar no "verde"?

Atenção densa, o que os modelos americanos majoritariamente fazem: cada palavra atende a todas, sem distinção. Garante que nenhuma relação se perca — ao custo de uma quantidade brutal de computação.

Atenção esparsa, o caminho chinês: um indexador pré-seleciona bons candidatos e impõe um teto. Se o limite é 20 palavras e você tem 1.000 anteriores, só 20 são atendidas. O custo da atenção para de crescer com o tamanho do texto, com uma perda mínima de qualidade.

O GLM-5.2 adiciona uma camada extra chamada IndexShare. Enquanto o DeepSeek roda o indexador em toda camada do modelo, o GLM-5.2 roda só a cada algumas camadas. Em sequências longas, isso corta o custo computacional em quase 3x.

Engenhoso. Mas guarde este ponto, porque ele desmonta o mito mais conveniente do Vale do Silício: atenção esparsa não é segredo nem genialidade exclusiva da China. Qualquer pesquisador competente reconhece o tradeoff como ótimo. O motivo real do abismo de custo é outro — e a gente chega lá.


Inteligência por custo:


o número que o seu CFO precisa ver

Inteligência por custo é quanta capacidade útil um modelo entrega por real gasto — e não a sua capacidade máxima isolada. Importa porque a maioria dos workflows corporativos não precisa do modelo mais inteligente do planeta. Precisa do mais barato que resolve a tarefa com qualidade suficiente.

A Artificial Analysis atualizou seu Intelligence Index para a versão 4.1 e passou a medir não só a qualidade do modelo, mas o custo por tarefa. O resultado é constrangedor.

Modelo

Índice de Inteligência

Custo por tarefa

Leitura honesta

DeepSeek V4 Pro Max

44

~US$ 0,06

o piso de custo do mercado

GPT-5.5 (raciocínio alto)

US$ 0,99

~16x o DeepSeek

Claude Opus 4.8 (máx)

US$ 1,78

~30x o DeepSeek

Fable 5

60 (topo do índice)

54x o DeepSeek por tarefa

Dados: Artificial Analysis, Intelligence Index v4.1.

O Fable 5 lidera em performance. Maravilha. Mas a pergunta de negócio não é "ele é o melhor?". É: ele é 54 vezes melhor na tarefa média?

Não é.

Ninguém leva uma Ferrari para arar a roça quando uma Hilux faz o serviço melhor, mais barato e sem drama. Para empresas que rodam IA em escala no Brasil — pensa em Nubank, iFood, Stone, Mercado Livre —, uma diferença de 54x não é uma linha de custo. É a diferença entre uma margem saudável e uma margem que evapora.

E essa é a tese que a maioria em San Francisco se recusa a entender: workflows corporativos são feitos para profundidade, não amplitude. Eles desejam modelos especializados e não dão a mínima se o modelo é bom em tarefas fora do escopo.

Generalização é o que empurra a fronteira. Não é o que dirige a adoção corporativa.

Em poucos anos, tokens commodity serão pelo menos 80% de tudo que o mundo gera. E hoje, isso significa 80% dos tokens do planeta saindo de modelos chineses.


A Microsoft está olhando para o DeepSeek


Esse é o sinal.

Se você ainda achava isso teórico, eis o golpe.

A Microsoft está avaliando seriamente usar o DeepSeek v4 Flash como um dos modelos por baixo do Copilot, para derrubar custo de operação e oferecer um preço mais competitivo — justo depois do reajuste de 1º de junho que multiplicou faturas por até 100x.

Pare e absorva o tamanho disso.

A Microsoft, que basicamente é dona da OpenAI e tem acesso à sua propriedade intelectual, está considerando rodar um modelo chinês porque os modelos americanos ficaram caros demais para servir.

E o GLM-5.2, o protagonista desta edição, marca 11 pontos a mais que o GPT-5.4 mini (em raciocínio alto) no índice da Artificial Analysis — custando menos por tarefa.

Isso não é "a China alcançando". Isso é derrota estratégica no mercado de tokens commodity.


Por que os EUA não conseguem competir no preço


(e não é a arquitetura)

Aqui está a verdade que poucos dizem em voz alta.

Modelos chineses não são mais baratos porque a arquitetura é mais frugal ou porque pesquisadores chineses carregam o mandato do céu. Atenção esparsa, lembra, qualquer um implementa.

O motivo é mais simples e mais cruel: custo de capital.

Quando a Anthropic te serve um token, ela não está pagando só o custo operacional de gerar aquele token. Está pagando o custo de ter construído o data center antes. E esse é o número que dói: algo entre US$ 50 e US$ 100 bilhões por gigawatt — e que, em vez de cair, está subindo. Para dimensionar a insanidade: a Meta vai gastar mais em IA neste ano do que o Estado alemão gasta em defesa.

É software altamente comoditizado rodando sobre hardware não-comoditizado e caríssimo. Esse é o gargalo. Não é código.

E tem um agravante que mata qualquer estratégia de "vamos só proibir o modelo": computação em tempo de inferência ainda escala.

A Vals.ai rodou um teste delicioso. O Fable 5 caiu de volta para o Opus 4.8 em 199 de 200 tarefas — ou seja, era essencialmente o Opus respondendo. Mesmo assim, o resultado teve o dobro da nota de rodar o Opus 4.8 diretamente. E o dobro do custo, porque gerou o dobro de tokens. Dobrou o pensamento, dobrou a performance.

Noam Brown, líder de raciocínio da OpenAI, resume o fenômeno: à medida que os modelos ficam mais capazes, a performance em benchmark vira cada vez mais uma função de quanto poder de computação você joga no problema.

A implicação é demolidora para a política americana atual. Banir um modelo específico é inútil, porque um modelo pior com mais computação chega na mesma performance. O gênio saiu da garrafa. Se você realmente quisesse frear o progresso, teria que ir atrás da computação — não dos modelos.

A leitura cínica do mercado é que a cruzada por banir modelos é captura regulatória disfarçada de segurança: modelos chineses comoditizam o negócio dos grandes laboratórios, e tirá-los do caminho protege margem. Há uma defesa legítima do outro lado — risco real de cibersegurança e uso indevido —, e vale notar que a própria Anthropic argumentou que o GPT-5.5, amplamente disponível, já oferece risco comparável ao do Mythos. O que, ironicamente, enfraquece o argumento de que esses modelos são perigosos demais para existir.

Você decide de que lado da mesa senta. Mas a conclusão estratégica é a mesma: a vantagem dos EUA é uma vantagem de computação. Em vez de exportar proibição, deveriam derrubar o custo de capital de quem implanta IA. É exatamente nisso que a China ganha — em colocar a máquina rodando a um custo melhor.


Outros sinais da semana

SpaceX compra a Anysphere (Cursor) por US$ 60 bilhões. Fechamento previsto para o terceiro trimestre, com o Cursor a US$ 2 bilhões de ARR — cerca de 30x receita. No anúncio, o CEO soltou uma revelação curiosa: tanto o Opus quanto o GPT teriam por volta de 1,5 trilhão de parâmetros. Mais enxuto do que muita gente imaginava.

O Google lançou o Open Knowledge Format (OKF). Um padrão para representar conhecimento corporativo em arquivos markdown que humanos, ferramentas de dados e agentes de IA conseguem ler. Não substitui banco, schema ou API — documenta o que tudo isso significa. Como o próprio Google resume: a IA é tão inteligente quanto o contexto que você entrega a ela. É engenharia de contexto virando padrão de mercado.

A EpochAI testou se o Mythos é hype. Conclusão dividida: o modelo é um avanço real em desenvolvimento de exploits (cerca de 7 meses à frente da tendência), mas a evidência de que ele encontra vulnerabilidades novas é fraca. Mozilla e Palo Alto elogiaram; o mantenedor do curl não viu nada além do que ferramentas antigas já entregam.

O DeepSeek pode entrar na Entity List dos EUA. Segundo a Reuters, o governo americano segurou a inclusão do DeepSeek, da CXMT e de mais de 100 empresas, em meio a tensões com Pequim. É o maior intervalo sem novas adições em mais de uma década. Banir um modelo aberto exigiria tratar arquivos digitais como contrabando — basicamente proibir um arquivo cheio de multiplicações de matrizes.


Perguntas que você vai receber na próxima reunião

O que é o GLM-5.2? É o novo modelo da Zhipu, laboratório chinês. É o primeiro modelo da China competitivo em performance bruta com os melhores modelos americanos, usando atenção esparsa e uma técnica de economia de computação chamada IndexShare. Em vários benchmarks, supera o GPT-5.5.

A China alcançou os EUA em inteligência artificial? Não, e nem ficou para trás. A China alcançou excelência em domínios específicos de alto valor (como código) e domina o custo-benefício, mas ainda fica atrás em generalização e em lidar com informação genuinamente nova. As duas narrativas extremas estão erradas.

Por que os modelos de IA chineses são tão mais baratos? Em parte por arquiteturas como a atenção esparsa, mas principalmente por custo de capital. Laboratórios americanos pagam entre US$ 50 e US$ 100 bilhões por gigawatt de data center, e esse custo está embutido em cada token servido. A diferença de arquitetura é o fator menor.

Vale a pena usar modelos chineses em produção no Brasil? Para os cerca de 80% dos workflows que exigem profundidade e não amplitude, sim — é a melhor relação inteligência-por-custo disponível. Reserve os modelos de fronteira para os 20% de tarefas que realmente precisam deles. Avalie sempre as exigências de compliance e LGPD da sua operação.

É seguro e legal usar o DeepSeek? A maioria das empresas acessa esses modelos via provedores hospedados nos EUA, como a Fireworks ou os hyperscalers, sem contrato direto com o DeepSeek. A situação da Entity List americana está em evolução. Não é aconselhamento jurídico — leve a decisão final para o seu time de jurídico e compliance.

O que é atenção esparsa? É um mecanismo em que cada palavra do texto presta atenção apenas a um subconjunto pré-selecionado de palavras anteriores, escolhido por um indexador. Isso mantém o custo de computação quase constante mesmo quando o texto cresce, com uma perda pequena de qualidade.

Modelos de fronteira como o Fable 5 ou o Claude Opus 4.8 ainda valem a pena? Sim, para as tarefas mais difíceis, onde o prêmio de custo compra uma capacidade que nenhum modelo commodity tem. Mas isso é uma fatia pequena da demanda total. O erro caro é mandar tudo para a fronteira por padrão.


A única decisão que importa nos próximos 90 dias

Nos próximos seis meses, tokens commodity vão dominar o volume. Em um a três anos, o abismo de custo não terá fechado — porque ele é de capital, não de código.

Duas opções:

Opção 1: Mandar tudo para o modelo de fronteira por padrão, pagar 54x e assistir a linha de IA devorar a sua margem enquanto o concorrente roda mais barato.

Opção 2: Montar um portfólio de modelos. Modelos chineses e commodity para os 80% de tarefas que pedem profundidade. Modelos de fronteira para os 20% que realmente exigem.

Se você escolheu a segunda, comece por aqui:

  1. Mapeie suas tarefas de IA. Separe as que exigem inteligência de fronteira das que não exigem. Provavelmente 80% não exigem.

  2. Faça uma análise de custo por tarefa, não uma comparação de benchmark. Benchmark é vaidade. Custo por tarefa é o seu P&L.

  3. Teste um modelo commodity no seu workflow de maior volume. Acesse via provedores hospedados nos EUA para contornar a questão regulatória enquanto ela se resolve.

  4. Construa roteamento. Modelo barato por padrão, escalando para a fronteira só nas tarefas sinalizadas. Essa é a essência da inteligência híbrida: a máquina certa para o trabalho certo, ao custo certo.

  5. Acompanhe o debate de computação e regulação — mas não aposte seu roadmap em uma proibição. O gênio já saiu da garrafa.

A pergunta não é se o modelo chinês é tão bom quanto o de fronteira.

A pergunta é por que você ainda está pagando 54 vezes mais para arar a roça.

Fontes desta edição: Artificial Analysis (Intelligence Index v4.1), EpochAI, Vals.ai, Reuters, Mark Gurman (Bloomberg), NVIDIA, Google e a análise de Ignacio de Gregorio (TheWhiteBox).

Imagine que você é o CFO de uma empresa brasileira que colocou IA em produção há seis meses. No dia 1º de junho, você abre a fatura e o número está até 100 vezes maior que o do mês anterior. Mesmo produto. Mesmo uso. Conta nova.

Isso não é hipótese. Foi exatamente o que aconteceu com clientes da Microsoft depois do reajuste de preços do Copilot.

Passei o fim de semana mergulhado em benchmarks, papers de arquitetura e relatórios de custo. Você não precisa.

A China não está "um ano atrás". E também não "alcançou" os Estados Unidos. As duas narrativas estão erradas — e a verdade é muito pior para quem vende token caro.

Nas próximas linhas: o que a Zhipu realmente entregou com o GLM-5.2, por que o custo passou a importar mais que a inteligência, e a única decisão que o seu time precisa tomar nos próximos 90 dias.


AI Weekly em 30 segundos

  • A China lançou o GLM-5.2, o primeiro modelo chinês competitivo em performance bruta — não só em custo. Em vários benchmarks, supera o GPT-5.5.

  • "A China está atrás" está errado. "A China alcançou os EUA" também. A verdade é que a China domina a fronteira de Pareto: o melhor custo-benefício do mercado.

  • Por tarefa, segundo a Artificial Analysis: DeepSeek V4 custa US$ 0,06. GPT-5.5 (raciocínio alto), US$ 0,99. Claude Opus 4.8, US$ 1,78. O Fable 5 lidera em performance e custa 54 vezes mais que o DeepSeek.

  • A Microsoft, dona da maior parte da OpenAI, está avaliando rodar DeepSeek no Copilot para cortar custo. Esse é o sinal.

  • O abismo de custo não é arquitetura. É capital: cerca de US$ 50 bilhões por gigawatt de data center — e subindo.

  • Em poucos anos, 80% dos tokens do mundo serão commodity. Hoje, isso significa 80% vindos de modelos chineses.

  • Para o executivo: workflows corporativos pedem profundidade, não amplitude. Você não precisa do modelo mais inteligente. Precisa do mais barato que resolve.


O que é um modelo de fronteira

(e por que essa palavra agora pesa)

Um modelo de fronteira é um modelo de IA que opera no limite da capacidade técnica disponível — o estado da arte em raciocínio, código e tarefas complexas. Importa porque, até esta semana, "fronteira" era sinônimo de "americano". O GLM-5.2 quebrou essa associação.

A Zhipu, um dos principais laboratórios da China, entregou o primeiro modelo chinês que compete em performance bruta — não em inteligência-por-custo, em performance pura. Ele supera tudo que o Google já lançou em LLMs nos benchmarks, e bate o GPT-5.5 em vários deles.

Modelos anteriores prometiam. O DeepSeek v4 chegou perto. Mas estavam, sem rodeios, atrás.

Agora não mais.

Só que aqui mora a primeira armadilha narrativa. O GLM-5.2 é excelente em domínios específicos — código, sobretudo. Em tarefas que exigem lidar com informação genuinamente nova, o buraco continua. No FutureSim, um benchmark que mede a capacidade de prever eventos posteriores ao treino usando notícias reais, a distância entre modelos fechados americanos e modelos abertos chineses ainda é gigantesca.

Tradução: a China alcançou a excelência em fatias de alto valor, mas tem deficiências claras de generalização.

"A China alcançou os EUA"? Não. "A China está atrás"? Também não. A China otimizou para o que o mercado realmente compra.


Atenção esparsa:


como cortar custo sem cortar qualidade

Aqui está a parte técnica que define o seu orçamento.

Quase todo LLM funciona igual: recebe uma sequência de palavras e prevê a próxima. Para isso, cada palavra "olha para trás" e presta atenção nas anteriores buscando atributos úteis. Em "o copo verde", a palavra copo presta atenção em verde para herdar a "verdura".

A pergunta de um bilhão de dólares: toda palavra precisa prestar atenção em todas as anteriores?

Na frase "o copo, ãhn, ééé, hmm, ah sim, verde, estava…", o copo precisa mesmo atender ao "ãhn" e ao "ééé"? Ou basta focar no "verde"?

Atenção densa, o que os modelos americanos majoritariamente fazem: cada palavra atende a todas, sem distinção. Garante que nenhuma relação se perca — ao custo de uma quantidade brutal de computação.

Atenção esparsa, o caminho chinês: um indexador pré-seleciona bons candidatos e impõe um teto. Se o limite é 20 palavras e você tem 1.000 anteriores, só 20 são atendidas. O custo da atenção para de crescer com o tamanho do texto, com uma perda mínima de qualidade.

O GLM-5.2 adiciona uma camada extra chamada IndexShare. Enquanto o DeepSeek roda o indexador em toda camada do modelo, o GLM-5.2 roda só a cada algumas camadas. Em sequências longas, isso corta o custo computacional em quase 3x.

Engenhoso. Mas guarde este ponto, porque ele desmonta o mito mais conveniente do Vale do Silício: atenção esparsa não é segredo nem genialidade exclusiva da China. Qualquer pesquisador competente reconhece o tradeoff como ótimo. O motivo real do abismo de custo é outro — e a gente chega lá.


Inteligência por custo:


o número que o seu CFO precisa ver

Inteligência por custo é quanta capacidade útil um modelo entrega por real gasto — e não a sua capacidade máxima isolada. Importa porque a maioria dos workflows corporativos não precisa do modelo mais inteligente do planeta. Precisa do mais barato que resolve a tarefa com qualidade suficiente.

A Artificial Analysis atualizou seu Intelligence Index para a versão 4.1 e passou a medir não só a qualidade do modelo, mas o custo por tarefa. O resultado é constrangedor.

Modelo

Índice de Inteligência

Custo por tarefa

Leitura honesta

DeepSeek V4 Pro Max

44

~US$ 0,06

o piso de custo do mercado

GPT-5.5 (raciocínio alto)

US$ 0,99

~16x o DeepSeek

Claude Opus 4.8 (máx)

US$ 1,78

~30x o DeepSeek

Fable 5

60 (topo do índice)

54x o DeepSeek por tarefa

Dados: Artificial Analysis, Intelligence Index v4.1.

O Fable 5 lidera em performance. Maravilha. Mas a pergunta de negócio não é "ele é o melhor?". É: ele é 54 vezes melhor na tarefa média?

Não é.

Ninguém leva uma Ferrari para arar a roça quando uma Hilux faz o serviço melhor, mais barato e sem drama. Para empresas que rodam IA em escala no Brasil — pensa em Nubank, iFood, Stone, Mercado Livre —, uma diferença de 54x não é uma linha de custo. É a diferença entre uma margem saudável e uma margem que evapora.

E essa é a tese que a maioria em San Francisco se recusa a entender: workflows corporativos são feitos para profundidade, não amplitude. Eles desejam modelos especializados e não dão a mínima se o modelo é bom em tarefas fora do escopo.

Generalização é o que empurra a fronteira. Não é o que dirige a adoção corporativa.

Em poucos anos, tokens commodity serão pelo menos 80% de tudo que o mundo gera. E hoje, isso significa 80% dos tokens do planeta saindo de modelos chineses.


A Microsoft está olhando para o DeepSeek


Esse é o sinal.

Se você ainda achava isso teórico, eis o golpe.

A Microsoft está avaliando seriamente usar o DeepSeek v4 Flash como um dos modelos por baixo do Copilot, para derrubar custo de operação e oferecer um preço mais competitivo — justo depois do reajuste de 1º de junho que multiplicou faturas por até 100x.

Pare e absorva o tamanho disso.

A Microsoft, que basicamente é dona da OpenAI e tem acesso à sua propriedade intelectual, está considerando rodar um modelo chinês porque os modelos americanos ficaram caros demais para servir.

E o GLM-5.2, o protagonista desta edição, marca 11 pontos a mais que o GPT-5.4 mini (em raciocínio alto) no índice da Artificial Analysis — custando menos por tarefa.

Isso não é "a China alcançando". Isso é derrota estratégica no mercado de tokens commodity.


Por que os EUA não conseguem competir no preço


(e não é a arquitetura)

Aqui está a verdade que poucos dizem em voz alta.

Modelos chineses não são mais baratos porque a arquitetura é mais frugal ou porque pesquisadores chineses carregam o mandato do céu. Atenção esparsa, lembra, qualquer um implementa.

O motivo é mais simples e mais cruel: custo de capital.

Quando a Anthropic te serve um token, ela não está pagando só o custo operacional de gerar aquele token. Está pagando o custo de ter construído o data center antes. E esse é o número que dói: algo entre US$ 50 e US$ 100 bilhões por gigawatt — e que, em vez de cair, está subindo. Para dimensionar a insanidade: a Meta vai gastar mais em IA neste ano do que o Estado alemão gasta em defesa.

É software altamente comoditizado rodando sobre hardware não-comoditizado e caríssimo. Esse é o gargalo. Não é código.

E tem um agravante que mata qualquer estratégia de "vamos só proibir o modelo": computação em tempo de inferência ainda escala.

A Vals.ai rodou um teste delicioso. O Fable 5 caiu de volta para o Opus 4.8 em 199 de 200 tarefas — ou seja, era essencialmente o Opus respondendo. Mesmo assim, o resultado teve o dobro da nota de rodar o Opus 4.8 diretamente. E o dobro do custo, porque gerou o dobro de tokens. Dobrou o pensamento, dobrou a performance.

Noam Brown, líder de raciocínio da OpenAI, resume o fenômeno: à medida que os modelos ficam mais capazes, a performance em benchmark vira cada vez mais uma função de quanto poder de computação você joga no problema.

A implicação é demolidora para a política americana atual. Banir um modelo específico é inútil, porque um modelo pior com mais computação chega na mesma performance. O gênio saiu da garrafa. Se você realmente quisesse frear o progresso, teria que ir atrás da computação — não dos modelos.

A leitura cínica do mercado é que a cruzada por banir modelos é captura regulatória disfarçada de segurança: modelos chineses comoditizam o negócio dos grandes laboratórios, e tirá-los do caminho protege margem. Há uma defesa legítima do outro lado — risco real de cibersegurança e uso indevido —, e vale notar que a própria Anthropic argumentou que o GPT-5.5, amplamente disponível, já oferece risco comparável ao do Mythos. O que, ironicamente, enfraquece o argumento de que esses modelos são perigosos demais para existir.

Você decide de que lado da mesa senta. Mas a conclusão estratégica é a mesma: a vantagem dos EUA é uma vantagem de computação. Em vez de exportar proibição, deveriam derrubar o custo de capital de quem implanta IA. É exatamente nisso que a China ganha — em colocar a máquina rodando a um custo melhor.


Outros sinais da semana

SpaceX compra a Anysphere (Cursor) por US$ 60 bilhões. Fechamento previsto para o terceiro trimestre, com o Cursor a US$ 2 bilhões de ARR — cerca de 30x receita. No anúncio, o CEO soltou uma revelação curiosa: tanto o Opus quanto o GPT teriam por volta de 1,5 trilhão de parâmetros. Mais enxuto do que muita gente imaginava.

O Google lançou o Open Knowledge Format (OKF). Um padrão para representar conhecimento corporativo em arquivos markdown que humanos, ferramentas de dados e agentes de IA conseguem ler. Não substitui banco, schema ou API — documenta o que tudo isso significa. Como o próprio Google resume: a IA é tão inteligente quanto o contexto que você entrega a ela. É engenharia de contexto virando padrão de mercado.

A EpochAI testou se o Mythos é hype. Conclusão dividida: o modelo é um avanço real em desenvolvimento de exploits (cerca de 7 meses à frente da tendência), mas a evidência de que ele encontra vulnerabilidades novas é fraca. Mozilla e Palo Alto elogiaram; o mantenedor do curl não viu nada além do que ferramentas antigas já entregam.

O DeepSeek pode entrar na Entity List dos EUA. Segundo a Reuters, o governo americano segurou a inclusão do DeepSeek, da CXMT e de mais de 100 empresas, em meio a tensões com Pequim. É o maior intervalo sem novas adições em mais de uma década. Banir um modelo aberto exigiria tratar arquivos digitais como contrabando — basicamente proibir um arquivo cheio de multiplicações de matrizes.


Perguntas que você vai receber na próxima reunião

O que é o GLM-5.2? É o novo modelo da Zhipu, laboratório chinês. É o primeiro modelo da China competitivo em performance bruta com os melhores modelos americanos, usando atenção esparsa e uma técnica de economia de computação chamada IndexShare. Em vários benchmarks, supera o GPT-5.5.

A China alcançou os EUA em inteligência artificial? Não, e nem ficou para trás. A China alcançou excelência em domínios específicos de alto valor (como código) e domina o custo-benefício, mas ainda fica atrás em generalização e em lidar com informação genuinamente nova. As duas narrativas extremas estão erradas.

Por que os modelos de IA chineses são tão mais baratos? Em parte por arquiteturas como a atenção esparsa, mas principalmente por custo de capital. Laboratórios americanos pagam entre US$ 50 e US$ 100 bilhões por gigawatt de data center, e esse custo está embutido em cada token servido. A diferença de arquitetura é o fator menor.

Vale a pena usar modelos chineses em produção no Brasil? Para os cerca de 80% dos workflows que exigem profundidade e não amplitude, sim — é a melhor relação inteligência-por-custo disponível. Reserve os modelos de fronteira para os 20% de tarefas que realmente precisam deles. Avalie sempre as exigências de compliance e LGPD da sua operação.

É seguro e legal usar o DeepSeek? A maioria das empresas acessa esses modelos via provedores hospedados nos EUA, como a Fireworks ou os hyperscalers, sem contrato direto com o DeepSeek. A situação da Entity List americana está em evolução. Não é aconselhamento jurídico — leve a decisão final para o seu time de jurídico e compliance.

O que é atenção esparsa? É um mecanismo em que cada palavra do texto presta atenção apenas a um subconjunto pré-selecionado de palavras anteriores, escolhido por um indexador. Isso mantém o custo de computação quase constante mesmo quando o texto cresce, com uma perda pequena de qualidade.

Modelos de fronteira como o Fable 5 ou o Claude Opus 4.8 ainda valem a pena? Sim, para as tarefas mais difíceis, onde o prêmio de custo compra uma capacidade que nenhum modelo commodity tem. Mas isso é uma fatia pequena da demanda total. O erro caro é mandar tudo para a fronteira por padrão.


A única decisão que importa nos próximos 90 dias

Nos próximos seis meses, tokens commodity vão dominar o volume. Em um a três anos, o abismo de custo não terá fechado — porque ele é de capital, não de código.

Duas opções:

Opção 1: Mandar tudo para o modelo de fronteira por padrão, pagar 54x e assistir a linha de IA devorar a sua margem enquanto o concorrente roda mais barato.

Opção 2: Montar um portfólio de modelos. Modelos chineses e commodity para os 80% de tarefas que pedem profundidade. Modelos de fronteira para os 20% que realmente exigem.

Se você escolheu a segunda, comece por aqui:

  1. Mapeie suas tarefas de IA. Separe as que exigem inteligência de fronteira das que não exigem. Provavelmente 80% não exigem.

  2. Faça uma análise de custo por tarefa, não uma comparação de benchmark. Benchmark é vaidade. Custo por tarefa é o seu P&L.

  3. Teste um modelo commodity no seu workflow de maior volume. Acesse via provedores hospedados nos EUA para contornar a questão regulatória enquanto ela se resolve.

  4. Construa roteamento. Modelo barato por padrão, escalando para a fronteira só nas tarefas sinalizadas. Essa é a essência da inteligência híbrida: a máquina certa para o trabalho certo, ao custo certo.

  5. Acompanhe o debate de computação e regulação — mas não aposte seu roadmap em uma proibição. O gênio já saiu da garrafa.

A pergunta não é se o modelo chinês é tão bom quanto o de fronteira.

A pergunta é por que você ainda está pagando 54 vezes mais para arar a roça.

Fontes desta edição: Artificial Analysis (Intelligence Index v4.1), EpochAI, Vals.ai, Reuters, Mark Gurman (Bloomberg), NVIDIA, Google e a análise de Ignacio de Gregorio (TheWhiteBox).

Você sabe que precisa usar IA, mas não sabe por onde começar

Comscience

2025 © All right reserved

Comscience

2025 © All right reserved

Usamos cookies para melhorar sua experiência. Ao continuar, você concorda com nossa Política de Privacidade (LGPD).