A inversão que está redefinindo o jogo do hardware de IA
A inversão que está redefinindo o jogo do hardware de IA
Por que executivos que entendem de software agora têm vantagem sobre engenheiros de chip
Por que executivos que entendem de software agora têm vantagem sobre engenheiros de chip

Algo fundamental mudou no último ano, e a maioria dos líderes de negócio ainda não percebeu a extensão das implicações.
Pela primeira vez na história da computação, o software está ditando como o hardware é construído. Não é o contrário, como sempre foi. E isso não é apenas uma curiosidade técnica, é uma mudança que redefine completamente quem ganha e quem perde no mercado mais lucrativo da IA hoje: o hardware.
Pense nisso por um momento. Se você entende como modelos de IA funcionam por dentro, você consegue literalmente prever o roadmap de produto da NVIDIA, da AMD e até da Broadcom nos próximos dois anos. Isso não é exagero, é matemática aplicada.
O que realmente está acontecendo com a IA
Antes de falarmos sobre hardware, precisamos desmistificar algo que poucos executivos conseguem explicar claramente: o que exatamente esses modelos de IA estão fazendo?
A resposta é simultaneamente simples e reveladora: eles são compressores de padrões.
Deixe-me explicar isso de uma forma que faz sentido para quem toma decisões de negócio. Imagine que você precisa prever o preço de uma casa. Uma abordagem "burra" seria guardar cada detalhe possível de milhares de imóveis em um banco de dados gigantesco e depois fazer análise estatística toda vez que precisar de uma previsão.
Uma rede neural, por outro lado, não guarda todos os detalhes. Ela identifica quais variáveis realmente importam — código postal, tamanho, número de banheiros — e descarta o resto. Esse processo de eliminar o ruído e manter apenas o essencial é o que chamamos de compressão.
Os grandes modelos de linguagem que todo mundo está usando hoje são, frequentemente, dez mil vezes menores que os datasets que eles conseguem representar. Pense nisso. Eles aprendem gramática, conhecimento sobre o mundo, matemática, tudo através da identificação de padrões, não através de memorização bruta.
O problema que ninguém está falando
Mas aqui está a parte que deveria preocupar qualquer líder pensando em investir pesado em IA: a maior parte do que chamamos de "inteligência" nesses modelos ainda é, fundamentalmente, memorização sofisticada.
Inteligência real é a capacidade de aplicar padrões aprendidos em situações completamente novas, algo que chamamos de generalização fora da distribuição. É o que Jean Piaget definia como "aquilo que você usa quando não sabe o que fazer".
Os modelos atuais são impressionantes, mas estão mais próximos de bancos de dados super sofisticados do que de entidades verdadeiramente inteligentes. E quando os laboratórios de IA esbarram nessa limitação, qual é a solução deles? Fazer os modelos maiores. Muito maiores.
A lógica é brutal na sua simplicidade: se não conseguimos fazer o modelo performar bem com dados desconhecidos, vamos garantir que nenhum dado seja desconhecido para ele. É o truque da generalização dentro da distribuição, e é exatamente isso que está dirigindo a explosão no tamanho dos modelos.
Por que isso muda tudo no hardware
Aqui chegamos ao insight central: modelos estão ficando gigantescos, e isso está forçando mudanças fundamentais em como construímos infraestrutura de IA.
O modelo Llama 3 da Meta, por exemplo, tem quatrocentos e cinco bilhões de parâmetros e ocupa oitocentos e dez gigabytes de memória. Para treinar algo assim, a Meta precisou dividir o modelo em dezenas de GPUs trabalhando em paralelo, usando cinco técnicas diferentes de paralelização simultaneamente.
E aqui está a virada: todos os modelos de fronteira hoje são o que chamamos de "mixture of experts" esparsos. Traduzindo, são modelos trilionários em tamanho que conseguem rodar com a eficiência computacional de modelos muito menores, porque ativam apenas uma pequena fração de seus parâmetros a cada previsão.
O modelo chinês Kimi K2, por exemplo, tem um trilhão de parâmetros mas ativa apenas trinta e seis bilhões por vez. Apenas três vírgula seis por cento do modelo total está trabalhando em qualquer momento dado.
Isso muda completamente a matemática do hardware.
As cinco forças que estão moldando o futuro
Existem cinco mudanças específicas no software de IA que estão literalmente ditando o roadmap de produto das maiores empresas de hardware do mundo. Entender essas cinco forças é entender o mercado de IA pelos próximos anos.
Primeira força: Algumas empresas estão literalmente imprimindo a arquitetura Transformer diretamente no chip. É a aposta mais assimétrica da indústria: se a arquitetura Transformer continuar dominante, essas empresas têm vantagem de throughput sobre todos. Se mudar, seus chips viram peso de papel.
Segunda força: O aumento contínuo no tamanho dos modelos está forçando duas mudanças massivas: servidores com mais GPUs conectadas diretamente, e mais memória por GPU. Essa é a mudança mais importante de todas porque afeta a estratégia de produto de absolutamente todo mundo, da NVIDIA à AMD passando pela Broadcom.
Terceira força: O treinamento por reinforcement learning está criando uma necessidade completamente nova de infraestrutura desagregada, onde você separa as GPUs que fazem inferência das que fazem aprendizado. Isso está criando oportunidades para players especializados que antes não existiam.
Quarta força: A diferença fundamental entre cargas de trabalho de treinamento e inferência está se tornando mais pronunciada. No treinamento, quanto mais GPUs trabalhando juntas, melhor. Na inferência, você quer manter tudo dentro de um único servidor para evitar latência. Essa tensão está dirigindo inovações em arquitetura de data center.
Quinta força: A crescente adoção de modelos open-source está democratizando o acesso à tecnologia de ponta, mas também está criando um novo tipo de competição geopolítica que muitos líderes empresariais ainda não entenderam completamente.
A jogada chinesa que poucos perceberam
E aqui chegamos à implicação mais estratégica de todas, aquela que deveria estar tirando o sono de qualquer executivo pensando em posicionamento de longo prazo.
A China está weaponizando o open-source de uma forma extremamente inteligente. Enquanto empresas americanas tentam manter modelos proprietários, os chineses estão lançando modelos de fronteira completamente abertos, como a série DeepSeek.
Por quê? Porque em um mundo onde software dita hardware, quem controla o software open-source dominante controla indiretamente o mercado de hardware global. E aqui está o pulo do gato: a China não precisa vencer na fabricação de chips de ponta se puder ditar como todos os chips devem ser construídos através de software.
É uma jogada de xadrez geopolítico que a maioria das análises de mercado está completamente perdendo.
O que isso significa para você
Se você está tomando decisões de investimento, alocação de recursos ou estratégia tecnológica em IA, aqui está o que importa:
Primeiro, pare de pensar em chips individuais e comece a pensar em sistemas completos. A pergunta relevante não é mais "qual GPU é melhor", mas "qual arquitetura de sistema consegue escalar para modelos trilionários mantendo eficiência".
Segundo, entenda que a vantagem competitiva em IA está migrando rapidamente de quem tem os melhores chips para quem entende melhor como estruturar cargas de trabalho distribuídas. É uma vantagem de software, não de hardware.
Terceiro, e talvez mais importante: a batalha competitiva em IA está se tornando cada vez mais geopolítica. As decisões que você toma hoje sobre fornecedores, arquiteturas e dependências tecnológicas têm implicações estratégicas que vão muito além de métricas de ROI imediato.
O mercado de hardware de IA é onde o dinheiro real está sendo feito agora. Mas quem vai ganhar nos próximos anos não é quem você imagina. São aqueles que entenderam que, pela primeira vez, software é rei, e hardware é servo.
E isso muda absolutamente tudo.
Reflexão final: Quantas decisões estratégicas sua empresa está tomando baseada em premissas que já estão obsoletas sobre como IA funciona? Porque se você ainda está pensando em IA como uma questão de "comprar as GPUs mais poderosas", você já está jogando o jogo errado.
Algo fundamental mudou no último ano, e a maioria dos líderes de negócio ainda não percebeu a extensão das implicações.
Pela primeira vez na história da computação, o software está ditando como o hardware é construído. Não é o contrário, como sempre foi. E isso não é apenas uma curiosidade técnica, é uma mudança que redefine completamente quem ganha e quem perde no mercado mais lucrativo da IA hoje: o hardware.
Pense nisso por um momento. Se você entende como modelos de IA funcionam por dentro, você consegue literalmente prever o roadmap de produto da NVIDIA, da AMD e até da Broadcom nos próximos dois anos. Isso não é exagero, é matemática aplicada.
O que realmente está acontecendo com a IA
Antes de falarmos sobre hardware, precisamos desmistificar algo que poucos executivos conseguem explicar claramente: o que exatamente esses modelos de IA estão fazendo?
A resposta é simultaneamente simples e reveladora: eles são compressores de padrões.
Deixe-me explicar isso de uma forma que faz sentido para quem toma decisões de negócio. Imagine que você precisa prever o preço de uma casa. Uma abordagem "burra" seria guardar cada detalhe possível de milhares de imóveis em um banco de dados gigantesco e depois fazer análise estatística toda vez que precisar de uma previsão.
Uma rede neural, por outro lado, não guarda todos os detalhes. Ela identifica quais variáveis realmente importam — código postal, tamanho, número de banheiros — e descarta o resto. Esse processo de eliminar o ruído e manter apenas o essencial é o que chamamos de compressão.
Os grandes modelos de linguagem que todo mundo está usando hoje são, frequentemente, dez mil vezes menores que os datasets que eles conseguem representar. Pense nisso. Eles aprendem gramática, conhecimento sobre o mundo, matemática, tudo através da identificação de padrões, não através de memorização bruta.
O problema que ninguém está falando
Mas aqui está a parte que deveria preocupar qualquer líder pensando em investir pesado em IA: a maior parte do que chamamos de "inteligência" nesses modelos ainda é, fundamentalmente, memorização sofisticada.
Inteligência real é a capacidade de aplicar padrões aprendidos em situações completamente novas, algo que chamamos de generalização fora da distribuição. É o que Jean Piaget definia como "aquilo que você usa quando não sabe o que fazer".
Os modelos atuais são impressionantes, mas estão mais próximos de bancos de dados super sofisticados do que de entidades verdadeiramente inteligentes. E quando os laboratórios de IA esbarram nessa limitação, qual é a solução deles? Fazer os modelos maiores. Muito maiores.
A lógica é brutal na sua simplicidade: se não conseguimos fazer o modelo performar bem com dados desconhecidos, vamos garantir que nenhum dado seja desconhecido para ele. É o truque da generalização dentro da distribuição, e é exatamente isso que está dirigindo a explosão no tamanho dos modelos.
Por que isso muda tudo no hardware
Aqui chegamos ao insight central: modelos estão ficando gigantescos, e isso está forçando mudanças fundamentais em como construímos infraestrutura de IA.
O modelo Llama 3 da Meta, por exemplo, tem quatrocentos e cinco bilhões de parâmetros e ocupa oitocentos e dez gigabytes de memória. Para treinar algo assim, a Meta precisou dividir o modelo em dezenas de GPUs trabalhando em paralelo, usando cinco técnicas diferentes de paralelização simultaneamente.
E aqui está a virada: todos os modelos de fronteira hoje são o que chamamos de "mixture of experts" esparsos. Traduzindo, são modelos trilionários em tamanho que conseguem rodar com a eficiência computacional de modelos muito menores, porque ativam apenas uma pequena fração de seus parâmetros a cada previsão.
O modelo chinês Kimi K2, por exemplo, tem um trilhão de parâmetros mas ativa apenas trinta e seis bilhões por vez. Apenas três vírgula seis por cento do modelo total está trabalhando em qualquer momento dado.
Isso muda completamente a matemática do hardware.
As cinco forças que estão moldando o futuro
Existem cinco mudanças específicas no software de IA que estão literalmente ditando o roadmap de produto das maiores empresas de hardware do mundo. Entender essas cinco forças é entender o mercado de IA pelos próximos anos.
Primeira força: Algumas empresas estão literalmente imprimindo a arquitetura Transformer diretamente no chip. É a aposta mais assimétrica da indústria: se a arquitetura Transformer continuar dominante, essas empresas têm vantagem de throughput sobre todos. Se mudar, seus chips viram peso de papel.
Segunda força: O aumento contínuo no tamanho dos modelos está forçando duas mudanças massivas: servidores com mais GPUs conectadas diretamente, e mais memória por GPU. Essa é a mudança mais importante de todas porque afeta a estratégia de produto de absolutamente todo mundo, da NVIDIA à AMD passando pela Broadcom.
Terceira força: O treinamento por reinforcement learning está criando uma necessidade completamente nova de infraestrutura desagregada, onde você separa as GPUs que fazem inferência das que fazem aprendizado. Isso está criando oportunidades para players especializados que antes não existiam.
Quarta força: A diferença fundamental entre cargas de trabalho de treinamento e inferência está se tornando mais pronunciada. No treinamento, quanto mais GPUs trabalhando juntas, melhor. Na inferência, você quer manter tudo dentro de um único servidor para evitar latência. Essa tensão está dirigindo inovações em arquitetura de data center.
Quinta força: A crescente adoção de modelos open-source está democratizando o acesso à tecnologia de ponta, mas também está criando um novo tipo de competição geopolítica que muitos líderes empresariais ainda não entenderam completamente.
A jogada chinesa que poucos perceberam
E aqui chegamos à implicação mais estratégica de todas, aquela que deveria estar tirando o sono de qualquer executivo pensando em posicionamento de longo prazo.
A China está weaponizando o open-source de uma forma extremamente inteligente. Enquanto empresas americanas tentam manter modelos proprietários, os chineses estão lançando modelos de fronteira completamente abertos, como a série DeepSeek.
Por quê? Porque em um mundo onde software dita hardware, quem controla o software open-source dominante controla indiretamente o mercado de hardware global. E aqui está o pulo do gato: a China não precisa vencer na fabricação de chips de ponta se puder ditar como todos os chips devem ser construídos através de software.
É uma jogada de xadrez geopolítico que a maioria das análises de mercado está completamente perdendo.
O que isso significa para você
Se você está tomando decisões de investimento, alocação de recursos ou estratégia tecnológica em IA, aqui está o que importa:
Primeiro, pare de pensar em chips individuais e comece a pensar em sistemas completos. A pergunta relevante não é mais "qual GPU é melhor", mas "qual arquitetura de sistema consegue escalar para modelos trilionários mantendo eficiência".
Segundo, entenda que a vantagem competitiva em IA está migrando rapidamente de quem tem os melhores chips para quem entende melhor como estruturar cargas de trabalho distribuídas. É uma vantagem de software, não de hardware.
Terceiro, e talvez mais importante: a batalha competitiva em IA está se tornando cada vez mais geopolítica. As decisões que você toma hoje sobre fornecedores, arquiteturas e dependências tecnológicas têm implicações estratégicas que vão muito além de métricas de ROI imediato.
O mercado de hardware de IA é onde o dinheiro real está sendo feito agora. Mas quem vai ganhar nos próximos anos não é quem você imagina. São aqueles que entenderam que, pela primeira vez, software é rei, e hardware é servo.
E isso muda absolutamente tudo.
Reflexão final: Quantas decisões estratégicas sua empresa está tomando baseada em premissas que já estão obsoletas sobre como IA funciona? Porque se você ainda está pensando em IA como uma questão de "comprar as GPUs mais poderosas", você já está jogando o jogo errado.
Algo fundamental mudou no último ano, e a maioria dos líderes de negócio ainda não percebeu a extensão das implicações.
Pela primeira vez na história da computação, o software está ditando como o hardware é construído. Não é o contrário, como sempre foi. E isso não é apenas uma curiosidade técnica, é uma mudança que redefine completamente quem ganha e quem perde no mercado mais lucrativo da IA hoje: o hardware.
Pense nisso por um momento. Se você entende como modelos de IA funcionam por dentro, você consegue literalmente prever o roadmap de produto da NVIDIA, da AMD e até da Broadcom nos próximos dois anos. Isso não é exagero, é matemática aplicada.
O que realmente está acontecendo com a IA
Antes de falarmos sobre hardware, precisamos desmistificar algo que poucos executivos conseguem explicar claramente: o que exatamente esses modelos de IA estão fazendo?
A resposta é simultaneamente simples e reveladora: eles são compressores de padrões.
Deixe-me explicar isso de uma forma que faz sentido para quem toma decisões de negócio. Imagine que você precisa prever o preço de uma casa. Uma abordagem "burra" seria guardar cada detalhe possível de milhares de imóveis em um banco de dados gigantesco e depois fazer análise estatística toda vez que precisar de uma previsão.
Uma rede neural, por outro lado, não guarda todos os detalhes. Ela identifica quais variáveis realmente importam — código postal, tamanho, número de banheiros — e descarta o resto. Esse processo de eliminar o ruído e manter apenas o essencial é o que chamamos de compressão.
Os grandes modelos de linguagem que todo mundo está usando hoje são, frequentemente, dez mil vezes menores que os datasets que eles conseguem representar. Pense nisso. Eles aprendem gramática, conhecimento sobre o mundo, matemática, tudo através da identificação de padrões, não através de memorização bruta.
O problema que ninguém está falando
Mas aqui está a parte que deveria preocupar qualquer líder pensando em investir pesado em IA: a maior parte do que chamamos de "inteligência" nesses modelos ainda é, fundamentalmente, memorização sofisticada.
Inteligência real é a capacidade de aplicar padrões aprendidos em situações completamente novas, algo que chamamos de generalização fora da distribuição. É o que Jean Piaget definia como "aquilo que você usa quando não sabe o que fazer".
Os modelos atuais são impressionantes, mas estão mais próximos de bancos de dados super sofisticados do que de entidades verdadeiramente inteligentes. E quando os laboratórios de IA esbarram nessa limitação, qual é a solução deles? Fazer os modelos maiores. Muito maiores.
A lógica é brutal na sua simplicidade: se não conseguimos fazer o modelo performar bem com dados desconhecidos, vamos garantir que nenhum dado seja desconhecido para ele. É o truque da generalização dentro da distribuição, e é exatamente isso que está dirigindo a explosão no tamanho dos modelos.
Por que isso muda tudo no hardware
Aqui chegamos ao insight central: modelos estão ficando gigantescos, e isso está forçando mudanças fundamentais em como construímos infraestrutura de IA.
O modelo Llama 3 da Meta, por exemplo, tem quatrocentos e cinco bilhões de parâmetros e ocupa oitocentos e dez gigabytes de memória. Para treinar algo assim, a Meta precisou dividir o modelo em dezenas de GPUs trabalhando em paralelo, usando cinco técnicas diferentes de paralelização simultaneamente.
E aqui está a virada: todos os modelos de fronteira hoje são o que chamamos de "mixture of experts" esparsos. Traduzindo, são modelos trilionários em tamanho que conseguem rodar com a eficiência computacional de modelos muito menores, porque ativam apenas uma pequena fração de seus parâmetros a cada previsão.
O modelo chinês Kimi K2, por exemplo, tem um trilhão de parâmetros mas ativa apenas trinta e seis bilhões por vez. Apenas três vírgula seis por cento do modelo total está trabalhando em qualquer momento dado.
Isso muda completamente a matemática do hardware.
As cinco forças que estão moldando o futuro
Existem cinco mudanças específicas no software de IA que estão literalmente ditando o roadmap de produto das maiores empresas de hardware do mundo. Entender essas cinco forças é entender o mercado de IA pelos próximos anos.
Primeira força: Algumas empresas estão literalmente imprimindo a arquitetura Transformer diretamente no chip. É a aposta mais assimétrica da indústria: se a arquitetura Transformer continuar dominante, essas empresas têm vantagem de throughput sobre todos. Se mudar, seus chips viram peso de papel.
Segunda força: O aumento contínuo no tamanho dos modelos está forçando duas mudanças massivas: servidores com mais GPUs conectadas diretamente, e mais memória por GPU. Essa é a mudança mais importante de todas porque afeta a estratégia de produto de absolutamente todo mundo, da NVIDIA à AMD passando pela Broadcom.
Terceira força: O treinamento por reinforcement learning está criando uma necessidade completamente nova de infraestrutura desagregada, onde você separa as GPUs que fazem inferência das que fazem aprendizado. Isso está criando oportunidades para players especializados que antes não existiam.
Quarta força: A diferença fundamental entre cargas de trabalho de treinamento e inferência está se tornando mais pronunciada. No treinamento, quanto mais GPUs trabalhando juntas, melhor. Na inferência, você quer manter tudo dentro de um único servidor para evitar latência. Essa tensão está dirigindo inovações em arquitetura de data center.
Quinta força: A crescente adoção de modelos open-source está democratizando o acesso à tecnologia de ponta, mas também está criando um novo tipo de competição geopolítica que muitos líderes empresariais ainda não entenderam completamente.
A jogada chinesa que poucos perceberam
E aqui chegamos à implicação mais estratégica de todas, aquela que deveria estar tirando o sono de qualquer executivo pensando em posicionamento de longo prazo.
A China está weaponizando o open-source de uma forma extremamente inteligente. Enquanto empresas americanas tentam manter modelos proprietários, os chineses estão lançando modelos de fronteira completamente abertos, como a série DeepSeek.
Por quê? Porque em um mundo onde software dita hardware, quem controla o software open-source dominante controla indiretamente o mercado de hardware global. E aqui está o pulo do gato: a China não precisa vencer na fabricação de chips de ponta se puder ditar como todos os chips devem ser construídos através de software.
É uma jogada de xadrez geopolítico que a maioria das análises de mercado está completamente perdendo.
O que isso significa para você
Se você está tomando decisões de investimento, alocação de recursos ou estratégia tecnológica em IA, aqui está o que importa:
Primeiro, pare de pensar em chips individuais e comece a pensar em sistemas completos. A pergunta relevante não é mais "qual GPU é melhor", mas "qual arquitetura de sistema consegue escalar para modelos trilionários mantendo eficiência".
Segundo, entenda que a vantagem competitiva em IA está migrando rapidamente de quem tem os melhores chips para quem entende melhor como estruturar cargas de trabalho distribuídas. É uma vantagem de software, não de hardware.
Terceiro, e talvez mais importante: a batalha competitiva em IA está se tornando cada vez mais geopolítica. As decisões que você toma hoje sobre fornecedores, arquiteturas e dependências tecnológicas têm implicações estratégicas que vão muito além de métricas de ROI imediato.
O mercado de hardware de IA é onde o dinheiro real está sendo feito agora. Mas quem vai ganhar nos próximos anos não é quem você imagina. São aqueles que entenderam que, pela primeira vez, software é rei, e hardware é servo.
E isso muda absolutamente tudo.
Reflexão final: Quantas decisões estratégicas sua empresa está tomando baseada em premissas que já estão obsoletas sobre como IA funciona? Porque se você ainda está pensando em IA como uma questão de "comprar as GPUs mais poderosas", você já está jogando o jogo errado.
Algo fundamental mudou no último ano, e a maioria dos líderes de negócio ainda não percebeu a extensão das implicações.
Pela primeira vez na história da computação, o software está ditando como o hardware é construído. Não é o contrário, como sempre foi. E isso não é apenas uma curiosidade técnica, é uma mudança que redefine completamente quem ganha e quem perde no mercado mais lucrativo da IA hoje: o hardware.
Pense nisso por um momento. Se você entende como modelos de IA funcionam por dentro, você consegue literalmente prever o roadmap de produto da NVIDIA, da AMD e até da Broadcom nos próximos dois anos. Isso não é exagero, é matemática aplicada.
O que realmente está acontecendo com a IA
Antes de falarmos sobre hardware, precisamos desmistificar algo que poucos executivos conseguem explicar claramente: o que exatamente esses modelos de IA estão fazendo?
A resposta é simultaneamente simples e reveladora: eles são compressores de padrões.
Deixe-me explicar isso de uma forma que faz sentido para quem toma decisões de negócio. Imagine que você precisa prever o preço de uma casa. Uma abordagem "burra" seria guardar cada detalhe possível de milhares de imóveis em um banco de dados gigantesco e depois fazer análise estatística toda vez que precisar de uma previsão.
Uma rede neural, por outro lado, não guarda todos os detalhes. Ela identifica quais variáveis realmente importam — código postal, tamanho, número de banheiros — e descarta o resto. Esse processo de eliminar o ruído e manter apenas o essencial é o que chamamos de compressão.
Os grandes modelos de linguagem que todo mundo está usando hoje são, frequentemente, dez mil vezes menores que os datasets que eles conseguem representar. Pense nisso. Eles aprendem gramática, conhecimento sobre o mundo, matemática, tudo através da identificação de padrões, não através de memorização bruta.
O problema que ninguém está falando
Mas aqui está a parte que deveria preocupar qualquer líder pensando em investir pesado em IA: a maior parte do que chamamos de "inteligência" nesses modelos ainda é, fundamentalmente, memorização sofisticada.
Inteligência real é a capacidade de aplicar padrões aprendidos em situações completamente novas, algo que chamamos de generalização fora da distribuição. É o que Jean Piaget definia como "aquilo que você usa quando não sabe o que fazer".
Os modelos atuais são impressionantes, mas estão mais próximos de bancos de dados super sofisticados do que de entidades verdadeiramente inteligentes. E quando os laboratórios de IA esbarram nessa limitação, qual é a solução deles? Fazer os modelos maiores. Muito maiores.
A lógica é brutal na sua simplicidade: se não conseguimos fazer o modelo performar bem com dados desconhecidos, vamos garantir que nenhum dado seja desconhecido para ele. É o truque da generalização dentro da distribuição, e é exatamente isso que está dirigindo a explosão no tamanho dos modelos.
Por que isso muda tudo no hardware
Aqui chegamos ao insight central: modelos estão ficando gigantescos, e isso está forçando mudanças fundamentais em como construímos infraestrutura de IA.
O modelo Llama 3 da Meta, por exemplo, tem quatrocentos e cinco bilhões de parâmetros e ocupa oitocentos e dez gigabytes de memória. Para treinar algo assim, a Meta precisou dividir o modelo em dezenas de GPUs trabalhando em paralelo, usando cinco técnicas diferentes de paralelização simultaneamente.
E aqui está a virada: todos os modelos de fronteira hoje são o que chamamos de "mixture of experts" esparsos. Traduzindo, são modelos trilionários em tamanho que conseguem rodar com a eficiência computacional de modelos muito menores, porque ativam apenas uma pequena fração de seus parâmetros a cada previsão.
O modelo chinês Kimi K2, por exemplo, tem um trilhão de parâmetros mas ativa apenas trinta e seis bilhões por vez. Apenas três vírgula seis por cento do modelo total está trabalhando em qualquer momento dado.
Isso muda completamente a matemática do hardware.
As cinco forças que estão moldando o futuro
Existem cinco mudanças específicas no software de IA que estão literalmente ditando o roadmap de produto das maiores empresas de hardware do mundo. Entender essas cinco forças é entender o mercado de IA pelos próximos anos.
Primeira força: Algumas empresas estão literalmente imprimindo a arquitetura Transformer diretamente no chip. É a aposta mais assimétrica da indústria: se a arquitetura Transformer continuar dominante, essas empresas têm vantagem de throughput sobre todos. Se mudar, seus chips viram peso de papel.
Segunda força: O aumento contínuo no tamanho dos modelos está forçando duas mudanças massivas: servidores com mais GPUs conectadas diretamente, e mais memória por GPU. Essa é a mudança mais importante de todas porque afeta a estratégia de produto de absolutamente todo mundo, da NVIDIA à AMD passando pela Broadcom.
Terceira força: O treinamento por reinforcement learning está criando uma necessidade completamente nova de infraestrutura desagregada, onde você separa as GPUs que fazem inferência das que fazem aprendizado. Isso está criando oportunidades para players especializados que antes não existiam.
Quarta força: A diferença fundamental entre cargas de trabalho de treinamento e inferência está se tornando mais pronunciada. No treinamento, quanto mais GPUs trabalhando juntas, melhor. Na inferência, você quer manter tudo dentro de um único servidor para evitar latência. Essa tensão está dirigindo inovações em arquitetura de data center.
Quinta força: A crescente adoção de modelos open-source está democratizando o acesso à tecnologia de ponta, mas também está criando um novo tipo de competição geopolítica que muitos líderes empresariais ainda não entenderam completamente.
A jogada chinesa que poucos perceberam
E aqui chegamos à implicação mais estratégica de todas, aquela que deveria estar tirando o sono de qualquer executivo pensando em posicionamento de longo prazo.
A China está weaponizando o open-source de uma forma extremamente inteligente. Enquanto empresas americanas tentam manter modelos proprietários, os chineses estão lançando modelos de fronteira completamente abertos, como a série DeepSeek.
Por quê? Porque em um mundo onde software dita hardware, quem controla o software open-source dominante controla indiretamente o mercado de hardware global. E aqui está o pulo do gato: a China não precisa vencer na fabricação de chips de ponta se puder ditar como todos os chips devem ser construídos através de software.
É uma jogada de xadrez geopolítico que a maioria das análises de mercado está completamente perdendo.
O que isso significa para você
Se você está tomando decisões de investimento, alocação de recursos ou estratégia tecnológica em IA, aqui está o que importa:
Primeiro, pare de pensar em chips individuais e comece a pensar em sistemas completos. A pergunta relevante não é mais "qual GPU é melhor", mas "qual arquitetura de sistema consegue escalar para modelos trilionários mantendo eficiência".
Segundo, entenda que a vantagem competitiva em IA está migrando rapidamente de quem tem os melhores chips para quem entende melhor como estruturar cargas de trabalho distribuídas. É uma vantagem de software, não de hardware.
Terceiro, e talvez mais importante: a batalha competitiva em IA está se tornando cada vez mais geopolítica. As decisões que você toma hoje sobre fornecedores, arquiteturas e dependências tecnológicas têm implicações estratégicas que vão muito além de métricas de ROI imediato.
O mercado de hardware de IA é onde o dinheiro real está sendo feito agora. Mas quem vai ganhar nos próximos anos não é quem você imagina. São aqueles que entenderam que, pela primeira vez, software é rei, e hardware é servo.
E isso muda absolutamente tudo.
Reflexão final: Quantas decisões estratégicas sua empresa está tomando baseada em premissas que já estão obsoletas sobre como IA funciona? Porque se você ainda está pensando em IA como uma questão de "comprar as GPUs mais poderosas", você já está jogando o jogo errado.