DeepSeek, o modelo de IA barato e aberto da China, agita comunidade científica

janeiro 31, 2025 / Marcos Pędłowski / Deixe um comentário

O DeepSeek-R1 executa tarefas de raciocínio no mesmo nível que o o1 da OpenAI — e está aberto para análise por pesquisadores

A empresa chinesa DeepSeek estreou uma versão de seu grande modelo de linguagem no ano passado. Crédito: Koshiro K/Alamy

Por Elizabeth Gibney para a “Nature”

Um grande modelo de linguagem desenvolvido na China, chamado DeepSeek-R1, está entusiasmando os cientistas como um rival acessível e aberto aos modelos de “raciocínio” como o o1 da OpenAI.

Esses modelos geram respostas passo a passo, em um processo análogo ao raciocínio humano. Isso os torna mais aptos do que os modelos de linguagem anteriores para resolver problemas científicos, e significa que eles podem ser úteis em pesquisas . Os testes iniciais do R1, lançado em 20 de janeiro, mostram que seu desempenho em certas tarefas em química, matemática e codificação está no mesmo nível do o1 — que impressionou os pesquisadores quando foi lançado pela OpenAI em setembro .

“Isso é selvagem e totalmente inesperado”, escreveu Elvis Saravia, pesquisador de inteligência artificial (IA) e cofundador da empresa de consultoria em IA sediada no Reino Unido, DAIR.AI, no X.

O R1 se destaca por outro motivo. A DeepSeek, a start-up em Hangzhou que construiu o modelo, o lançou como ‘open-weight’, o que significa que os pesquisadores podem estudar e construir sobre o algoritmo. Publicado sob uma licença do MIT, o modelo pode ser reutilizado livremente, mas não é considerado totalmente de código aberto, porque seus dados de treinamento não foram disponibilizados.

“A abertura do DeepSeek é bastante notável”, diz Mario Krenn, líder do Artificial Scientist Lab no Instituto Max Planck para a Ciência da Luz em Erlangen, Alemanha. Em comparação, o1 e outros modelos construídos pela OpenAI em São Francisco, Califórnia, incluindo seu último esforço, o3 , são “essencialmente caixas-pretas”, ele diz.

O DeepSeek não divulgou o custo total do treinamento do R1, mas está cobrando das pessoas que usam sua interface cerca de um trigésimo do que o o1 custa para executar. A empresa também criou mini versões ‘destiladas’ do R1 para permitir que pesquisadores com poder de computação limitado brinquem com o modelo. Um “experimento que custou mais de £ 300 [US$ 370] com o o1, custou menos de US$ 10 com o R1”, diz Krenn. “Esta é uma diferença dramática que certamente desempenhará um papel em sua adoção futura.”

Modelos de desafio

O R1 faz parte de um boom em modelos de linguagem chinesa (LLMs) . Desmembrado de um fundo de hedge, o DeepSeek emergiu da relativa obscuridade no mês passado quando lançou um chatbot chamado V3, que superou os principais rivais, apesar de ter sido construído com um orçamento apertado. Especialistas estimam que custou cerca de US$ 6 milhões para alugar o hardware necessário para treinar o modelo, em comparação com mais de US$ 60 milhões para o Llama 3.1 405B da Meta, que usou 11 vezes os recursos de computação.

Parte do burburinho em torno do DeepSeek é que ele conseguiu fazer o R1 apesar dos controles de exportação dos EUA que limitam o acesso das empresas chinesas aos melhores chips de computador projetados para processamento de IA. “O fato de ele vir da China mostra que ser eficiente com seus recursos importa mais do que apenas a escala de computação”, diz François Chollet, um pesquisador de IA em Seattle, Washington.

O progresso do DeepSeek sugere que “a liderança percebida [que os] EUA já tiveram diminuiu significativamente”, escreveu Alvin Wang Graylin, especialista em tecnologia em Bellevue, Washington, que trabalha na empresa de tecnologia imersiva HTC, sediada em Taiwan, no X. “Os dois países precisam buscar uma abordagem colaborativa para construir IA avançada em vez de continuar com a atual abordagem de corrida armamentista sem vitória.”

Cadeia de pensamento

Os LLMs treinam em bilhões de amostras de texto, cortando-as em partes de palavras, chamadas tokens, e padrões de aprendizagem nos dados. Essas associações permitem que o modelo preveja tokens subsequentes em uma frase. Mas os LLMs são propensos a inventar fatos, um fenômeno chamado alucinação , e muitas vezes lutam para raciocinar sobre problemas.

Assim como o o1, o R1 usa um método de ‘cadeia de pensamento’ para melhorar a capacidade de um LLM de resolver tarefas mais complexas, incluindo, às vezes, retroceder e avaliar sua abordagem. O DeepSeek fez o R1 ‘ajustando’ o V3 usando aprendizado por reforço, que recompensou o modelo por chegar a uma resposta correta e por trabalhar em problemas de uma forma que delineasse seu ‘pensamento’.

Rivais da IA: Gráfico de barras mostrando resultados de testes conduzidos pela DeepSeek, testando três versões de seus grandes modelos de linguagem contra os modelos o1 da OpenAI em tarefas de matemática, codificação e raciocínio. O DeepSeek-R1 venceu ou rivalizou com o o1 em benchmarks de matemática e codificação. — *Fonte: DeepSeek*

Ter poder de computação limitado levou a empresa a “inovar algoritmicamente”, diz Wenda Li, pesquisadora de IA na Universidade de Edimburgo, Reino Unido. Durante o aprendizado por reforço, a equipe estimou o progresso do modelo em cada estágio, em vez de avaliá-lo usando uma rede separada. Isso ajudou a reduzir os custos de treinamento e execução, diz Mateja Jamnik, cientista da computação na Universidade de Cambridge, Reino Unido. Os pesquisadores também usaram uma arquitetura de ‘mistura de especialistas’, que permite que o modelo ative apenas as partes de si mesmo que são relevantes para cada tarefa.

Em testes de benchmark, relatados em um artigo técnico que acompanha o modelo, o DeepSeek-R1 pontuou 97,3% no conjunto de problemas de matemática MATH-500 criado por pesquisadores da Universidade da Califórnia, Berkeley, e superou 96,3% dos participantes humanos em uma competição de programação chamada Codeforces. Isso está no mesmo nível das habilidades do o1; o o3 não foi incluído nas comparações (veja ‘IA rivais’).

É difícil dizer se os benchmarks capturam a verdadeira capacidade de um modelo de raciocinar ou generalizar, ou meramente sua proficiência em passar em tais testes. Mas como o R1 é aberto, sua cadeia de pensamento é acessível aos pesquisadores, diz Marco Dos Santos, um cientista da computação da Universidade de Cambridge. “Isso permite melhor interpretabilidade dos processos de raciocínio do modelo”, ele diz.

Os cientistas já estão testando as habilidades do R1. Krenn desafiou ambos os modelos rivais a classificar 3.000 ideias de pesquisa pelo quão interessantes elas são e comparou os resultados com classificações feitas por humanos. Nesta medida, o R1 teve um desempenho ligeiramente inferior ao do o1. Mas o R1 venceu o o1 em certos cálculos em óptica quântica, diz Krenn. “Isso é bastante impressionante.”

doi: https://doi.org/10.1038/d41586-025-00229-6

Fonte: Nature

A Inteligência Artificial e as disputas do mundo contemporâneo

janeiro 31, 2025 / Marcos Pędłowski / Deixe um comentário

Imagem produzida por inteligência artificial

Por Carlos Eduardo Martins para o “Blog da Boitempo”

Quando da posse do novo presidente dos Estados Unidos, alertamos nas redes sociais que as Big Techs se aproximaram de Trump porque estavam mais fracas e buscavam proteção contra a concorrência chinesa. Mencionamos que o custo dessa aproximação era altíssimo: perda da suposta neutralidade, desgaste social e político, defesa da redução de impostos e direitos, das emissões de carbono e suspeição de vinculação ao neonazismo. A recente divulgação da produção de software de inteligência artificial pela China com performance similar e custos 10 vezes menores que os das Big Techs norte-americanas evidencia a correção de nosso argumento e a profundidade da crise do setor de alta tecnologia estadunidense, que deverá se aprofundar nos próximos anos.

A notícia dos novos chatbots da DeepSek, Deep-Seek-R1 e DeepSeek-R1-Zero, provocou a queda de 17% dos preços das ações da Niyvia em apenas um dia, arrastando para baixo todo o setor de alta tecnologia. Gerou perdas de US$ 1 trilhão nesse segmento, impactando negativamente a Nasdak e a S&P 500, entre outros ativos, como as ações de Google, Amazon, Meta e Microsoft, atingindo diretamente grande parte dos bilionários que estão se escorando em Trump.

A China provou que o bloqueio que sofre à importação de alta tecnologia é inútil para excluí-la da corrida pela fronteira tecnológica. E isso por várias razões:

a) a China investe fortemente na capacitação de sua força de trabalho e vem repatriando parte dos cientistas e engenheiros formados no exterior;

b) prioriza o desenvolvimento de software ao de hardware, vinculando-se muito mais profundamente à revolução científico-técnica, que tem como principal fundamento a qualificação e o aumento do valor da força de trabalho;

c) desenvolve softwares de código aberto, priorizando a articulação entre a socialização de forças produtivas, a criação e a diversidade, abrindo-se potencialmente para combinar a contribuição de trabalhadores de todo o mundo. Trata-se de um gigantesco processo de formação do trabalho coletivo em construção que desafia o monopólio tecnológico e coloca a potência asiática à frente do vale do Silício na disputa pela fronteira tecnológica. Para reduzir os custos da inteligência artificial, a Deep Seek utilizou não apenas programadores, mas profissionais das ciências humanas e poetas.

Esse evento não é aleatório, mas um ponto de inflexão associado ao desenvolvimento de uma nova etapa da revolução científico-técnica e às profundas modificações que ela está gerando nas condições de existência: a automação ao setor de serviços, a ampliação do trabalho intelectual — vinculado à ciência, educação, cultura e lazer —, e a transição energética para formas renováveis e limpas.

Está em curso no mundo a luta das forças do século XXI, que o querem parir, contra aquelas do século XX, que pretendem deter a marcha da história da humanidade e, se necessário, destruí-la.

De um lado, temos um paradigma emergente baseado na socialização. Ele se materializa no protagonismo do conhecimento sobre a tecnologia material, das energias renováveis sobre os combustíveis fósseis, do diálogo sobre a força, da paz sobre a guerra, e da propriedade coletiva sobre a privada. A China, hoje, responde por 80% da produção de energia renovável no mundo, e em segundo lugar está a Indonésia, que acaba se associar ao BRICS como membro pleno. Embora as energias renováveis respondam por cerca de 20% da produção de energia do mundo atualmente, a previsão é de que em 2050 possam responder pela metade.

De outro lado, está o imperialismo, o territorialismo, a intimidação, a coação e a guerra. Esse projeto traz a pretensão de retomar o Destino Manifesto em versão aditivada, estendendo o espaço vital estadunidense para todo o Hemisfério Ocidental, da Groelândia até a Terra do Fogo. Ele se baseia no controle espacial, reage contra a emergência do paradigma verde e mantém a sua aposta em uma economia mundial baseada em combustíveis fósseis, sobre os quais pretende criar monopólios, protetorados e dependências permanentes.

Este é o sentido mais profundo do dilema que está em curso no mundo atual. Senhoras e senhores, ajustem as suas teorias. Não podemos olhar os dilemas do mundo contemporâneo com visões que mirem o nosso tempo com as mesmas estruturas mentais do territorialismo e do domínio das energias fósseis sobre o planeta.

A economia política das sanções e das guerras que os Estados Unidos estão impulsionando não representam apenas ameaças. São também janelas de oportunidade para a integração regional e o desenvolvimento das conexões comerciais, produtivas, financeiras e militares entre o Sul Global. Os países latino-americanos precisam se preparar para esse cenário. Para isso, necessitam de lideranças ousadas, criativas e determinadas para romper com a austeridade neoliberal e o imperialismo estadunidense, restabelecer e aprofundar a agenda da integração regional — que foi interrompida e desmontada — e articulá-la com as forças multipolares emergentes, que têm no BRICS um eixo fundamental. O Brasil goza de condições estruturais excepcionais para atuar nesse cenário, constituindo um país anfíbio com forte vocação continental e marítima, imensa dotação de recursos naturais e minerais, membro pleno e fundador do BRICS, exercendo atualmente a sua presidência, com imensa projeção na América do Sul. Falta ajustar as suas condições subjetivas, políticas e ideológicas às suas possibilidades estruturais.

Fonte: Blog da Boitempo

O DeepSeek e seu grande salto para frente: um terremoto abala os capitalistas ocidentais de TI

janeiro 29, 2025 / Marcos Pędłowski / Deixe um comentário

O terramoto do mercado de ações ainda não acabou para os capitalistas ocidentais de Tecnologia da Informação (TI). O desenvolvedor chinês de Inteligência Artificial (IA) DeepSeek está intensificando o seu impacto

Antes da onda: com seu projeto de código aberto, os desenvolvedores de Hangzhou conseguiram um golpe contra a concorrência

Por Marc Bebenroth para o “JungeWelt”

O golpe duplo de Hangzhou estava lá: após a estreia das duas mais recentes aplicações de IA da República Popular da China, os capitalistas ocidentais, em particular, ainda estavam ocupados a processar o impacto nas bolsas de valores na terça-feira.

O Deep Seek apresentou a versão mais recente de seu aplicativo de geração de imagens na noite de terça-feira. De acordo com suas próprias declarações, o “Janus-Pro” venceu produtos concorrentes como o “Dall-E 3” da empresa norte-americana Open AI em testes. Anteriormente, o Deep Seek não só causou agitação na segunda-feira com o lançamento de seu outro produto de IA, um Large Language Model (LLM) – coloquialmente conhecido como chatbot – mas também causou quedas recordes nos preços de várias ações de tecnologia.

Enquanto isso, os desenvolvedores do Deep Seek tiraram férias de Ano Novo de uma semana. Muitos dos jovens funcionários estão surpresos com a forma como o mundo está reagindo aos seus modelos de IA poderosos, de baixo custo e de código aberto, informou o South China Morning Post (edição online) na terça-feira.

Os complexos sistemas de reconhecimento de padrões requerem chips de alta tecnologia. Os data centers necessários para operá-los consomem enormes quantidades de eletricidade. Todas as expectativas de lucro associadas foram também expressas nos preços do mercado bolsista, agora reduzidos. A fabricante de chips Nvidia recuperou apenas ligeiramente da perda de 17 por cento registada na segunda-feira, com um aumento entre cinco e seis por cento na terça-feira, conforme informou a agência de notícias Reuters . A empresa estava tão sobrevalorizada até então que a “correcção de preços” de segunda-feira significou uma desvalorização equivalente a 563 mil milhões de euros – segundo a Reuters, uma perda recorde num dia para uma empresa. Até então, as ações da Nvidia eram negociadas a quase 60 vezes o valor dos lucros da empresa.

A Siemens Energy também voltou a subir ligeiramente no índice de ações alemão. Na segunda-feira, o grupo sofreu uma perda de valor de impressionantes 18%. Perdas especulativas foram relatadas no Japão pelo segundo dia consecutivo. A Advantest, fabricante de dispositivos de teste de chips e fornecedora da Nvidia, perdeu dez por cento no mercado de ações na terça-feira, após uma perda de nove por cento na segunda-feira.

Gigantes ocidentais de TI como Alphabet (Google, YouTube, etc.) ou Microsoft (Windows, Open-AI) e fabricantes de hardware como Broadcomm e Nvidia investiram bilhões de dólares para garantir seu lugar sob o sol da IA. O “Projeto Stargate” recentemente anunciado apenas pelo governo dos EUA pretende enterrar US$ 500 bilhões em capital privado no Texas, a fim de criar centros de dados de IA lá. Oracle, Softbank, o fundo MGX dos Emirados Árabes Unidos – e Nvidia estariam envolvidos. Apenas a Open-AI, que pertence ao Grupo Microsoft, se beneficiará com seu LLM Chat-GPT, conforme noticiou o Financial Times na sexta-feira.

Os desenvolvedores ao serviço do capitalista financeiro e chefe da Deep Seek, Liang Wenfeng, disseram que usaram chips da Nvidia com menor capacidade e gastaram menos do que o equivalente a 5,7 milhões de euros no “treinamento” do seu LLM. A Nvidia espera, portanto, uma alta demanda contínua e negócios correspondentes com a República Popular.

Fonte: JungeWelt

Sucesso da chinesa DeepSeek expõe sobrevalorização de empresas de IA dos EUA e pode causar banho de sangue no mercado de ações

janeiro 27, 2025janeiro 27, 2025 / Marcos Pędłowski / Deixe um comentário

O logotipo da empresa chinesa de inteligência artificial DeepSeek é visto em Hangzhou, província de Zhejiang, China, em 26 de janeiro de 2025. CFOTO/Future Publishing via Getty Images

Por Ryan Grim e Waqas Ahmed para o DropSite

As ações de tecnologia dos EUA estão despencando enquanto a China parece estar expondo as empresas americanas envolvidas em Inteligência Artificial (IA) como extremamente supervalorizadas. É uma consequência previsível de como o governo americano abordou o Vale do Silício e vice-versa. Este não é o tipo de coisa que normalmente cobrimos, mas não confiamos muito na mídia dos EUA para contar essa história com precisão.

Qualquer um que acompanha casualmente viu como foi. Empresas de tecnologia dos EUA, com o apoio do governo federal (e do Pentágono), construíram uma posição global dominante por meio de inovação genuína. Microsoft, Facebook, Apple, Google e Amazon remodelaram o mundo. A Microsoft, uma das primeiras grandes empresas a crescer, tentou interromper essa inovação comprando e/ou esmagando seus concorrentes, mas os EUA a processaram em 1998 por violar as leis antitruste. O governo Bush resolveu o caso, recuando no esforço de separá-los. O que se seguiu foi um abraço bipartidário da Big Tech; as eras Bush e Obama viram crescimento desenfreado e fusões. À medida que as empresas de tecnologia viam empresas menores inovando, elas compravam a empresa, a matavam e absorviam parte de sua equipe.

Um movimento antimonopólio começou a borbulhar, levando a processos judiciais contra Facebook, Amazon, Google e Apple na última década. Lina Khan, como presidente da Comissão Federal de Comércio sob o ex-presidente Joe Biden, tornou-se uma heroína popular ao alertar que a ganância e a consolidação não estavam prejudicando apenas consumidores e trabalhadores, mas que as próprias empresas escleróticas acabariam sofrendo com a falta de concorrência. “Nossa história mostra que manter mercados abertos, justos e competitivos, especialmente em pontos de inflexão tecnológica, é uma maneira fundamental de garantir que a América se beneficie da inovação que essas ferramentas podem catalisar”, disse Khan em 2023.

Agora ficou claro que o fosso que os EUA construíram para proteger suas empresas da concorrência doméstica na verdade criou as condições que permitiram que elas atrofiassem. Elas ficaram gordas e felizes dentro de seus castelos. Seus negócios mudaram da inovação tecnológica para a realização de alquimia com planilhas, transformando métricas inventadas em avaliações em dólares desvinculadas da realidade. Agora, a DeepSeek expôs o golpe. Com uma pequena fração dos recursos e sem acesso a toda a panóplia de tecnologia de chips dos EUA, a empresa chinesa DeepSeek enganou o Vale do Silício. A empresa americana OpenAI começou como uma organização sem fins lucrativos dedicada a tornar a IA amplamente disponível, como seu nome sugere. Seu chefe, Sam Altman, conseguiu transformá-la em uma empresa com fins lucrativos e fechá-la.

Agora, o DeepSeek está ironicamente cumprindo a missão original do OpenAI ao fornecer um modelo de código aberto que simplesmente tem melhor desempenho do que qualquer outro no mercado.

Enquanto isso, aqui nos Estados Unidos, Trump está comemorando um investimento (possivelmente exagerado) de US$ 500 bilhões no Texas para abastecer o poder computacional de IA que parece estar obsoleto — ou muito menos relevante — graças à inovação da DeepSeek. E Trump está enchendo sua administração com manos da criptografia, magnatas da tecnologia se recusando a desinvestir e até lançou sua própria moeda meme de golpe. Os principais conselheiros de tecnologia de Trump, como Elon Musk, enquanto isso, têm extensos laços comerciais diretamente com a China. Você não precisa apertar os olhos muito para ver qual desses países vai ganhar essa competição.

O contrato social firmado entre o governo dos EUA e o Vale do Silício — do qual o povo americano se tornou parte involuntária — era direto: deixaremos um punhado de caras da tecnologia se tornarem incomensuravelmente ricos e, em troca, eles construirão uma indústria de tecnologia que manterá a América globalmente dominante. Em vez disso, os caras da tecnologia quebraram o acordo. Eles pegaram o dinheiro, mas em vez de continuar a inovar e competir, construíram monopólios para manter a concorrência fora — até mesmo recebendo a ajuda do estado de segurança nacional dos EUA para bloquear o acesso chinês à nossa tecnologia. Mas eles não conseguiram ficar fora da competição para sempre. Lina Khan estava certa. E agora aqui estamos.

Os efeitos posteriores serão profundos se a trajetória de uma transferência de riqueza dos EUA para a China continuar acelerada. É comum dizer que a maioria das pessoas não possui ações individuais, mas isso subestima a exposição que todos nós temos a esse golpe. Está em nossos IRAs ou 401ks e a ascensão dessas ações constituiu quase todo o crescimento do mercado de ações nos últimos anos. E se a China se tornar cada vez mais o lugar para trabalhar se você for um pesquisador ou desenvolvedor ambicioso, não é difícil ver aonde isso leva.

Abaixo está uma explicação sobre o DeepSeek que pedimos ao nosso correspondente Waqas Ahmed para elaborar.

CEO da OpenAI, Sam Altman. Foto de Justin Sullivan/Getty Images.

P: O que é DeepSeek e por que ele está causando um colapso nas ações?

R: A empresa chinesa DeepSeek lançou um modelo de IA que é tão bom quanto qualquer um de seus equivalentes americanos e o tornou de código aberto. Isso mudou fundamentalmente a economia e a política da indústria de IA em rápido crescimento, que até agora tem sido liderada por um oligopólio de empresas de tecnologia americanas tentando posicionar os Large Language Models (LLMs) como o avanço tecnológico definidor deste século, e eles próprios como os guardiões de seu molho secreto.

Há muita conversa sobre o DeepSeek custar apenas cerca de US$ 6 milhões para ser construído, embora esse valor não inclua pesquisa e desenvolvimento. E, apesar dos controles de exportação, o DeepSeek conseguiu explorar um número não trivial de chips de alta tecnologia que estávamos tentando manter deles. No entanto, ainda é um choque enorme para a indústria dos EUA.

P: O que são LLMs e como eles surgiram ?

R: Um artigo de 2017 intitulado “Atenção é tudo o que você precisa ” foi um ponto de virada na indústria de IA. O artigo descreveu um método de criação de um modelo de aprendizado de máquina que poderia produzir texto semelhante ao humano com precisão e escala sem precedentes usando uma arquitetura chamada “transformadores”. Esses “transformadores” melhoraram consideravelmente uma classe de modelos chamados Large Language Models (LLMs). Os LLMs usam grandes quantidades de texto — livros, artigos, e-mails, receitas, perguntas frequentes, tudo — para criar representações matemáticas internas de relacionamentos entre bilhões de palavras e frases — ou, mais precisamente, entre combinações de tokens encontrados em uma linguagem humana natural.

Antes de 2017, os LLMs não eram muito úteis, mas os “transformadores” mudaram isso. Ao processar grandes quantidades de texto usando a arquitetura do transformador, esses modelos agora podiam “aprender” o que as palavras significam em diferentes contextos e detectar nuances que os computadores nunca tinham conseguido antes, permitindo que esses modelos produzissem texto extremamente relevante em resposta a um prompt ou pergunta do usuário.

P: Como começou o entusiasmo pela IA?

R: A OpenAI se tornou a primeira empresa americana a demonstrar que se você tirar um instantâneo de toda a internet conhecida e de todos os livros digitalizados existentes sem se preocupar muito com a lei de direitos autorais , você pode criar um modelo tão bom que sua saída seria quase indistinguível daquela de um burocrata de DC com inteligência medíocre. No entanto, a OpenAI mostrou que seu modelo poderia ser treinado para ter experiência em diferentes domínios e poderia dar respostas aprofundadas a perguntas muito específicas. Seu modelo passou em exames de codificação, no exame da ordem e se formou na escola de negócios. Os resultados foram tão chocantes que a OpenAI saiu e afirmou que valia um zilhão de dólares e que o futuro da humanidade dependia disso.

P: Qual é o estado atual do setor de IA?

R: A OpenAI, parcialmente de propriedade da Microsoft, foi a primeira a lançar um grande produto LLM, o ChatGPT, em novembro de 2022. Logo depois, a Meta lançou seu próprio modelo, o LLaMa, e o Google lançou o Gemini. Todas as três empresas tinham grandes quantidades de texto para treinar seus modelos, mas um LLM precisa de outro ingrediente crucial: poder de computação para processar esse texto e, em seguida, gerar respostas às consultas do usuário. A empresa líder que fabrica as máquinas de computação é a Nvidia, cujas ações cresceram exponencialmente como resposta quando as guerras de LLM lideradas pela OpenAI/Microsoft, Google e Meta se seguiram.

As máquinas de computação são chamadas de GPUs — Unidades de Processamento Gráfico. Elas foram originalmente inventadas para processar gráficos de computador para jogos, como renderização 3D. Mais tarde, elas se tornaram populares porque suas capacidades de processamento paralelo as tornaram ideais para mineração de criptomoedas. Agora, ao que parece, elas também são ótimas em processamento de dados de IA por razões semelhantes. A Nvidia basicamente tem surfado ondas de booms à medida que diferentes mercados descobrem novos usos para seu produto.

Nos últimos anos, Meta, Google, Microsoft e OpenAI conseguiram acumular centenas de milhares das GPUs mais avançadas e obter tratamento preferencial da Nvidia e de seu fornecedor, o principal fabricante mundial de semicondutores, a TSMC.

A indústria tecnológica americana tem tomado medidas significativas para se alinhar em torno da IA. As empresas têm adquirido startups, recrutado os melhores pesquisadores de IA e investido recursos no desenvolvimento de seus modelos primários de IA proprietários (chamados de modelos fundamentais), criando um fluxo de investimento em IA e tecnologias relacionadas, como computação em nuvem, fabricação avançada de chips e infraestrutura de dados. Tudo isso é uma tentativa de garantir o domínio no que eles afirmam ser a próxima fronteira da inovação tecnológica.

P: Como a China está envolvida?

R: Como parte de seu esforço maior para conter a China, o governo dos EUA tem a missão de impedir que empresas chinesas se tornem líderes em diferentes áreas de tecnologia. Ele fez isso exercendo controle sobre as cadeias de suprimentos globais e protegendo as empresas de tecnologia americanas da concorrência no processo. Os EUA bloquearam a entrada da Huawei no seu território no momento em que ela estava ultrapassando a Apple para se tornar a segunda maior fabricante de smartphones do mundo e impediram que países europeus instalassem infraestrutura 5G fabricada pela Huawei quando era claramente mais econômica; e, mais recentemente, aprovaram uma legislação proibindo o TikTok, um aplicativo de mídia social chinês que se tornou extremamente popular nos Estados Unidos e cujo algoritmo de recomendação nenhum aplicativo de mídia social americano conseguiu superar.

A alegação dos EUA de que a Huawei e outras empresas de tecnologia chinesas estão inextricavelmente ligadas à estratégia geopolítica da China e colocam empresas e pessoas ocidentais em risco elevado de vigilância e espionagem corporativa é, claro, baseada na realidade. A DeepSeek não tem vergonha de quantos dados coleta em sua plataforma, incluindo até mesmo suas teclas digitadas:

Coletamos certas informações de conexão de dispositivo e rede quando você acessa o Serviço. Essas informações incluem o modelo do seu dispositivo, sistema operacional, padrões ou ritmos de pressionamento de tecla, endereço IP e idioma do sistema. Também coletamos informações relacionadas ao serviço, diagnóstico e desempenho, incluindo relatórios de falhas e logs de desempenho. Atribuímos automaticamente a você um ID de dispositivo e um ID de usuário. Quando você faz login em vários dispositivos, usamos informações como o ID do seu dispositivo e o ID do usuário para identificar sua atividade em todos os dispositivos para fornecer a você uma experiência de login perfeita e para fins de segurança.

No entanto, como o DeepSeek é de código aberto e pode ser executado localmente em um dispositivo separado, os olhos curiosos do presidente Xi Jinping podem ser protegidos.

Manter o domínio tecnológico global é uma das principais preocupações que os formuladores de políticas dos EUA têm repetidamente citado e identificado a IA como uma tecnologia crucial para manter esse domínio . Em 2018, quando o governo dos EUA estava no processo de banir a Huawei, percebeu que precisaria fazer o mesmo com tecnologias downstream, como chips semicondutores, o principal componente usado em CPUs e GPUs. A grave escassez de chips devido a interrupções na cadeia de suprimentos global durante a Covid-19 mostrou que chips avançados são um gargalo na cadeia de suprimentos global e um recurso escasso. Em 2022, o governo Biden impôs sanções abrangentes à China, interrompendo a exportação desses chips para o país e impedindo que as empresas chinesas de IA acessassem as GPUs mais recentes e eficientes. Ao mesmo tempo, aprovou a lei CHIPS, subsidiando a fabricação nacional de semicondutores com mais de US$ 50 bilhões.

P: Por que todo mundo de repente está tão interessado em IA?

R: O nível exagerado de marketing e vendedor de óleo de cobra da indústria de IA dos EUA causou um certo pânico entre os formuladores de políticas governamentais menos alfabetizados tecnicamente. Muitos especialistas da indústria alegaram que os avanços em LLMs poderiam em breve levar à criação da Inteligência Artificial Geral (AGI), basicamente um computador que pensa como um ser humano e é bom em muitas tarefas diferentes. Alguns já soaram o alarme de que ele pode se tornar maligno e autoconsciente. Mas até mesmo seus detratores concordaram que os LLMs são uma tecnologia revolucionária que mudará fundamentalmente a forma como interagimos com os computadores.

P: Por que os caras da tecnologia estão tão bravos?

Grandes empresas de tecnologia também têm dito ao governo e investidores que construir IA é muito, muito caro. Em sua primeira semana no cargo, o presidente dos EUA, Donald Trump, anunciou US$ 500 bilhões em investimentos do setor privado em IA sob um projeto chamado Stargate — uma colaboração entre OpenAI, Softbank e Oracle.

No passado, o fundador da OpenAI, Sam Altman, afirmou que precisaria de até US$ 7 trilhões para criar sua IA dos sonhos e estava levantando investimentos usando essa meta. Para contextualizar, nenhum homem em toda a história do mundo já gastou essa quantia de dinheiro em uma única coisa. Mas a mensagem subjacente parece ser: esta é uma tecnologia mágica e uma força mais poderosa do que qualquer outra que o mundo já viu, precisamos de quantias astronômicas de dinheiro para construí-la e precisamos da proteção do governo dos EUA enquanto fazemos isso.

Então veio uma pequena empresa chinesa que estourou essa bolha com seu projeto paralelo. Ela usou US$ 5,5 milhões em poder computacional para fazer isso, usando apenas 2.048 GPUs Nvidia H800 que a empresa chinesa tinha porque não podia comprar as GPUs superiores H100 ou A100 que as empresas americanas estão reunindo em centenas de milhares.

Para contextualizar, a Meta AI estabeleceu a meta de possuir um cluster de 600.000 GPUs H100 até o final de 2024. Elon Musk tem 100.000 GPUs, enquanto a OpenAI treinou seu modelo GPT-4 em aproximadamente 25.000 GPUs A100. Enquanto isso, a DeepSeek foi fundada pela gestora de fundos de hedge chinesa High Flyer que queria colocar seu cluster de, de acordo com a mídia chinesa , 10.000 GPUs H800 em bom uso.

A DeepSeek, de acordo com a tradição , contratou uma equipe muito jovem e os impulsionou a inovar e aproveitar ao máximo seu hardware limitado. Eles lançaram o modelo DeepSeek-V3 no mês passado, um modelo que supera o OpenAI GPT-4 e todos os outros modelos do setor na maioria dos benchmarks. Não há nenhum desenvolvimento significativo na tecnologia básica, eles apenas usam o hardware de forma eficiente e treinam melhor seu modelo.

Os manos da tecnologia são salgados porque isso os faz parecer ruins. O que complica ainda mais as coisas é que o DeepSeek lançou seu modelo e métodos de treinamento como software de código aberto, o que significa que qualquer um pode ver como eles fizeram seu modelo e replicar o processo. Isso também significa que os usuários podem instalar modelos do DeepSeek em suas próprias máquinas e executá-los em suas próprias GPUs , onde eles parecem estar tendo um desempenho muito bom.

P: Como os caras da tecnologia estão reagindo?

R: Embora tenha havido uma mudança significativa na vibração em direção a “acabou “, alguns ainda afirmam que “estamos de volta ” e este é o “momento Sputnik da IA “. Outros não foram tão magnânimos.

“Deepseek é uma operação psicológica do estado do Partido Comunista da China+ guerra econômica para tornar a IA americana não lucrativa. Eles estão fingindo que o custo era baixo para justificar a fixação de um preço baixo e esperando que todos mudem para ele, prejudicando a competitividade da IA nos EUA, não morda a isca”, tuitou Neal Khosla, filho do investidor Vinod Khosla. A Khosla Ventures levantou mais de US$ 400 milhões para a OpenAI e é um dos maiores investidores da empresa.

“O DeepSeek é um alerta para a América”, disse Alexandr Wang, fundador da empresa de IA Scale AI, e alguém que acusou mais notavelmente o DeepSeek de esconder um estoque secreto de 50.000 GPUs H100.

“As acusações/obsessões sobre o DeepSeek usar o H100 parecem como se um time de crianças ricas tivesse sido derrotado por um time de crianças pobres, que nem sequer tinham permissão para usar sapatos”, tuitou Jen Zhu, um investidor em IA, “e agora as crianças ricas estão exigindo uma investigação para saber se sapatos foram usados em vez de treinar mais para se aprimorarem”.

P: Por que o mercado de ações está despencando?

R: Embora o DeepSeek v3 já esteja disponível há quase um mês, as notícias estão começando a chegar ao mercado somente agora. As ações da Nvidia caíram quase 15% antes do mercado na segunda-feira, perdendo aproximadamente US$ 420 bilhões de sua capitalização de mercado e desencadeando um banho de sangue nas ações de semicondutores que poderia varrer US$ 1 trilhão do mercado de ações em um único dia. Quando foi lançado no final de dezembro, Andrej Karpathy, um importante cientista na área, comentou sobre sua eficiência surpreendente, mas as repercussões de uma empresa chinesa desconhecida lançando um modelo fundamental de código aberto só decolaram quando o Vale do Silício começou a testar o DeepSeek em seus computadores pessoais e o DeepSeek subiu para o aplicativo número um .

Ironicamente, os caras da tecnologia surtando e gerando níveis de conflito nunca antes vistos estão contribuindo para a viralidade do DeepSeek.

Fonte: DropSite

Ações da Nvidia despencam com grande avanço da chinesa DeepSeek que está abalando os investidores de IA

janeiro 27, 2025 / Marcos Pędłowski / Deixe um comentário

DeepSeek lançou um concorrente ChatGPT e Llama usando chips de capacidade reduzida da Nvidia

Por Rocio Fabbro para o “Quartz”

As ações da Nvidia ( NVDA ) caíram até 14% no pré-mercado na segunda-feira, depois que o modelo mais recente da startup chinesa de inteligência artificial (IA) DeepSeek levantou questões sobre a competitividade americana no espaço da IA.

A DeepSeek lançou em dezembro um modelo de linguagem grande (LLM) de código aberto e gratuito, que ela alegou ter desenvolvido em apenas dois meses por menos de US$ 6 milhões. E na semana passada, a empresa disse que lançou um modelo que rivaliza com o ChatGPT da OpenAI e o Llama 3.1 da Meta ( META ) — e que chegou ao topo da App Store da Apple ( AAPL ) no fim de semana.

Mais notavelmente, a DeepSeek construiu o modelo usando chips de menor capacidade da Nvidia, o que pode pressionar a queridinha dos semicondutores se outras empresas se afastarem de suas ofertas premium.

Analistas da Wedbush disseram em uma nota de pesquisa na segunda-feira que “as ações de tecnologia estão sob enorme pressão liderada pela Nvidia, já que a Wall Street verá o DeepSeek como uma grande ameaça percebida ao domínio da tecnologia dos EUA e à posse desta Revolução da IA”.

As ações da Nvidia caíram quase 12% na manhã de segunda-feira. A notícia fez outras grandes ações de chips caírem, incluindo a ASML ( ASML ), que caiu 7%, e a Broadcom ( AVGO ), que teve uma queda de 12%. A liquidação fez o índice Nasdaq, pesado em tecnologia, cair no pré-mercado , com os futuros quase 4% mais baixos.

“As empresas de tecnologia dos EUA estão sendo negociadas com avaliações premium, com grandes players de IA como Nvidia, Microsoft ( MSFT ) e Alphabet ( GOOGL ) comandando múltiplos [preço-lucro] futuros muito acima das médias históricas”, disse Charu Chanana, estrategista-chefe de investimentos na plataforma de investimentos Saxo, em uma declaração. “Com essas ações precificadas para a perfeição, até mesmo pequenas interrupções, como a DeepSeek provando que a IA avançada pode ser construída sem chips de primeira linha, podem pesar muito nos preços das ações.”

Com o objetivo final da IA sendo a inteligência artificial geral (AGI) — e com as empresas dos EUA bem encaminhadas para alcançá-la nos próximos anos — os analistas da Wedbush acreditam que o nervosismo dos investidores de segunda-feira pode ser exagerado.

“Embora o modelo seja impressionante e tenha um impacto cascata”, eles disseram, “a realidade é que a Mag 7 e a tecnologia dos EUA estão focadas no jogo final da AGI com toda a infraestrutura e ecossistema que a China e especialmente a DeepSeek não conseguem chegar perto, em nossa opinião”.

Fonte: Quartz