Postagem no blog

DeepSeek R1 vs o3-mini para desenvolvedores: Qual é o melhor?

fevereiro 7, 2025 Artificial Intelligence, Automation por dwtoledo

Olá a todos!

Recentemente, OpenAI lançou seu novo modelo, o o3-mini. Com tantas opções surgindo, a grande questão para todo desenvolvedor é: Qual modelo devo usar?

Para responder a essa pergunta, passei as últimas horas testando o o3-mini e o DeepSeek R1 em tarefas comuns que nós, desenvolvedores, realizamos diariamente. Essas tarefas são:

Edifício um programa do zero;
Adição de um recurso ao código existente;
Refatoração de código e gerando testes.

Neste artigo, compartilharei minhas recomendações e percepções. Meu objetivo é que todos nós nos tornemos melhores desenvolvedores, aproveitando a IA a nosso favor.

Janela de desempenho, preço e contexto

Antes de mergulhar nos testes práticos, é essencial entender as especificações de cada modelo, pois elas são cruciais para determinar qual deles se alinha melhor às necessidades do seu projeto.

1. Desempenho

o3-mini e DeepSeek R1 liderança no Banco SWE (um teste que avalia a capacidade de resolver problemas do GitHub problemas), com pontuações acima de 49.
Claude 3.5 Soneto inicialmente apresentou boas pontuações, mas, conforme revelado pelos testes abaixo, demonstrou limitações significativas na execução de tarefas complexas.

2. Custo por milhão de tokens

DeepSeek R1: entrada: $0.55 e saída: $2.19 (mais econômico),
o3-mini: entrada: $1.10 e saída: $4.40.
Claude 3.5 Soneto: entrada: $3.00 e saída: $15.00.

3. Janela de contexto

o3-mini e Claude 3.5: Até 200 mil tokens (melhor para solicitações maiores e mais complexas).
DeepSeek R1: Até 128k tokens.

Teste prático 1: Criação de um projeto do zero

Tarefa: Crie uma interface para bater papo com os usuários locais LLMs via Ollamacom funcionalidades de bate-papo, histórico de conversas e seleção de modelos.

Resultados:

Modelo	Arquivos gerados	Recursos funcionais	Observações
o3-mini usando o Cursor	3 (HTML, CSS e JS separados)	Todos	Código organizado, mas a interface do usuário e o estilo são muito básicos
DeepSeek R1 na Web	1 (HTML, CSS e JS condensados)	Bate-papo e seleção de modelos	Sem histórico de conversas, a interface do usuário e o estilo eram melhores
DeepSeek R1 usando o Cursor	0	–	Falha ao criar vários arquivos, muitos ajustes manuais
Claude 3.5 usando o Cursor	0	–	Falhou completamente

Vencedor: o3-miniO sistema de gerenciamento de projetos da Microsoft, por sua consistência e capacidade de gerar projetos complexos em uma única solicitação.

Teste prático 2: adição de um recurso ao código existente

Tarefa: Integrar uma interface de usuário (UI) a uma CLI existente para interagir com agentes de IA.

Resultados:

o3-mini usando o Cursor:

Gerou novos arquivos e adicionou o recurso após mais de 20 iterações.
Teve maior dificuldade de compreensão Gerenciamento do estado da interface do usuário, exigindo ajustes imediatos e correções manuais após o resultado gerado.

DeepSeek R1 usando Cursor:

Gerou novos arquivos e adicionou o recurso em apenas 9 iteraçõescom código mais limpo e mais organizado do que o o3-mini.
Necessário orientação para ajustar algumas integraçõesmas foi mais rápido que o o3-mini na compreensão dos requisitos.

Vencedor: DeepSeek R1Embora o o3-mini seja mais "autônomo", ele teve dificuldades significativas para entender as principais funcionalidades para integração. Em contrapartida, embora o DeepSeek R1 tenha exigido mais "supervisão", ele entendeu melhor as necessidades e forneceu o novo recurso rapidamente.

Teste prático 3: Refatoração de código e geração de testes

Tarefa: Refatorar funções em um aplicativo da Web React/TypeScript e adicionar testes de unidade.

Resultados:

o3-mini usando o Cursor:

Refatorou o código, seguiu as práticas recomendadas e gerou testes funcionais (com pequenos ajustes necessários).

DeepSeek R1 usando Cursor:

Crítica introduzida bugs removendo as funções essenciais.
Gerou testes válidos, mas falhou na refatoração.

Vencedor: o3-minipor sua precisão e menor risco de quebrar o código existente.

Recomendações finais

Para novos projetos: Uso o3-mini no Cursor. Sua capacidade de gerar código estruturado em uma única passagem é inigualável.
Características do complexo: Combinar o3-mini (para arquitetura) com DeepSeek R1 (para trechos).
Para orçamentos apertados: DeepSeek R1 é a opção mais econômica, mas requer mais atenção e supervisão durante o desenvolvimento.

E quanto ao Claude 3.5?

Com um custo 7 vezes maior e desempenho inferior já no primeiro teste prático, Claude 3.5 não é uma opção viável para o desenvolvimento diário. Recomendo que se concentre em o3-mini e DeepSeek R1que oferecem um melhor equilíbrio entre custo e desempenho.

Como usar os dois modelos juntos

Fase de planejamento: Uso o3-mini para delinear a estrutura geral do projeto. Sua capacidade de lidar com grandes janelas de contexto permite um planejamento abrangente.
Otimização e ajustes finais: Depois de estruturar o projeto, use DeepSeek R1 com "supervisão" contínua para ajustar funções específicas, melhorar a eficiência do código e reduzir custos em tarefas específicas.

Considerações finais

A integração de modelos de IA como o3-mini e DeepSeek R1 no fluxo de trabalho de desenvolvimento pode transformar completamente a maneira como criamos e mantemos projetos.

Enquanto o o3-mini se destaca por sua consistência e capacidade de lidar com tarefas complexas, o DeepSeek R1 oferece uma solução econômica para ajustes finos e tarefas específicas.

Portanto, Qual modelo você testará primeiro? 👨‍💻 Você gostou? Compartilhe suas experiências nos comentários! 🚀

Publicações relacionadas

Escreva um comentário