Resumo – The Illusion of Thinking (Apple, 2025)
O estudo questiona o hype em torno dos Large Reasoning Models (LRMs), como OpenAI o1/o3, DeepSeek-R1 e Claude 3.7 Thinking. Embora esses modelos mostrem avanços em benchmarks de raciocínio (principalmente em matemática e código), os autores afirmam: estamos todos iludidos.
Principais conclusões:
Três Regimes de Complexidade:
Baixa complexidade: Modelos tradicionais (sem "thinking") são mais rápidos e até mais precisos.
Média complexidade: Os LRMs brilham, com suas cadeias de pensamento longas ajudando no desempenho.
Alta complexidade: Tudo desaba. Tanto LRMs quanto LLMs normais colapsam em termos de acurácia.
Paradoxo do Esforço de Raciocínio:
Conforme os problemas ficam mais difíceis, os LRMs fazem o oposto do esperado: pensam menos (gastam menos tokens de raciocínio) antes de entregar uma resposta. Isso acontece mesmo quando há folga no limite de tokens.Experimentos com Ambientes Controlados:
Em vez de benchmarks contaminados por treinamento (tipo MATH500), os autores usaram puzzles manipuláveis como Tower of Hanoi, Blocks World, Checkers Jumping e River Crossing para controlar a complexidade e medir os passos intermediários do raciocínio.Limitações na Execução de Algoritmos Simples:
Mesmo quando os pesquisadores forneceram o algoritmo correto dentro do prompt, os LRMs ainda erraram na execução. Falta memória de trabalho? Deficiência em manipulação simbólica? Os autores não cravam, mas o recado é claro: não é inteligência generalizável."Overthinking" vs. "Underthinking":
Em problemas simples: pensam demais depois de encontrar a resposta certa, gastando recursos à toa.
Em problemas médios: pensam mais antes de acertar.
Em problemas complexos: não pensam nada útil e falham total.Questões em Aberto:
Os LRMs realmente aprenderam a raciocinar ou só aprenderam a "parecer que estão pensando"?
RLHF e CoT realmente melhoram o raciocínio ou apenas geram mais texto?
Existe um limite físico de escalabilidade no raciocínio computacional dos LLMs?
