top of page
The Illusion of Thinking (Apple, 2025)

Resumo – The Illusion of Thinking (Apple, 2025)

O estudo questiona o hype em torno dos Large Reasoning Models (LRMs), como OpenAI o1/o3, DeepSeek-R1 e Claude 3.7 Thinking. Embora esses modelos mostrem avanços em benchmarks de raciocínio (principalmente em matemática e código), os autores afirmam: estamos todos iludidos.

Principais conclusões:

  • Três Regimes de Complexidade:

    • Baixa complexidade: Modelos tradicionais (sem "thinking") são mais rápidos e até mais precisos.

    • Média complexidade: Os LRMs brilham, com suas cadeias de pensamento longas ajudando no desempenho.

    • Alta complexidade: Tudo desaba. Tanto LRMs quanto LLMs normais colapsam em termos de acurácia.

  • Paradoxo do Esforço de Raciocínio:
    Conforme os problemas ficam mais difíceis, os LRMs fazem o oposto do esperado: pensam menos (gastam menos tokens de raciocínio) antes de entregar uma resposta. Isso acontece mesmo quando há folga no limite de tokens.

  • Experimentos com Ambientes Controlados:
    Em vez de benchmarks contaminados por treinamento (tipo MATH500), os autores usaram puzzles manipuláveis como Tower of Hanoi, Blocks World, Checkers Jumping e River Crossing para controlar a complexidade e medir os passos intermediários do raciocínio.

  • Limitações na Execução de Algoritmos Simples:
    Mesmo quando os pesquisadores forneceram o algoritmo correto dentro do prompt, os LRMs ainda erraram na execução. Falta memória de trabalho? Deficiência em manipulação simbólica? Os autores não cravam, mas o recado é claro: não é inteligência generalizável.

  • "Overthinking" vs. "Underthinking":
    Em problemas simples: pensam demais depois de encontrar a resposta certa, gastando recursos à toa.
    Em problemas médios: pensam mais antes de acertar.
    Em problemas complexos: não pensam nada útil e falham total.

  • Questões em Aberto:

    • Os LRMs realmente aprenderam a raciocinar ou só aprenderam a "parecer que estão pensando"?

    • RLHF e CoT realmente melhoram o raciocínio ou apenas geram mais texto?

    • Existe um limite físico de escalabilidade no raciocínio computacional dos LLMs?

The Illusion of Thinking (Apple, 2025)

R$0.00Price

    honoratox@gmail.com

    (11) 97503-4900

    • White LinkedIn Icon
    • White Twitter Icon
    • White Instagram Icon
    • Canal Youtube Carlos Honoratox

    Praça Pamplona , 145

    São Paulo

    ©2025 by Carlos Honorato & OUTPOD

    bottom of page