ChatGPT fez uma prova do bacharelado francês – e o resultado foi uma decepção.

Camila Nogueira Valente • April 15, 2026 02:23

O teste parecia coisa de pegadinha: pegar uma questão oficial de redação do baccalauréat, pedir ao ChatGPT (o chatbot da OpenAI) que respondesse, entregar o texto a um professor de verdade e aguardar a nota. À primeira vista, a redação devolvida pela IA vinha impecável - limpa, bem organizada e escrita com segurança. A avaliação, porém, não confirmou essa impressão inicial.

ChatGPT no baccalauréat de Filosofia: uma redação impecável por fora, vazia por dentro

A experiência foi conduzida pela emissora regional France 3 Altos da França, durante o baccalauréat de Filosofia de 2025. A equipa de jornalismo selecionou um enunciado real de prova: “A verdade é sempre convincente?”. Ao ChatGPT, a orientação foi clara: responder como um aluno do último ano do ensino médio francês, com o objetivo de tirar uma nota suficiente para passar com tranquilidade.

No papel, a IA acertou no “formato” que a escola costuma premiar: introdução bem alinhada, desenvolvimento em três partes e conclusão fechando o raciocínio. As frases corriam sem tropeços, a ortografia estava irrepreensível e os conectores apareciam exatamente onde um corretor espera encontrá-los.

De longe, o texto parecia a redação perfeita para quem está nervoso na prova: arrumada, articulada e com uma estrutura tranquilizadora.

Em seguida, os jornalistas enviaram a redação - de forma anónima, sem revelar a autoria - para um professor de Filosofia corrigir como se fosse uma prova comum de fim de ciclo. Depois das anotações a caneta vermelha, o efeito “uau” desmanchou: o ChatGPT recebeu 8 de 20, abaixo do patamar que costuma ser necessário para uma aprovação confortável.

O ponto central da correção não foi “escrita feia” nem problemas de norma padrão. O foco esteve no conteúdo: por trás do polimento, o raciocínio foi considerado raso, repetitivo e com um tom mecanizado - como se o texto soubesse como uma dissertação de Filosofia deve parecer, mas não mostrasse o que ela precisa efetivamente pensar.

Quando a pergunta muda de sentido sem alarde

O primeiro problema relevante apontado pelo professor foi a forma como a questão foi tratada. O enunciado “A verdade é sempre convincente?” pede que se investigue se a verdade, por si só, tem força de persuasão. Já a IA deslizou para uma pergunta parecida, porém diferente: “A verdade basta para convencer?”

Essa troca sutil pesa muito num exame. Na correção francesa de Filosofia, reformular o problema com precisão é quase metade do caminho: é a prova de que o aluno percebeu a tensão embutida nas palavras do enunciado.

Ao “entortar” a pergunta, o chatbot driblou parte da dificuldade - e perdeu pontos por se afastar do que o examinador realmente pediu.

A partir do momento em que o tema é deslocado, mesmo que ligeiramente, o resto do texto tende a seguir por uma trilha que não responde à exigência exata da prova. Um estudante humano costuma sentir que algo “não encaixa” e tenta ajustar o rumo. Um modelo de IA não tem esse desconforto: ele apenas continua gerando um texto que soa plausível.

Plano visível, pensamento invisível

A estrutura também entrou na mira. Na aparência, tudo estava no lugar: secções separadas, frases de abertura, transições e uma “abertura” final para temas relacionados. O problema, segundo o professor, é que o plano parecia aplicado como molde pronto, e não como resultado de reflexão real.

Os parágrafos funcionavam como blocos independentes, com pouca evolução entre ideias. As ligações eram mais formais do que lógicas. Em vez de um argumento que avança, o corretor enxergou uma sequência de pontos colocados em fila.

Tese: por definição, a verdade deveria convencer
Antítese: às vezes a verdade não persuade
Síntese: outros fatores influenciam a persuasão

Esse esquema em três tempos é clássico nas escolas francesas, e o ChatGPT o reproduziu de forma quase “certinha demais”, como quem completa um checklist. O que ficou faltando, na avaliação, foi a maneira particular com que um aluno real costuma dobrar, subverter ou reordenar esse esquema quando está, de facto, a lutar com um problema.

Exemplos genéricos e conceitos pouco trabalhados

Outro ponto fraco foi o tratamento das noções filosóficas. O texto citava “verdade”, “opinião” e “razão”, mas quase não delimitava o significado desses termos. Numa prova de Filosofia, definir e afiar conceitos é tarefa central: mostra que o candidato entende que conceitos não são enfeites, e sim ferramentas com contornos específicos.

A IA largou referências e exemplos como quem faz menção de passagem, sem pausar para explicar o que significam ou por que sustentam o argumento.

De acordo com a correção, os exemplos surgiam muitas vezes como lugar-comum e apareciam no fim do parágrafo como “prova decorativa”, sem análise. Um aluno humano - mesmo com dificuldades - tende a insistir num exemplo que o toca: uma vivência, uma notícia, um filme, um caso discutido em aula. Esse desvio dá singularidade ao texto. A redação do chatbot, por outro lado, soava intercambiável com inúmeras outras que ele poderia produzir sob demanda.

O que o 8 de 20 indica no sistema francês

Para quem não conhece a escala do baccalauréat, vale situar: a nota vai de 0 a 20. Em geral, 10 representa aprovação básica. Entre 12 e 14 é visto como um resultado bom. A partir de 16, entra-se no grupo das redações muito fortes.

Nota /20	Sentido aproximado na correção de Filosofia
5 ou menos	Questão mal compreendida ou quase ausência de argumentação
8	Há estrutura e algumas ideias, mas o problema é pouco dominado
10–12	Texto correto e convencional, com raciocínio claro porém limitado
14–16	Análise consistente, referências pertinentes e posição pessoal bem sustentada
17–20	Raríssimos textos que combinam rigor, originalidade e profundidade

Com 8, o ChatGPT provavelmente não “derrubaria” todo o exame, já que outras disciplinas podem compensar. Ainda assim, em Filosofia - onde muitos alunos miram pelo menos um 10 ou 12 respeitável - não seria interpretado como caso de sucesso.

Limites atuais da IA: forma forte, sentido frágil

Não é a primeira vez que sistemas de IA são colocados diante de avaliações escolares. Modelos de linguagem já foram testados com redações de exames no Reino Unido, trabalhos universitários nos Estados Unidos e outras provas nacionais. Em matérias mais “conteudistas”, às vezes ficam perto da média; e tendem a ir melhor quando o critério de correção premia clareza formal acima de originalidade.

A Filosofia costuma ser mais difícil para esse tipo de ferramenta. A disciplina recompensa a dúvida, o recuo, a hesitação produtiva e o risco conceitual. Muitas vezes, o aluno precisa questionar a própria pergunta, expor ambiguidades e pressupostos escondidos. O ChatGPT até imita esse tom com expressões que parecem reflexivas, mas o professor que corrigiu a redação não encontrou um questionamento real por trás das palavras.

Esse resultado aponta para um limite estrutural: modelos de linguagem de grande porte aprendem padrões em textos e ficam excelentes em produzir sequências coerentes de frases. Isso casa bem com o “formato dissertação”, mas não garante a atividade subjacente de pensar. O modelo liga expressões que costumam aparecer juntas no seu treino; ele não confronta essas ligações com uma experiência vivida de descoberta, dúvida ou revisão de ideias.

Por que escrever bem não basta em Filosofia

A experiência também escancara um dilema que professores já veem em sala: a distância entre estilo e pensamento. Há estudantes que dominam truques retóricos, conectores e aberturas de introdução; eles aprendem a “soar sérios”. Ainda assim, a redação pode parecer oca quando se passa da primeira página.

Em Filosofia, não se avalia apenas o texto bem escrito: procura-se uma mente em ação - que hesita, corrige a rota e leva uma ideia além do óbvio.

O ChatGPT acertou a casca desse desempenho, mas não o movimento interno. Entregou uma resposta equilibrada e segura, evitando afirmações fortes que poderiam ser contestadas. Essa prudência às vezes impede uma nota muito baixa, porém raramente leva às pontuações altas reservadas a textos ousados e bem defendidos.

O professor ainda sugeriu que um aluno mediano - mesmo ansioso - poderia sair melhor. Um adolescente tem algo que a IA não tem: intuição do quotidiano. Ele percebe, por exemplo, que a frase “a verdade é sempre convincente” choca com experiências comuns de mentira, manipulação e negação teimosa. A partir daí, constrói argumentos moldados pelo que já viu e viveu. O chatbot, em contraste, trabalha com estatística de linguagem, não com memória pessoal.

O que isso muda para estudantes tentados a “terceirizar” a redação

O teste da France 3 chega num momento sensível para as escolas. Em vários países, professores já suspeitam do uso de IA para rascunhar deveres, trabalhos e até avaliações feitas em casa. Para um estudante diante de uma folha em branco, pedir ao ChatGPT uma dissertação de Filosofia é uma tentação óbvia.

O recado, porém, é ambivalente: sim, a ferramenta gera em segundos um texto que parece bom. Não, isso não garante nota alta quando um especialista lê com atenção. Além disso, a dependência traz riscos que vão além do boletim.

O aluno pode deixar de praticar o trabalho lento (e frustrante) de construir argumentos próprios.
Pode perder confiança na capacidade de escrever textos imperfeitos, mas autênticos.
A escola pode reagir com mais vigilância, corroendo a confiança em sala de aula.

Um caminho intermediário, defendido por alguns educadores, é usar a IA como parceira de exploração, não como “fantasma” que escreve no lugar do estudante. Por exemplo: pedir ao chatbot diferentes definições de “verdade” em tradições filosóficas, e então comparar, checar fontes, escolher o que faz sentido e criticar o que for frágil. Nesse modelo, a nota recai sobre o que o aluno faz com a informação - seleção, adaptação e contestação - e não sobre a mera aparência do texto.

Há também um efeito pedagógico colateral: ao expor como um texto “bonitinho” pode falhar por falta de problema bem formulado e conceitos definidos, o episódio serve como aula prática sobre critérios de correção. Em vez de só proibir, escolas podem mostrar exemplos, discutir rubricas e ensinar o que diferencia estrutura decorativa de argumentação real.

Para além do bac: o que conta como “pensar” numa máquina?

O 8 de 20 alimenta uma discussão maior sobre inteligência artificial. Quando alguém afirma “o ChatGPT pensa”, muitas vezes quer dizer que ele produz linguagem com aparência de pensamento. A redação do baccalauréat lembra que parecer reflexão e efetivamente refletir não são a mesma coisa.

Alguns pesquisadores explicam essa diferença com a distinção entre capacidades sintáticas e semânticas. O sintático é a forma: gramática, organização, frases típicas que soam lógicas. O semântico é o sentido: como as ideias se prendem à realidade, à experiência e às consequências do que se afirma. Modelos de linguagem brilham no sintático. Já a fixação semântica é mais instável - sobretudo em Filosofia, onde o “real” é, muitas vezes, conceitual.

É possível que sistemas futuros reduzam esse fosso, integrando outros tipos de dados e módulos de raciocínio. Por agora, porém, um professor francês em 2025, com uma pilha de redações de Filosofia sobre a mesa, ainda consegue distinguir o aluno que luta com a pergunta do chatbot que organiza frases familiares. A caneta vermelha - pelo menos por enquanto - continua teimosamente humana.