Temperatura e Configurações

Objetivos

Controlar comportamento do modelo sem trocar de LLM
Saber quando usar respostas determinísticas vs criativas
Comparar saídas alterando parâmetros (exercício mental)

Parâmetros principais

`temperature` (0.0 – 2.0)

Controla aleatoriedade na escolha do próximo token.

Valor	Comportamento	Uso típico
0 – 0.2	Quase determinístico, repetível	Extração de JSON, classificação, FAQ factual
0.5 – 0.7	Equilíbrio	Chat geral, suporte ao cliente
0.8 – 1.2	Mais criativo, variável	Brainstorm, copy marketing
> 1.2	Imprevisível	Raramente em produção

Exercício: mesmo prompt "Liste 3 benefícios de API REST", temperature 0 vs 1 — a 0 a lista será estável; a 1 palavras e ordem mudam.

`top_p` (nucleus sampling)

Alternativa/complemento à temperature: considera apenas tokens cuja probabilidade acumulada ≤ top_p (ex: 0,9).

top_p: 1 = universo completo
top_p: 0,1 = só tokens muito prováveis

Boas práticas: altere temperature OU top_p, não os dois agressivamente ao mesmo tempo. Muitos times fixam top_p: 1 e só ajustam temperature.

`max_tokens`

Limite máximo de tokens na resposta (output).

Protege contra respostas infinitas e custo runaway
FAQ curta: max_tokens: 256
Explicação técnica: max_tokens: 1024

Se cortar no meio, usuário vê texto truncado — combine com instrução no prompt: "Responda em no máximo 3 parágrafos".

Exemplo de payload (OpenAI-compatible)

{
  "model": "gpt-4o-mini",
  "messages": [{ "role": "user", "content": "Explique webhook em 2 frases." }],
  "temperature": 0.2,
  "max_tokens": 120
}

Presets por tipo de produto

Produto	temperature	max_tokens	Notas
Agente de pedidos	0–0.3	300	Respostas curtas, dados exatos
Gerador de e-mail	0.6	800	Tom profissional, alguma variação
Classificador de intenção	0	50	Saída: label fixo ou JSON
Tutor técnico	0.5	1500	Explicações mais longas

System prompt + parâmetros

Parâmetros numéricos não substituem instruções claras. Combine:

System: Responda sempre em português. Se não souber, diga "Não tenho essa informação".
temperature: 0.3
max_tokens: 400

O que evitar

temperature: 1.5 em bot de suporte — respostas inconsistentes
max_tokens gigante "por garantia" — paga output desnecessário
Ignorar seed (quando disponível) em testes A/B — dificulta reproduzir bugs

Resumo

Temperature = criatividade vs consistência
top_p = filtro probabilístico alternativo
max_tokens = teto de custo e tamanho
Escolha preset por caso de uso, documente no repositório

Nesta aula você vai

Temperatura e Configurações

Objetivos

Parâmetros principais

temperature (0.0 – 2.0)

top_p (nucleus sampling)

max_tokens

Exemplo de payload (OpenAI-compatible)

Presets por tipo de produto

System prompt + parâmetros

O que evitar

Resumo

`temperature` (0.0 – 2.0)

`top_p` (nucleus sampling)

`max_tokens`