Entendendo a IA Generativa
Temperatura e Configurações
Temperature, top_p, max_tokens — controlar criatividade, determinismo e tamanho da resposta.
Nesta aula você vai
- Configurar temperature e top_p para casos distintos
- Usar max_tokens para limitar custo e resposta
- Escolher parâmetros por tipo de tarefa
Temperatura e Configurações
Objetivos
- Controlar comportamento do modelo sem trocar de LLM
- Saber quando usar respostas determinísticas vs criativas
- Comparar saídas alterando parâmetros (exercício mental)
Parâmetros principais
temperature (0.0 – 2.0)
Controla aleatoriedade na escolha do próximo token.
| Valor | Comportamento | Uso típico |
|---|---|---|
| 0 – 0.2 | Quase determinístico, repetível | Extração de JSON, classificação, FAQ factual |
| 0.5 – 0.7 | Equilíbrio | Chat geral, suporte ao cliente |
| 0.8 – 1.2 | Mais criativo, variável | Brainstorm, copy marketing |
| > 1.2 | Imprevisível | Raramente em produção |
Exercício: mesmo prompt "Liste 3 benefícios de API REST", temperature 0 vs 1 — a 0 a lista será estável; a 1 palavras e ordem mudam.
top_p (nucleus sampling)
Alternativa/complemento à temperature: considera apenas tokens cuja probabilidade acumulada ≤ top_p (ex: 0,9).
top_p: 1= universo completotop_p: 0,1= só tokens muito prováveis
Boas práticas: altere temperature OU top_p, não os dois agressivamente ao mesmo tempo. Muitos times fixam top_p: 1 e só ajustam temperature.
max_tokens
Limite máximo de tokens na resposta (output).
- Protege contra respostas infinitas e custo runaway
- FAQ curta:
max_tokens: 256 - Explicação técnica:
max_tokens: 1024
Se cortar no meio, usuário vê texto truncado — combine com instrução no prompt: "Responda em no máximo 3 parágrafos".
Exemplo de payload (OpenAI-compatible)
{
"model": "gpt-4o-mini",
"messages": [{ "role": "user", "content": "Explique webhook em 2 frases." }],
"temperature": 0.2,
"max_tokens": 120
}
Presets por tipo de produto
| Produto | temperature | max_tokens | Notas |
|---|---|---|---|
| Agente de pedidos | 0–0.3 | 300 | Respostas curtas, dados exatos |
| Gerador de e-mail | 0.6 | 800 | Tom profissional, alguma variação |
| Classificador de intenção | 0 | 50 | Saída: label fixo ou JSON |
| Tutor técnico | 0.5 | 1500 | Explicações mais longas |
System prompt + parâmetros
Parâmetros numéricos não substituem instruções claras. Combine:
System: Responda sempre em português. Se não souber, diga "Não tenho essa informação".
temperature: 0.3
max_tokens: 400
O que evitar
temperature: 1.5em bot de suporte — respostas inconsistentesmax_tokensgigante "por garantia" — paga output desnecessário- Ignorar
seed(quando disponível) em testes A/B — dificulta reproduzir bugs
Resumo
- Temperature = criatividade vs consistência
- top_p = filtro probabilístico alternativo
- max_tokens = teto de custo e tamanho
- Escolha preset por caso de uso, documente no repositório