Como enfrentar o bandido de múltiplos braços?
Não, não estamos falando de pistoleiros ou filmes de faroeste, e sim, de estatística!
O Multi-Armed Bandit é um clássico problema em teoria da decisão.
O “one-armed bandit” é um caça-níqueis comum, chamado assim porque tem um braço só, e porque é um ladrão de recursos. 🎰
Você está em um cassino com N caça-níqueis (daí o termo, multi-armed bandit). Cada máquina tem uma probabilidade de recompensa diferente (e desconhecida para você). Seus recursos são finitos. Seu objetivo é maximizar o ganho total ao longo de uma série de jogadas.
Qual a estratégia ótima a adotar?
Este é o clássico dilema entre explore (exploração, no sentido de descobrir coisas novas) e exploit (exploração, no sentido de aproveitar ao máximo).
Uma primeira estratégia pode ser distribuir igualmente as fichas em todas as N máquinas.
Uma segunda estratégia pode ser apostar todas as suas fichas em uma das máquinas.
Ambas são ruins, porque na primeira vou deixar de explorar mais as melhores máquinas; na segunda, vou correr um risco enorme de escolher a máquina errada. Numa, ser conservador demais; na outra, ousado demais.
As melhores estratégias se baseiam em: 1 — explorar horizontalmente as opções, a fim de coletar informações; 2 — escolher somente as mais promissoras, explorando verticalmente as mesmas.
Há diversas variações possíveis, sobre este conceito básico, sobre quanto e quando aproveitar.
Este problema é legal, porque tem várias aplicações em problemas reais, como testes A/B em marketing, alocação dinâmica de recursos.
É válido até nas nossas vidas. Quando mais jovens, temos tempo de explorar diversas alternativas de colocação. À medida que os anos e décadas vão passando, temos que ir focando nos caminhos mais promissores, dadas nossas habilidades específicas.
Portanto, é assim que eu encaro o bandido de múltiplos braços.
E você?
Originally published at https://ideiasesquecidas.com on August 12, 2024.