Teste A/B: Escolhendo uma Estrutura de Teste Sequencial

A/B Test Growth Machine LearningLeave a Comment on Teste A/B: Escolhendo uma Estrutura de Teste Sequencial

Teste A/B: Escolhendo uma Estrutura de Teste Sequencial

Os testes sequenciais TL;DR são o pão com manteiga para qualquer empresa que conduz experimentos online. A literatura sobre testes sequenciais desenvolveu-se rapidamente nos últimos 10 anos e nem sempre é fácil determinar qual teste é mais adequado para a configuração da sua empresa – muitos desses testes são “ideais” em certo sentido, e a maioria dos principais testes A/ As empresas de testes B têm seus favoritos. Embora a literatura sobre testes sequenciais esteja florescendo, há surpreendentemente poucos conselhos disponíveis (encontramos apenas esta postagem ) sobre como escolher entre os diferentes testes sequenciais.

A Plataforma de Experimentação do Spotify usa os chamados testes sequenciais de grupo (GSTs). Neste post, destacamos alguns dos prós e contras do método escolhido usando resultados de simulação. Concluímos que dois parâmetros principais devem afetar a escolha da ferramenta de análise sequencial:

  1. Se sua infraestrutura de dados fornece dados em lote ou streaming.
  1. Se você puder fazer estimativas razoáveis ​​do tamanho máximo da amostra que um experimento alcançará.

Mostramos que quando você pode estimar o tamanho máximo da amostra que um experimento alcançará, o GST é a abordagem que oferece o maior poder, independentemente de seus dados serem transmitidos ou em lotes.

Práticas sólidas de experimentação garantem um gerenciamento de risco válido

A experimentação nos permite ser ousados ​​em nossas ideias. Podemos iterar mais rápido e tentar coisas novas para identificar quais mudanças repercutem em nossos usuários. O Hurb adotamos uma abordagem baseada em evidências para o ciclo de desenvolvimento de produtos, tendo uma mentalidade científica em nossas práticas de experimentação. Em última análise, isso significa limitar o risco de tomar decisões erradas sobre produtos.

Do ponto de vista da decisão do produto, os riscos que enfrentamos incluem alterações na remessa que não têm um impacto positivo na experiência do usuário ou a perda de alterações na remessa que, de fato, levam a uma melhor experiência do usuário. No jargão da ciência de dados, esses erros são frequentemente chamados de “falsos positivos” e “falsos negativos”. A frequência com que esses erros ocorrem em experimentações repetidas é a taxa de falsos positivos ou falsos negativos. A taxa de falsos positivos pretendida é frequentemente referida como “alfa”. Ao projetar adequadamente o experimento, essas taxas podem ser controladas.

Espiar é uma fonte comum de inflação de risco não intencional

Uma das fontes mais comuns de gerenciamento incorreto de riscos em experimentação é frequentemente chamada de “espreitadela”. A maioria dos testes estatísticos padrão – como testes z ou testes t – são construídos de uma forma que limita os riscos apenas se os testes forem usados ​​após o término da fase de coleta de dados. Espiar aumenta a taxa de falsos positivos porque esses testes não sequenciais (padrão) são aplicados repetidamente durante a fase de coleta de dados.

Por exemplo, imagine que estamos realizando um experimento com 1.000 usuários divididos igualmente em um grupo de controle e um grupo de tratamento. Usamos um teste z para ver se há uma diferença significativa entre o grupo de tratamento e o grupo de controle em termos, por exemplo, de minutos jogados no Hurb. Após coletar um novo par de observações de ambos os grupos, aplicamos nosso teste. Se não encontrarmos uma diferença significativa, coletamos outro par de observações e repetimos o teste.

Com esse design, a taxa geral de falsos positivos é a probabilidade de encontrar um falso positivo em qualquer um dos testes que realizamos. Após a realização dos dois primeiros testes, pode-se obter um falso positivo no primeiro teste ou no segundo teste, visto que o primeiro teste foi negativo.

Com um teste z construído para produzir uma taxa de falsos positivos de 5% se usado uma vez, a taxa de falsos positivos verdadeiros que o experimentador enfrenta está na verdade mais próxima de 10%, uma vez que os dois testes nos dão duas oportunidades para encontrar um efeito significativo. A figura abaixo mostra como a taxa de falsos positivos que se pretende ser de 5% cresce se continuarmos como no exemplo anterior: coletar um novo par de observações, testar um efeito e, se não for significativo, continuar e coletar outro par de observações e teste novamente. A taxa de falsos positivos verdadeiros cresce rapidamente e, após testes repetidos, o experimentador encontra uma taxa de falsos positivos verdadeiros que excede severamente a taxa pretendida de 5%.

Figura 1 : A taxa de falsos positivos aumenta ao espiar. A linha sólida descreve a verdadeira taxa de falsos positivos encontrada pelo experimentador ao espiar, e a linha tracejada indica a taxa de falsos positivos desejada de 1%.

Testes sequenciais resolvem o problema de espiar

Embora a espiada descontrolada deva ser evitada, também é importante monitorar as regressões durante a coleta de dados para experimentos. Um objetivo principal da experimentação é saber desde o início se os usuários finais são afetados negativamente pela experiência que está sendo testada. Para fazer isso, precisamos de uma forma de controlar o risco de acionar alarmes falsos, bem como o risco de não acionar o alarme quando algo está, de fato, afetando negativamente a experiência do usuário final.

Para resolver o problema de espionagem, podemos aproveitar uma ampla classe de testes estatísticos conhecidos como testes sequenciais. Esses testes levam em conta a natureza sequencial e recorrente dos testes de diferentes maneiras, dependendo de suas implementações específicas. Todos eles nos permitem testar repetidamente a mesma hipótese enquanto os dados são coletados, sem inflacionar a taxa de falsos positivos.

Testes diferentes vêm com requisitos diferentes – alguns exigem que estimemos o número total de observações que o teste incluirá no final, e outros não. Alguns são mais adequados quando os dados chegam em lotes (por exemplo, uma vez por dia) e outros quando os dados estão disponíveis em tempo real. Na próxima seção, fornecemos uma visão geral curta e não exaustiva do cenário atual de testes sequenciais, onde nos concentramos em testes bem conhecidos. Além disso, concentramo-nos no poder destes testes, especificamente, na taxa de rejeição da hipótese nula de que não há diferença nas médias entre tratamento e controle para alguma métrica de interesse, dada a hipótese alternativa de uma diferença diferente de zero.

Os métodos que estudamos são:

  • teste sequencial de grupo (GST) proposto por Lan e DeMets (1983) .
  • Duas versões de inferência sempre válida (AVI) :
    • teste de razão de probabilidade sequencial de mistura (mSPRT) . Popularizado, usado e ampliado por Optimizely , Uber , Netflix e Amplitude , por exemplo.
    • generalização da inferência sempre válida (GAVI) , proposta por Howard et al. (2021) . Usado pela Eppo , por exemplo.
  • abordagem alfa corrigida (CAA) . Utilizado e proposto pela Statsig .
  • Uma abordagem ingênua usando correções de Bonferroni como linha de base (benchmark).

Abaixo, analisamos brevemente os testes, um por um. O objetivo não é apresentar detalhes técnicos ou matemáticos, mas sim destacar as propriedades e limitações de cada framework.

Testes sequenciais de grupo

Os testes sequenciais de grupo podem ser vistos como aplicações consecutivas de testes tradicionais, como o teste z. O GST explora a estrutura de correlação conhecida entre testes intermitentes para explicar de forma ideal o fato de que estamos testando várias vezes. Para uma introdução detalhada, ver, por exemplo, Kim e Tsiatis (2020) e Jennison e Turnbull (1999) .

Prós:

  • Usando a abordagem de gasto alfa, o alfa pode ser gasto arbitrariamente ao longo dos momentos em que você decide espiar, e você só gasta o alfa quando espia – se você pular uma espiada, poderá salvar o alfa não utilizado para mais tarde. Além disso, você não precisa decidir antecipadamente quantos testes serão executados ou em que momento da coleta de dados serão executados. Se você não espiar durante a coleta de dados, o teste após o término da fase de coleta de dados será exatamente o teste z tradicional.
  • Fácil de explicar devido à relação com testes z.

Contras:

  • Você precisa saber ou ser capaz de estimar antecipadamente o tamanho máximo da amostra. Se você observar menos usuários do que o esperado, o teste será conservador e a taxa de verdadeiros falsos positivos será menor do que o pretendido. Se você continuar observando novos usuários depois de atingir o valor total esperado, o teste terá uma taxa de falsos positivos inflacionada.
  • Você precisa selecionar uma função de gasto alfa. Se você sempre atingir o tamanho da amostra planejado, essa escolha não será crítica, mas se você fizer uma amostragem insuficiente e observar poucos usuários, a escolha da função de gasto poderá afetar substancialmente as propriedades de poder.
  • Os valores críticos utilizados no teste precisam ser obtidos resolvendo numericamente as integrais. Este problema numérico torna-se mais desafiador com muitas análises intermitentes e, portanto, não é viável usar GST de forma contínua, ou seja, executar mais do que algumas centenas de análises intermitentes para um experimento.

Inferência sempre válida

Testes de inferência sempre válidos permitem testes contínuos durante a coleta de dados sem decidir antecipadamente sobre uma regra de parada ou o número de análises intermitentes. Apresentamos tanto o mSPRT quanto o GAVI, mas o mSPRT é essencialmente um caso especial do GAVI, e os prós e os contras são os mesmos. Para detalhes ver, por exemplo, Howard et al. (2021) ou Lindon et al. (2022) .

Prós:

  • Fácil de implementar.
  • Permite amostragem ilimitada e nenhum tamanho de amostra esperado é necessário antecipadamente.
  • Permite regras de parada arbitrárias.
  • Suporta streaming e dados em lote.

Contras:

  • Requer que o experimentador escolha parâmetros da distribuição de mistura, ou seja, a distribuição que descreve o efeito sob a hipótese alternativa. Esta escolha afeta as propriedades estatísticas do teste e não é trivial. Se o tamanho aproximado da amostra esperado for conhecido, ele poderá ser usado para selecionar o parâmetro, mas a vantagem de não precisar saber o tamanho da amostra será perdida.
  • Mais difícil de entender para pessoas treinadas em testes de hipóteses tradicionais. Provavelmente demorará um pouco até que os cursos introdutórios em estatística cubram esses testes.
  • Tem, por construção, menos potência ao analisar dados em lote em comparação com streaming.

Correções de Bonferroni

Se tivermos um limite superior para quantas análises intermitentes queremos fazer, podemos resolver o problema de espionagem selecionando uma abordagem conservadora. Podemos limitar a taxa de falsos positivos ajustando para comparações múltiplas usando correções de Bonferroni, onde usamos um teste z padrão, mas com alfa dividido pelo número de análises intermitentes. Como a estatística do teste é altamente correlacionada em testes repetidos, a abordagem de Bonferroni é conservadora por construção.

Prós:

  • Fácil de implementar e explicar.

Contras:

  • Você deve decidir antecipadamente o número máximo de análises intermitentes.
  • Com muitas análises intermitentes, o teste se tornará altamente conservador com baixo poder como consequência.

Abordagem alfa corrigida 

Statsig propôs um ajuste simples que reduz a espionagem da taxa de inflação falso positiva. A abordagem não resolve o problema do peeking, no sentido de que a taxa de falsos positivos sob o peeking está limitada abaixo do nível-alvo (alfa), mas limita substancialmente a própria inflação.

Prós:

  • Fácil de usar.

Contras:

  • Não limita a taxa de falsos positivos e, portanto, não resolve o problema de espionagem.
  • A taxa real de falsos positivos depende do tamanho da amostra e do número de análises intermitentes – o que pode ser difícil de entender pelos experimentadores.

A forma como os dados são entregues afeta a escolha do teste

A maioria das empresas que realizam experimentos on-line possui infraestrutura de dados que oferece suporte a dados em lote ou streaming (ou ambos). No contexto da experimentação online, os dados em lote implicam que a análise pode, no máximo, ser feita cada vez que um novo lote de dados é entregue.

A maioria dos trabalhos de dados são executados diariamente, o que implica uma análise por dia durante um experimento. Como o nome indica, o teste sequencial de grupo é construído para uso com lotes (grupos) de dados.

Se o número de análises intermitentes ultrapassar algumas centenas, o teste não será mais uma opção viável devido às integrações numéricas cada vez mais complexas. A maioria dos experimentos no Hurb dura no máximo algumas semanas, e nossos dados chegam em lotes, o que significa que o GST é uma boa opção para nosso ambiente de experimentação.

O streaming de dados, por outro lado, permite-nos analisar os resultados após cada nova observação. Em outras palavras, pode haver tantas análises quantas observações houver na amostra. A família de testes AVI pode ser computada assim que uma nova observação chega.

Na verdade, para utilizar todo o seu potencial para encontrar resultados significativos, os testes AVI devem ser idealmente usados ​​com dados de streaming. Embora o streaming de dados seja favorável, eles também podem lidar com dados em lote simplesmente ignorando as análises intermitentes. Isto, no entanto, inevitavelmente tornará os testes AVI conservadores até certo ponto, uma vez que a maioria das hipóteses de resultados falsos positivos nunca são consideradas. Voltamos a este ponto no estudo de simulação abaixo.

Avaliando a eficácia de testes sequenciais por suas taxas de falsos positivos e poder estatístico

Existem duas propriedades importantes pelas quais avaliamos a utilidade e eficácia dos testes sequenciais:

  • Uma taxa limitada de falsos positivos: A primeira e mais importante propriedade de um teste sequencial é que ele resolve o problema de espionagem. Ou seja, a taxa de falsos positivos não deve estar acima da taxa pretendida (alfa) mesmo na presença de peeking.
  • Alto poder/sensibilidade: A segunda propriedade é o poder ou sensibilidade de um teste, ou seja, com que frequência rejeitamos a hipótese nula quando ela não é verdadeira. Sempre que possível, queremos que nosso teste identifique os efeitos quando eles existem e rejeite a hipótese nula quando ela não for verdadeira.

Reconhecemos que estes testes poderiam ser avaliados de muitos ângulos adicionais, por exemplo, com que tipo de estatísticas de teste eles podem ser usados ​​e quais são suas propriedades para pequenas amostras. Na nossa experiência, o poder e a taxa de falsos positivos são os aspectos mais importantes e, portanto, um bom ponto de partida para comparação.

Dos cinco testes mencionados acima, todos, exceto a abordagem alfa corrigida (CAA), cumprem o primeiro critério de uma taxa limitada de falsos positivos. O teste CAA é construído de tal forma que a taxa geral de falsos positivos é estritamente maior que alfa se qualquer espiada for realizada durante a coleta de dados. O nível de inflação depende da frequência com que você espia e do tamanho total da amostra, como revelam nossos resultados abaixo. Como ele não limita a taxa de falsos positivos sob espionagem, não vemos o CAA como um teste sequencial adequado e o deixaremos fora da comparação de poder.

Todos os outros testes, por construção, limitam a taxa de falsos positivos a alfa ou inferior, se usados ​​conforme pretendido, mas diferem em poder/sensibilidade. No entanto, esses testes também são otimizados para terem sensibilidade para diferentes configurações que discutiremos mais detalhadamente na próxima seção.

Estudo de simulação de Monte Carlo

Para construir a intuição para as compensações importantes ao selecionar entre os testes sequenciais discutidos acima, realizamos um pequeno estudo de simulação de Monte Carlo.

Para manter esta postagem curta, alguns detalhes da configuração foram deixados de fora. Consulte o código de replicação para obter detalhes. Todos os dados na simulação são gerados a partir de uma distribuição normal com média 1 (+ efeito de tratamento sob tratamento) e variância 1.

O tamanho da amostra é balanceado entre tratamento e controle com 500 observações em cada grupo. Executamos 100.000 replicações para cada combinação de parâmetros. Usamos testes unilaterais com a taxa pretendida de falsos positivos (alfa) definida em 5%. Todas as suposições estatísticas de todos os testes são cumpridas por construção sem a necessidade de grandes amostras.

Para todas as simulações variamos o número de análises intermitentes. Conduzimos 14, 28, 42 ou 56 análises com espaçamento uniforme ou analisamos os resultados em streaming. Este último corresponde a 500 análises intermitentes neste caso. Observe que o fluxo não é calculado para os GSTs, pois isso não é plausível para os tamanhos de amostra normalmente tratados em experimentação online.

Obtemos limites para o GST usando o pacote ldbounds R , onde variamos o parâmetro de tamanho de amostra esperado [n]. Implementamos o teste GAVI conforme documentação da Eppo , onde variamos o numerador do parâmetro de ajuste [rho]. A versão do mSPRT que utilizamos segue a generalização apresentada por Lindon et al. (2022) . Consideramos apenas o caso unidimensional e variamos o parâmetro de sintonia [phi]. Para CAA, seguimos o procedimento descrito na documentação da Statsig .

Primeiro nos concentramos na taxa de falsos positivos e, em seguida, comparamos o poder sob várias configurações para os testes que limitaram adequadamente a taxa de falsos positivos.

Taxa de falso positivo

Para a simulação empírica da taxa de falsos positivos, consideramos os seguintes testes e variantes de testes:

  • ICMS
    • Aplicamos o teste com (1) um tamanho de amostra assumido corretamente, (2) um tamanho de amostra 50% subestimado (ou seja, assumimos erroneamente um tamanho de amostra máximo muito baixo de 500, mas o tamanho de amostra final real observado foi de 750) e ( 3) um tamanho de amostra 50% superestimado (ou seja, assumimos um tamanho de amostra muito alto, 500, mas o tamanho real da amostra era 250). Quando sobreamostramos e obtemos mais observações do que o esperado, aplicamos a correção aos limites propostos em Wassmer e Brannath (2016), páginas 78–79.
    • Usamos duas versões da chamada função de gasto alfa da família de poder, que são quadráticas ou cúbicas no índice de informação. Ver Lan e DeMets (1983).
  • GAVI
    • Definimos o numerador no parâmetro de ajuste [rho] para o tamanho de amostra esperado correto e para 50% de sobreamostragem ou subamostragem.
  • mSPRT
    • Definimos o parâmetro de ajuste [phi] como 1/[tau] 2 onde [tau] é igual a um dos tamanhos de efeito reais usados ​​no estudo de simulação (0,1, 0,2 ou 0,3).
  • CAA – sem configurações.
  • Ingênuo
    • O alfa usado no teste z padrão é definido como 0,05 dividido pelo número de análises intermitentes.

Resultados

A Tabela 1 mostra os resultados empíricos falsos positivos nas 100.000 replicações de Monte Carlo. Como esperado, todos os testes, exceto o GST sobreamostrado e os testes CAA, limitaram com sucesso a taxa de falsos positivos. Para o GST, isso é esperado, uma vez que toda a taxa de falsos positivos é totalmente consumida quando a amostra atinge o tamanho de amostra planejado, e qualquer teste além desse ponto inflacionará a taxa de falsos positivos. Da mesma forma, o teste CAA usa toda a taxa de falsos positivos pretendida no último ponto de análise, e todos os testes executados antes que a amostra completa seja obtida aumentam a taxa de falsos positivos.

Vale ressaltar que os testes sempre válidos (GAVI e mSPRT) são conservadores quando o teste não é realizado após cada nova observação. Curiosamente, a abordagem ingênua tem conservadorismo semelhante a algumas das abordagens sempre válidas quando são realizadas 14 análises intermitentes.

Número de testes intermitentes
Teste Parâmetro de teste adicional 14 28 42 56 fluxo
GST, gasto alfa quadrático Tamanho esperado da amostra por grupo[n]
250 0,07 0,07 0,07 0,08
500 0,05 0,05 0,05 0,05
750 0,03 0,02 0,03 0,03
GST, gasto alfa cúbico Tamanho esperado da amostra por grupo[n]
250 0,07 0,07 0,07 0,07
500 0,05 0,05 0,05 0,05
750 0,01 0,01 0,01 0,01
GAVI Tamanho esperado da amostra por grupo[rho]
250 0,01 0,02 0,02 0,02 0,02
500 0,01 0,01 0,01 0,01 0,02
750 0,01 0,01 0,01 0,01 0,01
mSPRT Tamanho do efeito de interesse[phi]
0,1 0,01 0,01 0,01 0,01 0,01
0,2 0,01 0,02 0,02 0,02 0,02
0,3 0,01 0,02 0,02 0,02 0,03
CAA 0,06 0,06 0,07 0,07 0,07
Bonferroni 0,02 0,01 0,01 0,01 0,00
Tabela 1: Taxa empírica de falsos positivos em 100.000 replicações. A taxa pretendida (alfa) é de 5%. Todos os testes, exceto o GST sobreamostrado e os testes CAA, limitam a taxa de falsos positivos conforme esperado.  

Poder

Para a comparação de poder, descartamos os métodos que não limitam a taxa de falsos positivos para tornar válidas as comparações de poder. Para os métodos que limitaram com sucesso a taxa de falsos positivos e, assim, resolveram o problema de espionagem, agora voltamos nossa atenção para a potência. Ou seja, a capacidade de cada teste de detectar um efeito quando ele existe. Para fazer isso, agora também adicionamos um efeito verdadeiro igual a 0,0, 0,1, 0,2, 0,3 ou 0,4 desvios padrão do resultado. Isto implica que para o efeito zero, o poder observado corresponde à taxa empírica de falsos positivos.

Resultados

A Tabela 2 exibe os resultados do poder empírico para um determinado efeito de tratamento de 0,2 desvios padrão. Este tamanho de efeito foi escolhido porque nenhum método possui poder 1 ou 0 para este tamanho de efeito, o que torna mais clara a diferença entre os métodos.

Os resultados mostram que o GST é na maioria dos casos superior a todos os outros métodos em termos de poder, mesmo quando o tamanho esperado da amostra é superestimado. A exceção é quando o GST usa uma função de gasto alfa que gasta muito pouco alfa em combinação com um tamanho de amostra superestimado. Isto é natural, uma vez que a fase da recolha de dados durante a qual se planeia gastar a maior parte do alfa nunca chega. Nesta situação, o GST tem poder comparável aos testes sempre válidos, mas poder sistematicamente inferior ao das variantes de teste sempre válidas com melhor desempenho.

O número de análises intermitentes tem apenas um impacto mínimo no poder do GST. Como esperado, os testes sempre válidos GAVI e mSPRT têm menor poder, quanto menos análises intermitentes realizamos. Mesmo que as diferenças não sejam muito grandes, vale ressaltar que a abordagem ingênua (Bonferroni) com 14 análises intermitentes tem maior poder do que todas as variantes consideradas dos testes sempre válidos com aquelas poucas análises. A potência do mSPRT é relativamente estável em diferentes opções de seu parâmetro de ajuste, e vemos o mesmo para o GAVI.

Número de testes intermitentes
Teste Parâmetro de teste adicional 14 28 42 56 Fluxo
GST, gasto alfa quadrático Tamanho esperado da amostra por grupo[n]
500 0,90 0,90 0,90 0,89
750 0,83 0,82 0,82 0,82
GST, gasto alfa cúbico Tamanho esperado da amostra[n]
500 0,93 0,92 0,93 0,93
750 0,72 0,71 0,71 0,71
GAVI Tamanho esperado da amostra por grupo [rho]
250 0,72 0,73 0,74 0,75 0,76
500 0,72 0,73 0,74 0,74 0,76
750 0,71 0,72 0,73 0,73 0,75
mSPRT Tamanho do efeito de interesse [phi]
0,1 0,67 0,68 0,69 0,69 0,71
0,2 0,72 0,74 0,74 0,75 0,77
0,3 0,71 0,72 0,73 0,73 0,75
Bonferroni 0,75 0,69 0,65 0,62 0,40
Tabela 2: Poder empírico em 100.000 replicações sob um efeito de tratamento fixo de 0,2 desvios padrão. 

A Figura 2 apresenta as curvas de potência completas para um subconjunto de configurações. A maioria das variações tem desempenho igualmente bom, com as principais exceções para todos os tamanhos de efeito considerados sendo GST e correção de Bonferroni com dados de fluxo. A correção de Bonferroni com 14 ou 56 análises intermitentes tem um desempenho surpreendentemente bom, mas espera-se que compense ao conduzir 500 análises.

Figura 2: Poder empírico sobre vários efeitos de tratamento (0, 0,1, 0,2, 0,3, 0,4, 0,5 desvios padrão), para vários números de análises intermitentes (14, 56 e fluxo) em 100.000 replicações. Apenas quatro dos testes considerados anteriormente estão incluídos aqui para minimizar a confusão; GAVI com o tamanho de amostra esperado correto, GST com o tamanho de amostra esperado correto, mSPRT com phi=25 (que corresponde a um tamanho de efeito de interesse igual a 0,2) e Bonferroni.

O que podemos aprender com os resultados?

Em resumo, descobrimos que o teste sequencial de grupo é sistematicamente melhor ou comparável a abordagens sempre válidas. Como analisamos os dados que chegam em lotes no Hurb?

A incapacidade do teste sequencial de grupo de lidar com dados de streaming não é uma limitação prática; na verdade, significa que somos capazes de avaliar os dados de forma mais eficiente, uma vez que não precisamos analisar os resultados continuamente à medida que os dados chegam. Um resultado surpreendente é que quando o número de análises realizadas é mantido baixo, aplicar correções de Bonferroni a testes z padrão é tão eficaz quanto confiar em abordagens sempre válidas. Este resultado sugere que dependendo da situação, testes sempre válidos podem ser demasiado gerais e conservadores.

Embora o nosso estudo de simulação seja simples e transparente, os resultados podem não ser generalizáveis ​​para outras situações. Nossa configuração imita uma situação da vida real em que existe um limite máximo no número de observações ou no tempo de execução do experimento. Em alguns casos, o experimentador pode querer deixar o experimento indefinidamente, de modo que os testes sempre válidos seriam mais atrativos. Na simulação, também assumimos que a variância é conhecida. Na prática, não é assim, e estimar a variância pode causar novas alterações nos resultados. Da mesma forma, geramos dados a partir de uma distribuição normal no estudo de simulação, e cada um dos testes poderia ser afetado de maneira diferente se os dados fossem, por exemplo, fortemente distorcidos.

As abordagens sempre válidas exigem que os parâmetros de ajuste sejam definidos, assim como o teste sequencial de grupo requer um tamanho de amostra esperado. Para o GAVI, usamos parametrizações que expressam isso em termos de tamanhos de amostra esperados e tamanhos de efeito. Uma grande diferença entre o tamanho de amostra esperado para o teste sequencial de grupo e os parâmetros de ajuste para as abordagens sempre válidas é que estas últimas têm a garantia de nunca exceder a taxa de falsos positivos desejada, independentemente do valor selecionado.

O único preço potencial que se tem de pagar é em termos de potência: um valor abaixo do ideal pode levar a uma potência baixa. Para o teste sequencial de grupo, um tamanho de amostra esperado muito baixo em relação ao que é realmente observado significa que o teste tem uma taxa de falsos positivos inflacionada. Embora não exploremos mais esse tópico nesta postagem do blog, vale a pena enfatizar que uma taxa de falsos positivos corretamente delimitada é garantida com inferência sempre válida. Às vezes, esta garantia pode ser mais valiosa do que a redução de potência que se segue. Por exemplo, se a estimativa do tamanho esperado da amostra for difícil e muitas vezes errada, um teste sempre válido é preferível ao teste sequencial de grupo.

Na próxima seção, examinaremos mais de perto o comportamento do teste sempre válido quando o tamanho esperado da amostra não for conhecido.

Quando você não consegue estimar o tamanho esperado da amostra

As simulações indicam que os GST são frequentemente preferíveis do ponto de vista do poder se o tamanho esperado da amostra for conhecido ou puder ser estimado. Mas e quando o tamanho esperado da amostra não é conhecido e não pode ser estimado? Este poderia ser o caso, por exemplo, quando não existem dados históricos para o tipo de experiências que estão a ser realizadas. Nesta seção, examinaremos mais de perto as propriedades do AVI neste caso.

Pudemos ver nas simulações que o número de análises intermitentes é muito menos importante do que a capacidade de estimar o tamanho esperado da amostra (GST) ou selecionar o parâmetro de mistura (mSPRT, GAVI). As duas variantes de teste sempre válidas consideradas aqui são comparáveis ​​em poder, por isso nos concentramos no GAVI. O tamanho esperado da amostra é parametrizado, o que facilita o raciocínio.

Ao usar o GAVI, é mais seguro subestimar o tamanho da amostra para o parâmetro de mistura do que superestimar ( Howard et al. 2021 ), para otimizar o poder. Ao mesmo tempo, se você tiver informações precisas sobre o tamanho da amostra, é melhor usar o GST. Isso significa que uma das situações mais atraentes para usar o GAVI é quando você não tem informações precisas sobre o tamanho da amostra que alcançará e, portanto, subestima o tamanho da amostra como estratégia para ter um teste válido com propriedades de poder razoáveis. Isto levanta a questão: qual é o desempenho da GAVI sob tamanhos de amostra largamente subestimados?

Na simulação abaixo deixamos o teste otimizado para n =10 (observe que como a variância é conhecida isso não afeta as propriedades dos testes) enquanto o tamanho real da amostra é 500, implicando uma subestimação da ordem de 50 vezes. Isto pode parecer uma configuração extrema, mas para colocar isso em perspectiva, a Eppo está atualmente usando n =10.000 como a configuração GAVI para todos os seus testes sequenciais ( Eppo 2023 ). Ou seja, a simulação corresponde a alguém realizando um teste com 500 mil usuários com a configuração atual do Eppo, o que é plausível.

tipo 14 28 42 56 fluxo
GAVI (rho=10) 0,57 0,59 0,60 0,60 0,63
GAVI (rho=500) 0,72 0,73 0,74 0,74 0,76
ICMS (n=500) 0,90 0,90 0,90 0,89
Bonferroni 0,75 0,69 0,65 0,62 0,40
Tabela 3: Poder empírico em 100.000 replicações sob um efeito de tratamento fixo de 0,2 desvios padrão. Quatro métodos são comparados, GAVI com um tamanho de amostra 50 vezes subestimado para selecionar o parâmetro de mistura rho, GAVI com o tamanho de amostra correto, GST com o tamanho de amostra correto e Bonferroni. Esses resultados mostram o efeito de subestimar severamente o tamanho da amostra ao selecionar o parâmetro de mistura (rho) para o GAVI como estratégia de projeto quando o tamanho da amostra não pode ser estimado .

A Tabela 3 mostra o poder empírico sobre 100.000 simulações de Monte Carlo. Para benchmark, incluímos também o GST com n estimado corretamente e uma função alfa quadrática de gastos, que foi o teste que teve melhor desempenho na simulação de comparação (Tabela 2). A perda de potência de uma subestimação de 50x de n é de cerca de 15% em comparação com GAVI com o n correto e cerca de 30% em comparação com GST com o n correto . O fato do poder ser até 30% menor indica a importância de se conseguir estimar bem o tamanho da amostra para obter alto poder em testes sequenciais.

Dado que o teste GAVI permite amostras infinitamente grandes, é notável que ele não perca mais poder ao subestimar o tamanho da amostra tão severamente. Contudo, vale a pena notar que, para até 56 análises intermitentes pré-planejadas, a abordagem de Bonferroni ainda supera a GAVI em termos de poder.

Nossas recomendações para selecionar um teste sequencial

A inferência sempre válida é uma estrutura de teste sequencial que funciona sob poucas restrições. Para experimentadores que são novos em testes sequenciais e desejam principalmente um sistema de detecção precoce com taxas de falsos positivos limitadas de forma confiável, o AVI é a estrutura a ser escolhida. Para experimentadores mais sofisticados que buscam experimentos de potência/menores usando, por exemplo, redução de variância, ele deve ser usado com mais cuidado. Não é improvável que você perca tanta potência quanto as técnicas padrão de redução de variância lhe trarão. Se você tiver dados históricos (o que normalmente implica o uso de uma abordagem de redução de variância como a sugerida por Deng et al. (2013) , os testes sequenciais de grupo normalmente fornecerão um poder substancialmente maior.

  • Em qualquer situação em que não seja possível estimar o tamanho da amostra com precisão, a família de testes AVI é uma boa escolha para testes sequenciais se os dados forem transmitidos. Se os dados não puderem ser transmitidos, Bonferroni também é uma boa alternativa, embora exija um número máximo pré-especificado de análises intermitentes.
  • Se o tamanho da amostra puder ser estimado com precisão, mas o experimentador quiser a opção de manter o experimento em execução por mais tempo ( n maior ), o AVI ainda é uma boa escolha, mas com algumas ressalvas. Ao usar AVI quando o tamanho da amostra é estimável, o experimentador perde poder em comparação ao GST. Isto significa que, embora possa ser obtida potência adicional ao executar a experiência durante mais tempo do que as n primeiras observações estimadas, é necessário compensar essa perda antes de realmente ganhar potência em comparação com todos os testes possíveis que podem ser utilizados nesta situação.
  • Se os dados estiverem disponíveis em fluxo e a detecção precoce de grandes regressões for a principal preocupação, o AVI é uma boa escolha. Nem GST nem Bonferroni podem lidar com dados de streaming e, se as regressões forem grandes, a energia não será um problema. Para regressões pequenas, pode valer a pena esperar pelo primeiro lote e usar o GST para ter maior poder para amostras menores para detectar a deterioração precocemente.
  • Se o tamanho da amostra puder ser estimado com precisão e não houver necessidade de superação, o GST é uma boa escolha. Isso vale quer você possa analisar em streaming ou em lotes. A detecção precoce de regressões pode ser alcançada executando muitas análises intermitentes no início do experimento.
  • Se o tamanho esperado da amostra for subestimado propositadamente para evitar sobreamostragem, a função de despesa alfa não deve ser demasiado conservadora nas fases iniciais da recolha de dados.
  • Um mal-entendido comum sobre o GST é que o número de análises intermitentes e o seu momento durante a coleta de dados precisam ser predeterminados. Este não é o caso, ver por exemplo Jennison e Turnbull (2000) . Na verdade, você pode fazer quantas análises intermitentes quiser, sempre que quiser durante a coleta de dados — e você só paga pela espiada que fizer — o que significa que você não diminui a potência mais do que o necessário.

Nota sobre redução de variância: Todos os testes apresentados neste post também podem ser combinados com redução de variância para melhorar a precisão dos experimentos. A técnica de redução de variância mais popular baseada em regressão linear pode ser implementada em duas etapas e, portanto, é possível realizar a residualização antes de qualquer um dos métodos acima.

Existem artigos formais sobre como realizar a redução de variância por meio de regressão sem violar a respectiva estrutura para Inferência Sempre Válida ( Lindon et al., 2022 ) e Testes Sequenciais de Grupo (Jennison e Turnbull, 2000) .

Isso significa que as comparações relativas entre os métodos neste post também se aplicam ao tipo mais comum de redução de variância.

As Plataformas de Experimentação mais eficientes usam testes sequenciais em grupo porque esse teste foi originalmente projetado para estudos médicos onde os dados chegavam em lotes — muito parecido com a infraestrutura de dados que atualmente alimenta nossa plataforma de experimentação. Para dados de streaming, o teste sequencial de grupo não é uma opção viável, a menos que os dados sejam analisados ​​em lotes. Nosso estudo de simulação mostra que mesmo com acesso a dados de streaming, a probabilidade de identificarmos um efeito, quando existe, é maior quando os dados de streaming são analisados ​​em lotes com o teste sequencial de grupo do que no modo de streaming usando qualquer um dos outros. dois testes.

Independentemente do teste sequencial específico escolhido, é fundamental utilizar um.

Um aspecto fundamental de plataforma de experimentação state of the art é monitorar continuamente os experimentos e detectar quaisquer efeitos adversos prontamente, sem comprometer a validade estatística dos experimentos. Isso não seria possível sem um teste sequencial.

Leave a Reply

Your email address will not be published. Required fields are marked *

Back To Top