Insights do IDT

O tênis amador brasileiro é um arquipélago. A gente mapeou.

Quando você olha o IDT como uma rede de partidas — quem jogou contra quem —, padrões aparecem. Existem ilhas: clubes, regiões e grupos que jogam muito entre si e pouco contra o resto do país. Esse estudo conta o que descobrimos olhando essa estrutura, por que isso importa pro número que aparece no seu perfil, e o que ainda falta fazer.

Bolhas190detectadas nos 4 pools

Maior cluster5,9%do pool adulto masculino

Locais puros82%dos adultos masculinos

Modularidade0,85adultos / 0,67 juvenis

§01O problema

O IDT é ótimo dentro da bolha. Entre bolhas, é parcialmente um chute.

Imagina dois clubes. Clube A no interior do RS: 200 sócios que jogam só entre eles. Clube B em SP: 100 sócios, idem. O sistema gera IDTs de 1,5 a 5,5 pros dois lados. Pergunta: o IDT 1,5 do Clube A está na mesma escala do IDT 1,5 do Clube B?

Matematicamente: não dá pra saber. O sistema nunca viu um sócio do A jogar contra um sócio do B. Ele chuta que estão na mesma escala porque foi o que conseguiu fazer com o que tinha, mas é chute.

E esse chute é invisível. O IDT 1,5 sai limpinho no perfil, sem aviso de que “olha, esse 1,5 aqui pode ser meio fictício”.

Comparação que parece simétrica

Clube A — interior RSIDT 1,5

Clube B — academia SPIDT 1,5

Os dois números existem. Comparar diretamente é matematicamente questionável: zero partidas entre os dois grupos.

Esse problema é invisível no número final. A camada de calibração global expõe ele explicitamente.

§02A intuição

Em vez de mudar o número, medir a confiança.

Se um jogador é de uma bolha super isolada, marcar “calibração baixa”. Não mexer no IDT dele, só dizer: “esse número aqui é menos comparável globalmente que aquele outro”.

Pra isso, precisamos de três coisas:

Descobrir as bolhas. Não tem como usar cidade (cobertura 0,16%) nem clube (6,5%). Solução: olhar quem joga com quem e deixar o algoritmo revelar os grupinhos — como detectar comunidades em qualquer rede social.
Medir o quão fechada cada uma é. Poucas partidas com gente “de fora” = bolha fechada = baixa confiança. Muitas partidas cruzadas com gente diversa = bolha bem conectada = alta confiança.
Penalizar individualmente. Se você é da bolha fechada e nunca jogou fora, carrega toda a incerteza dela. Se você é da bolha fechada mas viaja pra torneios, calibrou sozinho — não precisa carregar a incerteza inteira.

Em vez de mudar o número

3,8(IDT central, inalterado)

calibração global: baixa

Adicionar um sinal explícito de incerteza global, sem mexer no ordenamento ou na escala existente. O jogador continua sendo IDT 3,8 — você fica sabendo que comparar nacionalmente requer cautela.

§03O método

Community detection sobre o grafo de partidas. Bayes pro resto.

Leiden

Algoritmo padrão da indústria pra encontrar comunidades em grafos. Roda em segundos sobre 20k jogadores. Cada pool — masculino adulto, feminino adulto, juvenil masculino, juvenil feminino — gera seu próprio mapa.

Evidência intercluster

Pra cada bolha, somar o peso das partidas que saem dela (tier × recência), ponderado por diversidade: 10 jogadores-ponte de níveis variados pesam muito mais que 1 jogador fazendo todas as partidas externas.

RD global por jogador

A incerteza da bolha vira sigma de calibração. Pra cada jogador: RD_global² = RD_individual² + (exposure × sigma_bolha)². Soma de variâncias independentes — RD global sempre ≥ RD individual.

§04O grafo

Aqui estão as bolhas.

Cada ponto é um jogador. Cada linha cinza, uma partida. Cores marcam as 12 maiores bolhas detectadas pelo algoritmo no masculino adulto — 23,7 mil jogadores nos clusters reconhecidos, de um pool total de 33,2 mil. Os blocos coloridos densos são as comunidades; as linhas finas entre eles são as poucas pontes que permitem comparação global.

Grafo dos jogadores adultos masculinos do IDT, agrupados por comunidade. Doze maiores bolhas destacadas em cores diferentes; demais em cinza. — Layout calculado por algoritmo de força (DRL/igraph). Nós próximos no espaço = mais partidas entre eles. Imagem do snapshot de 2026-05-17 (modularidade 0,869); snapshot ativo atual é 2026-05-23 (modularidade 0,854).

Legenda das doze bolhas destacadas, com tamanho em número de jogadores — Layout calculado por algoritmo de força (DRL/igraph). Nós próximos no espaço = mais partidas entre eles. Imagem do snapshot de 2026-05-17 (modularidade 0,869); snapshot ativo atual é 2026-05-23 (modularidade 0,854).

§05As descobertas

O que a base nos contou.

55.951 jogadores no banco. 48.403 com IDT calculado, distribuídos em quatro pools independentes (adulto masculino e feminino, juvenil masculino e feminino). Cinco descobertas que mudam como pensar o IDT.

bolhas no masculino adulto

O grafo de 33 mil jogadores parece um único bloco conectado. Mas o Leiden — algoritmo de detecção de comunidades — quebra esse bloco em 76 bolhas distintas. A maior tem só 5,9% dos jogadores (1.952). As outras 75 estão lá embaixo, separadas por poucas partidas-ponte.

Modularidade 0,85 — alta. As bolhas são bem definidas, não ruído.

82%

dos adultos só jogam dentro da própria bolha

Distribuição do coeficiente de participação (mede o quanto cada jogador se espalha entre comunidades adjacentes): 27.106 de 33.225 jogadores adultos masculinos têm participação ZERO. Mediana zero. Não é “alguns viajam” — é “a esmagadora maioria nunca jogou contra alguém de outra bolha”.

No feminino é ainda mais — 84,5% das adultas com participação zero.

MT inteiro

um estado virou uma bolha

1.337 jogadores no Mato Grosso, 94,4% das partidas em torneios dentro do estado, calibração global baixa (0,34). O algoritmo achou o cluster sem ninguém dizer “olhe pro MT” — a geografia emergiu dos jogos. O ajuste do cluster é praticamente zero (−0,85 Glicko): sem pontes pra outros estados, o sistema não inventa correção. Comparar um IDT 2,5 mato-grossense com um IDT 2,5 paulista é, hoje, um chute parcial — e agora a gente sabe disso.

Padrão repetido em RN, AL e outros estados com circuito regional fechado.

Juvenil ≠ adulto

circuito federado importa

Juvenil masculino tem 30 bolhas (vs 76 nos adultos), das quais 7 (23%) saem com confiança alta. No adulto masculino, nenhuma. O circuito CBT/regional move os meninos pra fora da cidade, e isso aparece automaticamente no algoritmo. Validação importante: o método não está dizendo “tudo é baixa” por bug — ele consegue distinguir grupos bem conectados de grupos mal conectados.

Modularidade juvenil 0,67 vs adulta 0,85. Bolhas existem, mas são bem mais permeáveis.

±1,46

IDT de ajuste máximo aplicado em produção

O C_c já está vivo no número que aparece em todo perfil, ranking e H2H. Para 40 mil jogadores masculinos com idt_with_offset calculado, o ajuste mediano absoluto é 0,08 IDT — pequeno. Em casos extremos chega a 1,46 IDT, sempre em direções que fazem sentido pra quem conhece o circuito. 2.163 jogadores M (5,4%) têm |Δ| > 0,5; 4.920 (12%) têm |Δ| > 0,2.

Bolhas sem ponte alguma: ajuste praticamente zero — quando não há evidência, o sistema não inventa.

§06As bolhas reconhecíveis

O algoritmo achou clubes e regiões sem ninguém dizer onde procurar.

Os top clusters do masculino adulto saem com identidade reconhecível — não porque algum humano marcou no banco, mas porque foi assim que o tênis se organizou na prática.

O maior cluster do RS é o circuito clubístico de Porto Alegre: 1.952 jogadores que circulam entre os torneios do GNU (29% dos jogadores do cluster passaram por torneios lá), Academia Personal Tennis (18%), Sogipa (14%), HR Tennis (10%) e a Federação Gaúcha (24%). Não é só sócio do GNU — é quem joga os abertos da capital. Caxias do Sul aparece como cluster separado, ancorado no Recreio da Juventude (24% do cluster). Santa Catarina aparece como duas bolhas distintas, ambas dominadas pela Federação Catarinense (89% dos jogadores em cada) — provável amador vs juvenil/federado, ou regiões diferentes.

Estados inteiros podem virar bolha. MT, RN, AL aparecem cada um como cluster único, dominado pela federação local — o Mato Grosso tem 1.337 jogadores, 76% deles passando pelos torneios da Federação MT, com calibração quase nula porque quase ninguém de lá joga fora.

Esse reconhecimento automático é a melhor validação que o método tem. O algoritmo descobre sozinho o que qualquer porto-alegrense do tênis já sabia: quem joga GNU joga Sogipa joga Personal joga HR — e quase nunca contra um catarinense.

Top 7 clusters — adulto masculino

RS — Porto Alegre (GNU, Sogipa, PT, HR)

capital gaúcha

1952

SC — circuito catarinense (a)

89% Fed. SC

1847

RN/PB — beach tennis nordeste

Fed. Potiguar + Paraibana

1421

MT — circuito mato-grossense

75% Fed. MT

1337

RS/BR — circuito juvenil CBT

CBT 43% + Fed. RS 27%

1140

RS — Serra Gaúcha (Recreio Caxias)

24% Recreio Juventude

1087

SC — circuito catarinense (b)

89% Fed. SC

969

§07A descoberta maior

Não é um algoritmo. É um diagnóstico estrutural.

A descoberta mais importante deste estudo não é nenhum algoritmo. É que o tênis amador brasileiro adulto é estruturalmente um conjunto de ilhas. O Glicko-2 funciona muito bem ordenando gente dentro das ilhas, mas a comparação entre ilhas é, hoje, parcialmente um chute.

Esse diagnóstico tem valor por si só. Agora sabemos onde estimular pontes faz mais diferença. Subsidiar a viagem de um top do MT pra um torneio aberto em SP vale muito mais — pra calibração da base — que mais um torneio dentro de Cuiabá. O método aponta onde colocar a próxima ponte.

95%

dos clusters de adulto masculino (72 de 76) saem com calibração baixa nos parâmetros default.

Não é o método sendo pessimista. É a fotografia da estrutura social do tênis amador brasileiro — gente que joga onde mora, contra quem joga onde mora também.

§08O que muda no produto

O equilíbrio já está em produção.

O IDT exibido em todo lugar do site — perfil, ranking, h2h — agora é R_i + C_c (rating individual + altura da bolha equilibrada). Você não precisa fazer nada — o número que aparece já é o calibrado entre bolhas.

Jogadores em bolhas bem conectadas têm C_c próximo a zero (já estavam alinhados nacionalmente). Jogadores em bolhas isoladas têm um pequeno ajuste pra refletir a melhor estimativa do nível absoluto deles dado o que o sistema sabe. Bolha sem ponte alguma: ajuste praticamente zero — quando não há evidência, o sistema não inventa.

Em média, o ajuste é pequeno (mediana absoluta ~0,08 IDT no masculino, ~0,10 no feminino). Em casos extremos pode chegar a ±1,46 IDT — e todos eles fariam sentido pra quem conhece o circuito. 5,4% dos jogadores masculinos têm |Δ| acima de 0,5 IDT. O painel admin expõe os ajustes pra auditoria.

§09Explore

Detalhes técnicos, paper e código.

Sobre o IDTVoltar à explicação base →RankingVer ranking →GrafoExplorar conexões →

Os achados completos vivem em docs/clusters.md no repositório, com o estudo de validação pré-implementação em docs/superpowers/findings/2026-05-17-graph-exploration.md. Helpers matemáticos em db/idt_connectivity.py com testes unitários. Pipeline em scripts/build_idt_clusters.py e scripts/recompute_idt_cluster_calibration.py. Fale conosco em contato@idtenis.com.br.

Carregando…

Um momento.

Insights do IDT

O tênis amador brasileiro é um arquipélago. A gente mapeou.

Bolhas190detectadas nos 4 pools

Maior cluster5,9%do pool adulto masculino

Locais puros82%dos adultos masculinos

Modularidade0,85adultos / 0,67 juvenis

§01O problema

O IDT é ótimo dentro da bolha. Entre bolhas, é parcialmente um chute.

E esse chute é invisível. O IDT 1,5 sai limpinho no perfil, sem aviso de que “olha, esse 1,5 aqui pode ser meio fictício”.

Comparação que parece simétrica

Clube A — interior RSIDT 1,5

Clube B — academia SPIDT 1,5

Os dois números existem. Comparar diretamente é matematicamente questionável: zero partidas entre os dois grupos.

Esse problema é invisível no número final. A camada de calibração global expõe ele explicitamente.

§02A intuição

Em vez de mudar o número, medir a confiança.

Se um jogador é de uma bolha super isolada, marcar “calibração baixa”. Não mexer no IDT dele, só dizer: “esse número aqui é menos comparável globalmente que aquele outro”.

Pra isso, precisamos de três coisas:

Descobrir as bolhas. Não tem como usar cidade (cobertura 0,16%) nem clube (6,5%). Solução: olhar quem joga com quem e deixar o algoritmo revelar os grupinhos — como detectar comunidades em qualquer rede social.
Medir o quão fechada cada uma é. Poucas partidas com gente “de fora” = bolha fechada = baixa confiança. Muitas partidas cruzadas com gente diversa = bolha bem conectada = alta confiança.
Penalizar individualmente. Se você é da bolha fechada e nunca jogou fora, carrega toda a incerteza dela. Se você é da bolha fechada mas viaja pra torneios, calibrou sozinho — não precisa carregar a incerteza inteira.

Em vez de mudar o número

3,8(IDT central, inalterado)

calibração global: baixa

Adicionar um sinal explícito de incerteza global, sem mexer no ordenamento ou na escala existente. O jogador continua sendo IDT 3,8 — você fica sabendo que comparar nacionalmente requer cautela.

§03O método

Community detection sobre o grafo de partidas. Bayes pro resto.

Leiden

Evidência intercluster

RD global por jogador

§04O grafo

Aqui estão as bolhas.

§05As descobertas

O que a base nos contou.

bolhas no masculino adulto

Modularidade 0,85 — alta. As bolhas são bem definidas, não ruído.

82%

dos adultos só jogam dentro da própria bolha

No feminino é ainda mais — 84,5% das adultas com participação zero.

MT inteiro

um estado virou uma bolha

Padrão repetido em RN, AL e outros estados com circuito regional fechado.

Juvenil ≠ adulto

circuito federado importa

Modularidade juvenil 0,67 vs adulta 0,85. Bolhas existem, mas são bem mais permeáveis.

±1,46

IDT de ajuste máximo aplicado em produção

Bolhas sem ponte alguma: ajuste praticamente zero — quando não há evidência, o sistema não inventa.

§06As bolhas reconhecíveis

O algoritmo achou clubes e regiões sem ninguém dizer onde procurar.

Os top clusters do masculino adulto saem com identidade reconhecível — não porque algum humano marcou no banco, mas porque foi assim que o tênis se organizou na prática.

Top 7 clusters — adulto masculino

RS — Porto Alegre (GNU, Sogipa, PT, HR)

capital gaúcha

1952

SC — circuito catarinense (a)

89% Fed. SC

1847

RN/PB — beach tennis nordeste

Fed. Potiguar + Paraibana

1421

MT — circuito mato-grossense

75% Fed. MT

1337

RS/BR — circuito juvenil CBT

CBT 43% + Fed. RS 27%

1140

RS — Serra Gaúcha (Recreio Caxias)

24% Recreio Juventude

1087

SC — circuito catarinense (b)

89% Fed. SC

969

§07A descoberta maior

Não é um algoritmo. É um diagnóstico estrutural.

95%

dos clusters de adulto masculino (72 de 76) saem com calibração baixa nos parâmetros default.

Não é o método sendo pessimista. É a fotografia da estrutura social do tênis amador brasileiro — gente que joga onde mora, contra quem joga onde mora também.

§08O que muda no produto

O equilíbrio já está em produção.

§09Explore

Detalhes técnicos, paper e código.

Sobre o IDTVoltar à explicação base →RankingVer ranking →GrafoExplorar conexões →