Elaborar um Ranking que consolide competições masters de diferentes níveis requer desafios em função das informações serem provenientes de distintas fontes. Estes desafios referem-se a tratamento e organização dos dados que foram padronizados e consolidados num banco dados, que por sua vez, possibilita consultas às informações adequadamente.
Como este Ranking contempla resultados de diferentes competições, o primeiro passo foi reunir os Boletins de Resultados espalhados em diversos sites. Superada esta etapa, o desafio seguinte foi com relação ao nome dos atletas, já que o mesmo atleta pode seu nome sido registrado de maneira distinta em diferentes Boletins de Resultados. Estes e outros desafios e processos que envolveram a construção deste Ranking estão descritos detalhadamente a seguir.
1. Boletins de Resultados
Todos os Boletins de Resultados contemplados neste Ranking podem ser conferidos nos links da página Fontes. Estes boletins estão espalhados em diversos sites, e muitas vezes edições de um mesmo campeonato tradicionais como Troféu Brasil e Campeonato Brasileiro também estão em sites diferentes.
Infelizmente, não encontramos todas as edições e campeonatos, principalmente, aqueles anteriores a 2010 (conferir a coluna “Edições Faltantes”). Assim, os interessados em contribuir com estes documentos podem enviar para o email contato@atletismomasters.com.br que faremos a atualização do Ranking.
2. Padronização das Informações
Apesar dos Boletins de Resultados dispor das principais informações necessárias para Ranking, não há padronização quanto ao seu formato. Assim, todos os Boletins de Resultados tiveram que passar por processo de tratamento e organização das informações que envolvem as seguintes tarefas:
- todos os boletins terão as mesmas colunas, independentemente se a coluna está presente no boletim original;
- ajuste no formato dos atletas integrantes dos revezamentos para visualização adequada no Ranking;
- ajuste no formato dos resultados das provas que integram as provas combinadas para visualização adequada no Ranking;
- identificação e exclusão de resultados inconsistentes ou incompatíveis para a categoria. Estes resultados serão disponibilizados em uma página a parte (ainda em construção);
- identificação e exclusão de resultados obtidos por atletas estrangeiros;
- identificação e exclusão de resultados repetidos ou que não sejam de atletas masters (M30+ e W30+);
- identificação do Atleta Único;
- conversão e ajustes das marcas obtidas via cronometragem manual.
Estas duas últimas tarefas são abordadas nas duas seções seguintes.
3. Identificação do Atleta Único
Inicialmente, este processo de tratamento era inteiramente manual. Atualmente, utilizamos metodologia denominada de Fuzzy String Matching que adaptamos para comparar nomes de atletas de um Boletim de Resultados com aqueles nomes disponíveis no banco de dados do Ranking.
Às vezes, deparamos com homônimos (nomes idênticos) e atletas que têm nomes muitos similares. À estes atletas foram acrescentados quatro dígitos numéricos que se referem ao ano de nascimento (quando disponível) ou número sequencial começando com “0000” quando o ano de nascimento não é disponível. Por exemplo:
- John Silva 1970: é o atleta John Silva que nasceu em 1970;
- John Silva 1985: é o atleta John Silva que nasceu em 1985;
- John Silva 0000: é o atleta John Silva que não dispõe de ano de nascimento nos Boletins de Resultados e tampouco não é nenhum dos dois atletas anteriores (pois a categoria que disputou num determinado ano não é compatível com os anos de nascimento).
Por padrão, a acentuação no campo Atleta Único foi omitida. Assim, se algum atleta quiser acrescentar acentuação ou simplesmente corrigir o nome, pode solicitar através do email contato@atletismomasters.com.br.
4. Cronometragem
Nesta seção apresentamos duas situações de cronometragem onde ajustes foram aplicados:
- Cronômetro Manual: Para provas de pista outdoor, tempos manuais são identificados com a letra “h” (hand) na segunda casa decimal. Internamente estas marcas são ajustadas conforme documento COMPETITION AND TECHNICAL RULES 2023 Edition (Appendix B):
- Acrescenta 0,14s para provas de 400m e 400m com Barreiras. Por exemplo, a marca 59,9h é equivalente a 1:00,04 da cronometragem eletrônica;
- Acrescenta 0,24s para provas de 100m, 200m, 80m com Barreiras, 100m com Barreiras, 110m com Barreiras, 200m com Barreiras e 300m com Barreiras. Por exemplo, para a prova de 100m a marca 11,7h é equivalente a 11,94 da cronometragem eletrônica;
- Provas de distância igual ou superior a 800m os tempos não sofrem ajustes. Por exemplo, para a prova de 800m a marca de 2:16,0h é equivalente a 2:16,00 da cronometragem eletrônica.
- Provas de Rua e Cross Country: Tempos registrados com casas decimais/centesimais são convertidas para formato mm:ss ou h:mm:ss. Ou seja, os tempos são arredondadas “para cima”. Por exemplo, se no Boletim de Resultados constar a marca de 35:32,43 para a prova de 8km Cross Country, ela é convertida para 35:33.
5. Sistema de Banco de Dados
A importância de um Sistema de Banco de Dados para este Ranking é que permite consultas online e dinamicamente. Além disso, a manutenção e atualização das informações são outros benefícios que esta ferramenta proporciona.
Num Sistema de Banco de Dados é fundamental a definição de campos chave que identifique a unicidade do registro numa tabela. O sistema deste Ranking é relativamente simples, assim, adotamos apenas Atleta Único (mencionado na Seção 3) como campo chave que, como principais benefícios, possibilita:
- consultas por “Melhor Marca” e “Todas Marcas”;
- consultas por atleta que traz um resumo sobre premiação em eventos de nível mundial e melhores marcas por prova e categoria.
6. Correção dos Erros
Infelizmente, durante padronização das informações podem ter ocorrido erros ou inconsistências que passaram desapercebidos no processo de tratamento e organização. Os Boletins de Resultados originais utilizados neste Ranking podem ser conferidos nos links da página Fontes, assim, caso identifique dados incorretos e divergentes, nos contate que faremos a devida correção.