SIM9 — Similaridade Textual
Motor de comparação cadastral online. Identifica duplicatas, grafias alternativas e registros semelhantes em listas de nomes, CPF, CNPJ ou endereços — com 4 níveis de acurácia configuráveis e painel analítico integrado.
O que é o SIM9?
O SIM9 é o motor de comparação cadastral da Cordium. Ele recebe uma lista no formato ID;TEXTO, calcula a similaridade entre todos os pares (processamento N × N) e retorna grupos de registros similares com seus scores de 0 a 100 %.
Além do processamento em lote, o SIM9 oferece busca pontual (consultar um texto contra toda a base sem reprocessar) e um painel analítico automático com métricas estatísticas do resultado.
Para quem se destina
📋 Gestores de cadastro
Limpeza de bases com nomes repetidos, grafias variadas e duplicatas acumuladas ao longo do tempo.
🔍 Auditores e fiscais
Cruzamento de listas para detecção de fraudes, duplicidades ou inconsistências entre bases distintas.
📊 Analistas de dados
Exploração estatística da qualidade cadastral e datamining de registros problemáticos.
📋 Contabilistas e RH
Validação em massa de CPF e CNPJ com identificação de dígitos inválidos.
💻 Desenvolvedores
Acesso via API REST documentada para integração em sistemas próprios.
🎓 Pesquisadores
Comparação de corpora textuais, lista de entidades nomeadas e registros históricos.
Como funciona
Para cada par de registros da lista, o SIM9 calcula um score de similaridade combinando os algoritmos selecionados pelo nível de acurácia. O score final é uma média ponderada normalizada para 0–100 %.
| Algoritmo | Especialidade | Nível mínimo |
| Levenshtein | Distância de edição (inserções, deleções, substituições) | 1 |
| Soundex-BR | Fonética portuguesa — captura variações de pronuncia | 2 |
| Metaphone-BR | Fonética avançada — consoantes e vogais do português | 3 |
| Jaro-Winkler | Precisão em nomes próprios e prefixos comuns | 4 |
4 níveis de acurácia
N1Rápido — Levenshtein simples. Ideal para listas grandes onde a velocidade é prioridade. Captura duplicatas exatas e erros de digitação evidentes.
N2Padrão — Levenshtein + Soundex-BR. Recomendado para a maioria dos casos. Captura variações fonéticas do português (ex: Aparecida / Aparecida / Aparesida).
N3Alto — Adiciona Metaphone-BR. Melhor cobertura de erros de pronuncia e grafias informais (ex: João / Joao / Joao).
N4Máximo — Jaro-Winkler + todos os anteriores. O mais preciso para nomes próprios. Recomendado para análises de datamining e auditorias de alta precisão.
Exemplos de uso
Entrada (formato ID;TEXTO)
001;Maria da Silva Santos
002;Maria Silva Santos
003;MARIA SILVA SANT0S
004;Jose Aparecido de Lima
005;Jose Aparecido Lima
006;12.345.678/0001-90
007;12.345.678/0001-91
Saída esperada (Nível 2)
Grupo: 001 Maria da Silva Santos (referencia)
002 [95%] Maria Silva Santos
003 [88%] MARIA SILVA SANT0S
Grupo: 004 Jose Aparecido de Lima (referencia)
005 [92%] Jose Aparecido Lima
Grupo: 006 12.345.678/0001-90 (referencia)
007 [89%] 12.345.678/0001-91 ← CNPJ inválido detectado
Painel analítico
Após cada processamento, o SIM9 calcula e exibe automaticamente:
- Taxa de duplicidade — percentual de registros com ao menos um similar
- Score médio, mediana e desvio padrão dos scores encontrados
- Distribuição por faixas: 90–100 %, 70–89 %, 50–69 %
- Registro mais duplicado da lista (ID com mais ocorrências)
- Busca pontual 1 × N para inspecionar registros individuais após o processamento
Exportações disponíveis
- TXT — lista legível com todos os grupos e scores
- CSV — pares de similares para importar em Excel ou banco de dados
- XLSX — planilha com aba Resumo Analítico e aba Pares
- Relatório TXT — documento completo com cabeçalho, Resumo Analítico e listagem detalhada
API REST
O SIM9 expõe dois endpoints para integração em sistemas próprios:
POST /api/sim9/processar
Content-Type: application/json
{
"lista": "001;Maria da Silva\n002;Maria Silva",
"nivel": 2,
"tipo": "nome",
"min_sim": "auto"
}
# Retorna stream SSE com progresso + resultado final
POST /api/sim9/buscar
Content-Type: application/json
{
"query": "Maria Silva",
"lista": "001;Maria da Silva\n002;Joao Santos",
"nivel": 2,
"tipo": "nome"
}
# Retorna JSON com lista de similares e scores
Planos e limites de acesso
O SIM9 possui três perfis de acesso, com regras claras de uso:
| Perfil |
Limite de registros |
Nível máximo |
Premium |
| Sem login (plano gratuito) |
até 1 000 |
N3 — Auditoria |
✖ Bloqueado |
| Assinante com saldo (login ativo) |
Ilimitado |
N4 — Premium |
✔ Disponível |
| Assinante sem saldo (login expirado) |
Ilimitado |
N3 — Auditoria |
✖ Bloqueado |
O login é feito com e-mail e senha diretamente no SIM9 (botão Entrar no cabeçalho) — sem necessidade de token. O token, quando ativo, dá acesso em Minha Conta.