Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas
-
Upload
tribunal-de-contas-da-uniao-tcu-oficial -
Category
Technology
-
view
111 -
download
0
Transcript of Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas
![Page 1: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/1.jpg)
CLASSIFICAÇÃO AUTOMATIZADA DE
PRODUTOS E SERVIÇOS LICITADOSThiago Marzagão
![Page 2: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/2.jpg)
CONTEXTO: LABORATÓRIO DE
ANÁLISE DE DADOS DO CADE(mais sobre isso amanhã)
![Page 3: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/3.jpg)
PROBLEMA:
CLASSIFICA PRODUTOS E SERVIÇOS LICITADOS:
NÃO CLASSIFICA PRODUTOS E SERVIÇOS LICITADOS:
etc
![Page 4: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/4.jpg)
LICITAÇÃO FEDERAL:
![Page 5: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/5.jpg)
LICITAÇÃO ESTADUAL/MUNICIPAL/DISTRITAL:
![Page 6: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/6.jpg)
DADOS ESTADUAIS/MUNICIPAIS/DISTRITAIS:
![Page 7: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/7.jpg)
(POSSÍVEL) SOLUÇÃO:
PROCESSAMENTO DE LINGUAGEM NATURAL
![Page 8: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/8.jpg)
1. REMOVE STOPWORDS (“DE”, “A”, ETC)
2. REMOVE UNIDADES (KG, MM, FRASCOS, ETC)
3. PASSA TUDO P/ SINGULAR (RSLP-S)
4. VETORIZA CADA DESCRIÇÃO DE PRODUTO/SERVIÇO
5. TRANSFORMA EM TF-IDF (P/ DAR MAIS PESO ÀS PALAVRAS MAIS
DISCRIMINANTES)
6. NORMALIZA (P/ CONTROLAR POR DESCRIÇÕES DE TAMANHOS MUITO
DIFERENTES)
PRÉ-PROCESSAMENTO:
![Page 9: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/9.jpg)
FERRAMENTAS
![Page 10: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/10.jpg)
K-MEANS
(c/ licitações do GDF)
TENTATIVA #1
![Page 11: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/11.jpg)
1. DEFINE CENTRÓIDES ALEATÓRIOS
2. ALOCA CADA DESCRIÇÃO VETORIZADA AO CENTRÓIDE MAIS
PRÓXIMO
3. COM BASE NESSAS ALOCAÇÕES, RE-COMPUTA OS
CENTRÓIDES
4. REPETE 2 E 3 ATÉ CONVERGÊNCIA
K-MEANS
![Page 12: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/12.jpg)
K-MEANS
RESULTADO: PÉSSIMO
CLUSTERS SEM O MENOR SENTIDO
EXEMPLO: “LUVAS CIRÚRGICAS” E “ÔNIBUS” DENTRO DE UM MESMO
CLUSTER
![Page 13: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/13.jpg)
SIMILARIDADE DO CO-SENO
(c/ licitações do GDF e NCM)
TENTATIVA #2
![Page 14: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/14.jpg)
SIMILARIDADE DO CO-SENO
RESULTADO: RUIM
# EXCESSIVO DE CLASSIFICAÇÕES ERRADAS
EXEMPLO: “CARREGADOR DE BATERIA” CLASSIFICADO COMO
“BATERIA”RESULTADO RUIM C/ NCM A 4, 6 OU 8 DÍGITOS
![Page 15: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/15.jpg)
SVM
(c/ licitações federais e CATMAT/CATSER)
TENTATIVA #3
![Page 16: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/16.jpg)
PARECIDO C/ REGRESSÃO LOGÍSTICA, MAS IDÉIA É
MAXIMIZAR A SEPARAÇÃO ENTRE AS CLASSES
AS CLASSES NÃO SÃO DIVIDIDAS POR UMA LINHA MAS POR UM
POLÍGONO
DUAS MANEIRAS DE CONSEGUIR ISSO: SOFT-MARGIN (PENALIZA
CLASSIFICAÇÕES NO POLÍGONO) OU KERNEL TRICK (AUMENTA # DE DIMENSÕES P/ QUE NADA
CAIA NO POLÍGONO)
SVM
![Page 17: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/17.jpg)
AJUSTES QUE TENTEI:1. FUNÇÃO DE CUSTO (HINGE,
SQUARED HINGE, HUBER)2. TERMO DE REGULARIZAÇÃO
(L1, L2, ELASTICNET) 3. DIFERENTES NÍVEIS DO
CATMAT/CATSER: GRUPOS (79) E CLASSES (670)
4. # DE PASSES SOBRE OS DADOS5. TAXA DE APRENDIZADO
6. PESO MAIOR P/ PRIMEIRAS PALAVRAS
7. CONSISTÊNCIA GRUPO-CLASSE
SVM
![Page 18: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/18.jpg)
TOTAL DE ~5 MILHÕES DE DESCRIÇÕES
70% TREINAMENTO15% TESTE
15% VALIDAÇÃO
SVM
![Page 19: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/19.jpg)
SVM
![Page 20: Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas](https://reader033.fdocument.pub/reader033/viewer/2022042619/58e7c00a1a28ab0a228b473b/html5/thumbnails/20.jpg)
RANDOM FOREST?
REDES NEURAIS?
TALVEZ UMA ABORDAGEM PROBABILÍSTICA? (SE A MAIOR PROBABILIDADE < x, IGNORA
DESCRIÇÃO)
SUGESTÕES??
PRÓXIMOS PASSOS