Codex: repositório de dados do Judiciário atinge 144 milhões de processos armazenados

Data: 04/07/2023

Autoria: Raquel Lasalvia

A Plataforma Codex alcançou, em junho, 144 milhões de processos judiciais armazenados no repositório central do Conselho Nacional de Justiça (CNJ). A ferramenta é um dos projetos do Judiciário brasileiro de gerenciamento e processamento de dados judiciais, que possibilita a construção de datasets para o treinamento de modelos de Inteligência Artificial (IA).  

“Em termos de estratégia de centralização e de construção de um repositório único de dados sobre o Judiciário, o Codex não tem semelhante em tamanho e complexidade no mundo”, ressalta João Thiago Guerra, juiz auxiliar da presidência do CNJ. 

O projeto foi desenvolvido pelo Tribunal de Justiça de Rondônia (TJRO) e posteriormente nacionalizado em parceria com o CNJ. Em 2021, ele passou a integrar o Programa Justiça 4.0 e os tribunais iniciaram a adesão à plataforma. Em 2022, o Conselho instituiu o Codex como ferramenta oficial de extração de dados dos sistemas de processo eletrônico por meio da Resolução n. 446/2022.  

De 6 fontes de dados e 4 milhões de processos judiciais carregados, em 2021, o Codex chegou a 158 fontes de dados, de 92 tribunais e conselhos, em junho de 2023, totalizando 144 milhões de processos judiciais e 3,6 bilhões de documentos armazenados. “Nossa expectativa é chegar ao dobro disso com a integração de mais fontes de dados”, afirma Marcelo Feijó, gerente técnico do projeto no Justiça 4.0.  

Os números atualizados de implantação do Codex foram apresentados no Fórum Justiça e Inovação (Fiji), que aconteceu em Brasília em 19 e 20 de junho. De acordo com o monitoramento do Justiça 4.0, 92 tribunais brasileiros e Conselhos — o que representa 99% do Judiciário — possuem, pelo menos, uma fonte de dados integrada ao Codex. 34 deles têm 70% dos seus dados processuais disponibilizados no repositório.  

Acesso a dados de qualidade

Um dos principais benefícios do Codex é gerar datasets para treinamento de IA de forma a atender as necessidades do Judiciário brasileiro no desenvolvimento dessa tecnologia. Com a ferramenta, o CNJ pode disponibilizar dados saneados e seguros aos tribunais, por meio de acesso local e por APIs, para que desenvolvam modelos de IA, a serem compartilhados na Plataforma Sinapses

“Os dados estão disponíveis para serem trabalhados de forma colaborativa, padronizada, auditada, que é uma das grandes preocupações do desenvolvimento de IA, e de forma controlada, com acesso para quem é do Poder Judiciário”, explica Thiago Vieira, diretor de Tecnologia da Informação (TI) do CNJ. 

Lucas Victorasso Jardim, especialista em IA do Justiça 4.0, destaca a importância da qualidade dos dados para o desenvolvimento dos modelos. “Os dados são o embasamento dos algoritmos de IA. A performance dos algoritmos tende a melhorar em acurácia conforme se aumenta a quantidade de dados utilizados no treinamento”, explica. 

De acordo com Lucas, um conjunto de dados deve ter qualidades relativas a volume, diversidade e uniformidade, por exemplo. “A diversidade permite evitar vieses. Assim, temos que garantir uma base com diversidade adequada, que seja representativa da realidade”. Para Lucas Jardim, o potencial do Codex é grande pelo nível de curadoria e volume de dados. “Ele está em desenvolvimento e temos expectativa de crescer ainda mais”, afirma.  

Arquitetura e segurança

“A arquitetura do Codex permite normalizar e padronizar os dados para trabalhar com IA no formato de texto puro”, explica Pablo Moreira, analista de sistemas do CNJ. A ferramenta permite identificar o conteúdo do arquivo e fazer a extração do texto; converter imagem em texto e enviar os dados extraídos para o repositório central.  

A segurança desses dados também é uma das prioridades do Conselho explica Moreira. “Estamos tratando, por vezes, de dados de processos sigilosos, com sigilo médico e segredo de Justiça, por exemplo. Foram criadas, dentro do Codex, ferramentas de segurança e auditoria que permitem saber quem acessa o dado e o que foi acessado.”  

Para o diretor de TI do CNJ, Thiago Vieira, torna-se evidente em projetos como o Codex e o Sinapses o conceito de colaboração, preconizado pela Plataforma Digital do Poder Judiciário (PDPJ-Br). “Há um grande volume de dados judiciais. Precisamos, agora, orquestrar e trabalhar colaborativamente para chegar nos resultados que queremos. O Judiciário brasileiro é enorme, então nossos resultados têm que ser proporcionais ao nosso tamanho e só alcançaremos isso por meio do trabalho colaborativo.” 

Fonte: Conselho Nacional de Justiça

Sugestões de leitura