RAFA 2030 Clasificacion Procesos Judiciales Por ODS 2022
RAFA 2030 Clasificacion Procesos Judiciales Por ODS 2022
Luiz Fux2, Pedro Felipe de Oliveira Santos3, Aline Carlos Dourado Braga4, Pamella Sada Dias Edokawa5 e Júlio
Luz Sisson de Castro6
[Link]
Resumo: O Supremo Tribunal Federal (STF), a partir de novembro de 2020, classifica alguns de seus processos
em Objetivos de Desenvolvimento Sustentável (ODS) da Agenda 2030 da ONU. O objetivo desta classificação é
integrar efetivamente a Agenda no dia a dia do tribunal. Neste contexto, uma ferramenta para apoio tecnológico
à classificação tem imenso potencial para automatizar as tarefas manuais e repetitivas de ler as peças e registrar as
etiquetas. A iniciativa RAFA 2030 surgiu com o objetivo de ajudar os servidores a melhor classificar os processos.
Este artigo tem os objetivos de apresentar a integração entre a Agenda 2030 e a rotina da corte e a própria ferra-
menta tecnológica RAFA 2030, em seus aspectos técnicos de desenvolvimento. Atualmente, as principais entregas
deste projeto consistem em ferramentas gráficas para processamento de linguagem natural (co-ocurrence graphs,
nuvem de palavras), algoritmos de aprendizagem de máquina, redes neurais, busca por contexto e contagem de
palavras-chave, além de outras ferramentas disponíveis em R (Shiny) e Python (Keras, Tensorflow e Pytorch). Os
resultados iniciais sugerem imenso potencial para aplicações de NLP e aprendizagem de máquina na classificação
de documentos jurídicos em temas da Agenda 2030.
Palavras-chave: Agenda ONU 2030. Processamento de Linguagem Natural. Aprendizagem de Máquina. Redes
Neurais.
Abstract: Since 2020, the Brazilian Federal Supreme Court has classified its cases according to the sustainable
development goals (SDGs) of the the United Nations 2030 Agenda. In this context, a tool for technological su-
pport to classification has immense potential to automate the manual and repetitive tasks of reading the text and
registering the labels. The RAFA 2030 initiative came up with the goal of helping to classify cases. This article aims
to present an integration between Agenda 2030, the work routine in STF and technical aspects of development
about RAFA 2030. Currently, the main results of this project consist of graphical tools for NLP (co-occurrence
graphs, tool cloud), machine learning keys, neural networks, context search and keyword counting, in addition
to other tools available in R. (Shiny) and Python (Keras, Tensorflow and Pytorch). Initial results indicate great
potential for applications of NLP documents and machine learning of legal documents in Agenda 2030 themes.
Keywords: UN 2030 Agenda. Natural Language Processing. Machine Learning. Neural Network.
Resumen: El Supremo Tribunal Federal (STF), a partir de noviembre de 2020, clasifica algunos de sus procesos
en los Objetivos de Desarrollo Sostenible (ODS) de la Agenda 2030 de la ONU. El objetivo de esta clasificación
es integrar la Agenda en el día a día del tribunal. En este contexto, una herramienta de apoyo tecnológico a la
clasificación tiene un potencial inmenso para automatizar las tareas manuales y repetitivas de lectura de piezas y
registro de etiquetas. La iniciativa RAFA 2030 surgió con el objetivo de ayudar a los funcionarios judiciales a clasi-
ficar mejor los procesos. Este artículo tiene como objetivo presentar la integración entre la Agenda 2030 y la rutina
del STF y la propia herramienta tecnológica RAFA 2030, en sus aspectos técnicos de desarrollo. Actualmente,
los principales productos intermedios de este proyecto consisten en herramientas gráficas para PNL (grafos de
coocurrencia, nube de palabras), algoritmos de aprendizaje automático, redes neuronales, búsqueda de contexto
y conteo de palabras clave, además de otras herramientas disponibles en R (Shiny) y Python (Keras, Tensorflow y
Pytorch). Los resultados iniciales sugieren un inmenso potencial para las aplicaciones de PNL y aprendizaje auto-
mático en la clasificación de documentos legales en temas de la Agenda 2030.
Palabras clave: Agenda 2030 de la ONU. Procesamento del Lenguage Natural. Aprendizaje Automático.
7. Webinar disponível para acesso no portal eletrônico [Link] Acesso em: 01 mai. 2022.
8. Painel: Projetos com Inteligência Artificial no Poder Judiciário. 2022. Disponível em: [Link]
710f7-8d8f-47be-8af8-a9152545b771&sheet=b8267e5a-1f1f-41a7-90ff-d7a2f4ed34ea&lang=pt-BR&opt=ctxmenu,currsel/. Acesso em: 11 mai. 2022.
9. Integraram a força tarefa para classificação de processos, em outubro de 2020, no STF: a Secretaria de Gestão de Precedentes (SPR), a Secretaria de Altos Estu-
dos, Pesquisas e Gestão da Informação (SAE) e a Assessoria do Plenário (APL); a partir de 2021, também passou a realizar essa atividade a Secretaria Judiciária (SEJ).
10. Os dados decorrentes dessa identificação podem ser visualizados pelos usuários em diversos pontos do portal do Supremo, como, por exemplo, ao consultar
processos no acompanhamento processual informatizado ou ao visitar a página de pesquisa de jurisprudência, ao ler informativo STF, ao acompanhar o calendário
da pauta do plenário, ao estudar o boletim repercussão geral em pauta e até mesmo ao examinar o novíssimo programa de transparência do Tribunal, denominado
Corte Aberta.
Importa dizer que o escopo do projeto de classifi- registro das etiquetas. Dessa análise, pode-se, ainda,
cação por ODS foi delimitado a partir de recortes estra- concluir que o processo não é correlacionado a ODS
tégicos, não abrangendo todas as ações em tramitação algum12.
na Corte. Envolve a avaliação de ações de controle con- Essa nova atividade classificatória bem como a
centrado (Ação Direta de Inconstitucionalidade-ADI, própria institucionalização da Agenda no STF foram
Ação Declaratória de Constitucionalidade-ADC, Ação objeto de normativo próprio: a Resolução STF n. 710,
Direta de Inconstitucionalidade por Omissão-ADO e de 20 de novembro de 202013. Em junho de 2022,
Ação de Descumprimento de Preceito Fundamental- pouco menos de dois anos do início desse trabalho, o
-ADPF), além dos casos em que o Tribunal reconhece STF já conta com mais de 3.300 etiquetas de ODS em
a repercussão geral da questão constitucional objeto processos monitorados (informações disponíveis em
do recurso extraordinário, nos termos do art. 1.035 do painel do hotsite14 da Agenda 2030 no STF, acessível
Código de Processo Civil11. Verificada a aderência de no portal do Tribunal), cuja imagem segue abaixo:
tal peça com um ou mais ODS da Agenda 2030 há o
11. Art. 1.035. O Supremo Tribunal Federal, em decisão irrecorrível, não conhecerá do recurso extraordinário quando a questão constitucional nele versada não
tiver repercussão geral, nos termos deste artigo.
[...] 5º Reconhecida a repercussão geral, o relator no Supremo Tribunal Federal determinará a suspensão do processamento de todos os processos pendentes, indi-
viduais ou coletivos, que versem sobre a questão e tramitem no território nacional. (CPC, acessível em: [Link]
lei/[Link], acesso em 14 de julho de 2022).
12. No caso da classificação efetuada pela Coordenadoria de Jurisprudência, foram desenvolvidos critérios de pesquisa para cada uma das 169 metas, sendo utili-
zada a ferramenta da página de pesquisa de jurisprudência para auxílio na correlação dos acórdãos publicados pelos 17 ODS da Agenda 2030. A equipe já realizou
a análise e classificação por ODS dos acórdãos publicados desde 2016, nos casos de ações de controle concentrado e nos casos em que reconhecida a repercussão
geral.
13. A Resolução STF n. 710/2020, destacou grupo de trabalho coordenado pelo Secretário-Geral do STF para atuar em nas diversas ações ali elencadas e eleitas
para serem executadas no biênio de 52020-2022 com o fito de integração da Agenda 2030 da ONU ao STF.
14. Hotsite disponível para acesso em [Link] com painel gerencial acessível conforme STF (2022).
É possível observar que alguns ODS têm maior em cada peça jurídica de interesse. Ao longo do tempo,
número de etiquetas, como o ODS 16 - Paz, Justiça no entanto, a equipe técnica de desenvolvimento da
e Instituições Eficazes, cujo tema é fortemente rela- ferramenta percebeu que apenas contar a ocorrência
cionado com a atuação de cortes constitucionais, a de palavras não era a solução adequada, uma vez que
exemplo do STF. Vale registrar que, com a classificação não é razoável ignorar o contexto das palavras descon-
de processos estabelecida, foi aberta a possibilidade de siderando a posição destas em relação às palavras vizi-
priorização dos julgamentos de ações que impactem nhas (LIU; KUSNER; BLUNSOM, 2020).
positivamente os objetivos e metas da Agenda 2030, Para ilustrar, anota-se que um texto pode trazer
tendo, já no primeiro semestre de 2021, 76% dos pro- muitas ocorrências da palavra “segurança” sem ter
cessos incluídos na pauta do Plenário com uma ou relação ao ODS 16 - Paz, Justiça e Instituições Efi-
mais etiquetas de ODS da Agenda 2030, conforme in- cazes. A expressão segurança alimentar, por exemplo,
formado pelo Ministro Luiz Fux no evento Suprema guarda relação com o ODS 2 – Fome zero e Agricul-
Corte e Diálogos sobre a Agenda 2030. A produção de tura Sustentável e não com o ODS 16 já citado. A pri-
dados sobre a classificação dos processos em ODS é meira decisão técnica no sentido de aumentar as fun-
importante para aferir a efetiva contribuição da Corte cionalidades da iniciativa foi a de ajustar gráficos sobre
com a pauta da Agenda 2030 (accountability). a disposição das palavras no texto, como nuvens de
A alteração dos critérios de identificação dos pro- palavras e grafos de coocorrência, e os apresentar para
cessos submetidos ao STF e a consequente alteração os analistas.
na seleção de matérias a serem julgadas representam
um avanço na internacionalização da Corte com equi- 2.2. Workshop - Grupo de Trabalho Agenda
paração a outros tribunais constitucionais de todo o 2030
mundo. Destaca-se, neste ponto, o caráter inédito e
A primeira versão da iniciativa foi apresentada aos
pioneiro da iniciativa de classificação dos processos
servidores do tribunal no Workshop do Grupo de Tra-
por ODS em uma Corte Suprema.
balho da Agenda 2030 no STF, evento realizado para
A agregação da Agenda 2030 da ONU ao STF im-
tratar de questões relativas à classificação de processos
pactou, também, a própria jurisprudência da Corte,
e aos requisitos mínimos da iniciativa RAFA 2030.
como são exemplos o julgamento da ADI 2.096, Rel.
Entre os dias 29 e 30 de abril de 2021, 60 servi-
Min. Celso de Mello, em 13/10/2020 e o reconhe-
dores do tribunal se reuniram para: a) compartilhar
cimento da repercussão geral no Tema 1.194 (ARE
experiências e lições aprendidas com a atividade de
1352872) apresentado pelo Ministro Luiz Fux.
classificação manual, b) estabelecer critérios comuns
para classificação de processos em ODS da Agenda
2.1. Desenvolvimento inicial da ferramenta
2030 e c) formular os requisitos básicos para a ferra-
RAFA 2030 menta tecnológica de apoio à classificação.
A decisão de desenvolver uma ferramenta tec- O evento foi constituído de apresentações sobre
nológica para apoio à atividade de classificação de as estratégias utilizadas para classificação pelas
processos em ODS da Agenda 2030 foi apresentada equipes. Contou também com a apresentação inicial
no início do projeto e da classificação manual, em da ferramenta RAFA 2030, além de trazer painéis
setembro de 2020. A associação entre a classificação com a participação de assessoras de dois gabinetes do
manual e a ferramenta tecnológica tem o objetivo de tribunal, que relataram a relevância da iniciativa de
tornar a própria classificação mais aderente ao que classificação.
julga o STF, usando como referência apenas as ques- Houve, ainda, uma parte prática, em que foram
tões jurídicas em debate ou as teses firmadas pela promovidas oficinas para classificar experimental-
Corte. Optou-se, assim, por não incluir na iniciativa mente alguns processos, cujos acórdãos e petições
assuntos já vinculados aos processos ou outros meta- foram enviados previamente. Tais oficinas contaram
dados disponíveis em sistemas informatizados. com a apresentação do que a RAFA 2030 podia fazer
A ideia inicial era desenvolver um simples con- naquele ponto do desenvolvimento, como a contagem
tador de palavras cujos significados sugerissem eti- de palavras-chave e recursos visuais para ajudar na in-
quetas de ODS. A iniciativa RAFA começou, portanto, dicação de ODS da Agenda 2030.
entregando o número de ocorrências de tais palavras
A experiência foi considerada bastante positiva 2.3. Aspectos gerais da ferramenta RAFA 2030
por dois motivos. Primeiro porque a primeira versão
O primeiro protótipo funcional da ferramenta
ferramenta foi bem avaliada no apoio à atividade de
RAFA 2030 (Redes Artificiais Focadas na Agenda 2030
classificação. E segundo, porque os desenvolvedores
da ONU) foi lançado em evento promovido pelo STF,
puderam verificar, na prática, como era feita a classi-
no 16 de maio de 202217. Neste encontro, especialistas
ficação, bem como quais eram as dificuldades enfren-
em ciência de dados e em direito registraram a impor-
tadas pelas equipes nessa tarefa. Essa proximidade
tância da iniciativa, bem como seu enorme potencial
com a classificação manual tornou mais fácil a identi-
para ajudar em tarefas de classificação processual nos
ficação de pontos relevantes para o desenho definitivo
objetivos de desenvolvimento sustentável da Agenda
da ferramenta RAFA 2030.
ONU 2030.
Após o evento, a equipe do projeto decidiu au-
A ferramenta foi desenhada e construída por ser-
mentar as funcionalidades da iniciativa. Alguns ser-
vidores da Secretaria de Gestão Estratégica e da Se-
vidores procuraram espontaneamente o projeto para
cretaria de Gestão de Precedentes do tribunal, sob co-
sugerir mudanças, ao mesmo tempo que os próprios
ordenação da Secretaria Geral da Presidência do STF,
gestores do projeto estudaram os melhores caminhos
com a participação da Secretaria Judiciária (curadoria)
para aprimorar a ferramenta.
e, ainda, com o apoio da Secretaria de Tecnologia da
Como já haviam processos etiquetados em número
Informação (disponibilização das peças).
suficiente para ajustar algoritmos mais sofisticados do
A aplicação se concentra atualmente em duas
que a contagem de palavras-chave, a iniciativa RAFA
tarefas específicas: a) classificação automática de
2030 organicamente caminhou para utilização de pro-
grandes conjuntos (lotes) de processos judiciais via
cessamento de linguagem natural (NLP) em tarefas de
aprendizagem de máquina e deep learning; e b) apoio
classificação, área da aprendizagem de máquina que
visual e estatístico para classificação individual de pro-
experimentou enormes avanços recentemente (HOVY,
cessos judiciais. A primeira tarefa consiste em utilizar
2021). Por outro lado, ficou claro para a equipe de de-
algoritmos de redes neurais para verificar se textos de
senvolvimento que os servidores do tribunal também
acórdãos e de petições iniciais apresentam aderência
desejavam uma interface gráfica associada à ferra-
aos ODS 16 (paz, justiça e instituições eficazes), 10 (re-
menta. Em razão disso, a iniciativa RAFA 2030 passou
dução das desigualdades), 8 (trabalho decente e cresci-
a se preocupar com a experiência do usuário e com a
mento econômico) e 3 (saúde e bem-estar).
apresentação visual dos resultados.
O fluxo é bastante simples: a área jurídica do tri-
Por fim, a proximidade entre os servidores par-
bunal indica conjuntos de peças e a RAFA 2030 uti-
ticipantes do evento permitiu que parcerias internas
liza textos etiquetados manualmente para treinar e
fossem criadas com objetivo de testar a ferramenta
etiquetar novas entradas. A entrega, nesta frente da
e promover curadoria nos resultados, etapa funda-
iniciativa, são as classificações que resultam dos algo-
mental para avaliação do desenvolvimento matemá-
ritmos ajustados.
tico e de programação realizado. O artigo segue com
A segunda tarefa é centrada no desenvolvimento
uma apresentação detalhada sobre as melhorias im-
de um aplicativo para apoiar a decisão de classificar
plementadas na ferramenta, produto das avaliações
novos processos de acordo com ODS da Agenda 2030.
compartilhadas no workshop e de eventos externos
Este aplicativo conta com diversos gráficos utilizados
com cunho interinstitucional, tais como Sextas Inteli-
em processamento de linguagem natural (NLP), além
gentes15 e IX SPES - Seminário de planejamento estra-
de contagem de palavras-chave e busca do contexto.
tégico sustentável do poder judiciário 202216.
A entrega, neste caso, é a interface que possibilitará
aos servidores classificar mais processos jurídicos em
menos tempo e com maior qualidade.
15. Evento realizado em 11 de março de 2022, denominado Sextas Inteligentes, pela plataforma Zoom, com a participação de integrantes dos Núcleos de Geren-
ciamento de Precedentes de todo o país.
16. O resultado de outros testes, efetuados em no final de 2021, foram compartilhados em notícia veiculada no portal do STF, acessível em: [Link]
br/noticias/[Link]?idConteudo=481995&ori=1.
17. Está no canal do YouTube do STF o vídeo do evento de lançamento da RAFA 2030, acessível em [Link] acesso
em 8 de junho de 2022.
Nenhuma das tarefas, no entanto, busca substi- internet. Reproduzir códigos de fontes não oficiais, no
tuir os especialistas. A iniciativa RAFA pressupõe in- entanto, pode ser complicado e até limitar o potencial
tegração entre as inteligências artificial e humana, e de desenvolvimento. Neste contexto, um possível ca-
por este motivo as sugestões de ODS feitas pelas redes minho envolve pesquisar algoritmos e estratégias para
neurais ou pelas ferramentas gráficas do aplicativo resolver a tarefa de interesse em boas plataformas
necessariamente serão revisadas por analistas do tri- (Towards Data Science e Towards AI do Medium, Ka-
bunal quando a ferramenta estiver em produção. ggle e MachineHack)18 e partir para análise da docu-
Sobre o conjunto de palavras-chave utilizado na mentação oficial dos frameworks/pacotes utilizados,
ferramenta, importa registrar que ele foi elaborado como Tensorflow, Keras e Pytorch em Python ou Quan-
pela equipe técnica da área judicial (Coordenadoria teda e Text em R. Evidentemente, tais pesquisas não
de Jurisprudência - COJU) e o objetivo foi reunir pala- excluem a necessidade de formação. Apesar de todos
vras que indicam forte relação da peça jurídica em tela os membros técnicos da Secretaria de Gestão Estra-
com os objetivos da Agenda 2030, usando suas metas tégica envolvidos na iniciativa possuírem graduação/
e indicadores. Uma alta ocorrência da palavra “femi- pós-graduação em estatística, houve necessidade de
nicídio”, por exemplo, pode indicar que o processo em complementar a formação superior com cursos sobre
análise tem forte relação com o ODS 5 – Igualdade de aprendizagem de máquina, deep learning e inteligência
Gênero. artificial.
A metodologia utilizada para construir a inicia- O primeiro desafio metodológico para aplicações
tiva RAFA 2030 em sua atual composição será me- de aprendizagem de máquina costuma ser a obtenção
lhor explicada no capítulo a seguir, que se ocupa de dos dados. Na maioria das vezes, limpar e manipular
relacionar aspectos técnicos de programação, base de dados em texto é bem mais complexo do que a mani-
dados e processamento de linguagem natural (NLP) pulação exigida por dados em formato numérico ou
com o problema de classificar processos judiciais se- categórico e nem sempre os textos estão disponíveis
gundo ODS da Agenda 2030. publicamente para uso. Na iniciativa RAFA são uti-
lizados dados do próprio tribunal, o que certamente
torna esta etapa mais fácil. Explicações mais deta-
3. METODOLOGIA
lhadas sobre a base de dados serão dadas na seção
A iniciativa RAFA foi desenvolvida em linguagem subsequente.
R e Python, prioritariamente. Isso significa que, com
exceção de alguns poucos passos intermediários, tudo 3.1. Base de dados
aquilo que será apresentado nesta seção envolve apoio Os principais dados de entrada da RAFA são
computacional de alguma linguagem de programação textos de petições iniciais e de acórdãos de processos
(R ou Python, neste caso). O corpo técnico da inicia- do STF. São arquivos em formato .PDF que podem
tiva escolheu usar R e Python pois são as linguagens ser nato digitais ou imagens. Imagens são típicas em
mais populares para ciência de dados, mas os regis- processos digitalizados e exigem um passo de reconhe-
tros deste artigo podem ser reproduzidos em outras cimento ótico de caracteres (OCR). Maiores informa-
linguagens de programação com algum esforço de có- ções sobre tarefas de OCR estão disponíveis em Ooms
digo e pesquisa de pacotes/bibliotecas. Outras opções (2022). As peças em PDF estão disponíveis no site do
populares são: Scala, para utilização do Ecossistema STF. Basta pesquisar pelo processo de interesse na ho-
Hadoop, Julia, Go e C++. mepage, como mostra a figura a seguir:
Dado que Python e R são linguagens com grandes
comunidades de usuários, não é difícil encontrar infor-
mações sobre processamento de linguagem natural na
18. Disponíveis em: Towards Data Science ([Link] Towards AI ([Link] Medium ([Link] Kaggle
([Link] MachineHack ([Link] com acesso em: 04 de mai. 2022.
O exemplo em tela mostra uma pesquisa referente ao processo ADPF-779. Clicando em pesquisar, abre-se
a seguinte página:
19. Homepage STF disponível em: [Link] Acesso em: 10 jul. 2022.
Clicando-se no botão peças, os documentos es- é, seguramente, mais pesada em termos de proces-
tarão dispostos à esquerda e podem ser baixados fa- samento e exige maiores conhecimentos técnicos. As
cilmente, desde que não estejam em segredo de jus- funcionalidades utilizadas unicamente no aplicativo
tiça. Para verificar quais processos foram classificados usam o texto bruto, isto é, sem o passo adicional de
em ODS da Agenda 2030 basta entrar no hotsite da limpeza e manipulação, característico de atividades de
Agenda 2030 no STF e baixar um arquivo em .xlsx estatística e programação.
com os processos e os metadados de classificação. As peças em PDF são processadas de forma a ex-
Combinando tal arquivo com a busca de peças no site trair apenas os textos importantes para tarefa de clas-
do STF, é possível obter as peças de onde os textos sificação. As principais etapas de pré-processamento
podem ser extraídos, bem como as classificações ma- (limpeza) são:
nuais em ODS da Agenda 2030. • Extração de textos em PDFs com imagens
Com os textos devidamente extraídos dos pro- (OCR) e nato digitais;
cessos de interesse, é possível começar a etapa de pro-
• Remoção de palavras de parada (stopwords);
cessamento de linguagem natural, que será apresen-
tada na próxima seção. Boas referências em NLP são • Remoção de caracteres especiais, tais como
os livros dos autores Martin (2009), Vajjala et al (2020) #, @ e &;
e Hvitfeldt e Silge (2021), este último exclusivo para • Remoção de espaços em branco
uso em linguagem R. desnecessários;
• Formatação das palavras em minúsculo.
3.2. Processamento de Linguagem Natural Este processamento é feito para tornar os textos
As ciências sociais receberam bem a análise de mais densos e melhorar a performance dos algoritmos
texto e o processamento de linguagem natural (NLP) de aprendizagem de máquina. A natureza dos docu-
em seu conjunto de técnicas, como mostram as refe- mentos alvo de limpeza influenciam os resultados,
rências Nay (2021), Jockers (2014) e Kulas (1988). Em dado que as próprias stopwords podem mudar de área
resumo, as técnicas de NLP tem foco em processar o para área. Textos jurídicos, por exemplo, possuem pa-
texto para, através de treinamento supervisionado ou lavras de parada diferentes de textos literários, dado
não, realizar tarefas de predição, além de análise vi- que os autores de literatura usam recursos de estilo
sual e descritiva. A tarefa mais conhecida de proces- não necessários em textos técnicos. Desta forma, é im-
samento de linguagem, talvez, seja a análise de sen- portante frisar que cada problema de NLP exige uma
timentos, que se concentra em, dado um conjunto limpeza de texto específica.
grande de textos classificados e dicionários produzidos A etapa seguinte transforma os textos em vetores
por especialistas, adivinhar se um extrato de texto é de números e é conhecida pelo nome de embedding
positivo, negativo ou neutro (LIU, 2020). Variações (GUPTA et al., 2020). Máquinas não processam textos
desta abordagem usam dicionários mais sofisticados nativamente, sendo necessário um passo de codifi-
e objetivam identificar sentimentos como alegria ou cação, para transformar coleções de palavras em con-
raiva20. Na prática, as atividades de predição buscam, juntos numéricos. Existem diversas formas de embe-
a partir de conjuntos de treinamento devidamente eti- dding, sendo as mais simples baseadas em dicionário
quetados, prever se um novo texto pertence ou não à (conjunto de todas as palavras de um texto) e as mais
uma determinada categoria. Atividades de análise des- sofisticadas baseadas em contexto. Na construção dos
critiva e visual se concentram em buscar relações entre modelos para predição de ODS, foram utilizadas as
as palavras e extratos dos textos, sem fazer previsões seguintes tecnologias de embedding: one-hot encoding,
ou tentar adiantar comportamentos em textos novos. bag of words (BoW), tf-idf e bert. Maiores informações
A iniciativa RAFA conta com a parte de predição, sobre tais métodos podem ser encontradas em Meijer,
especificamente na sugestão de classificação para lotes Truong e Karimi (2021) e David e Renjith (2021).
de processos e com a parte de análise descritiva e vi- Com os textos limpos e convertidos em vetores de
sual, uma vez que o aplicativo apresenta contagens de números, algoritmos podem ser ajustados para prever
palavras e inúmeros gráficos. A etapa de classificação categorias, neste caso, etiquetas de ODS. Muitas
Tendo justificado a escolha das redes neurais, a mudança na precedência entre os tipos de peças uti-
resultados pormenorizados podem ser apresentados, lizados. No começo, a iniciativa RAFA utilizava prefe-
como as métricas F-score, recall e precisão. O próximo rencialmente acórdãos, usando petições apenas para
capítulo demonstra os resultados obtidos com as redes processos sem informação útil mais recente. Ocorre
e as principais notas sobre a utilização do aplicativo que, apesar dos acórdãos serem mais fáceis de mani-
para apoio à classificação. pular, a classificação manual é feita, hoje, basicamente
em petições. Essa troca de precedência (acórdão para
petições) gerou aumento significativo da acurácia para
4. RESULTADOS E DISCUSSÕES
as redes neurais dos ODS 16, 8, 10 e 3. Também há de
Os resultados obtidos no processamento de se destacar que, em alguns momentos, as divergências
grandes lotes de processos estão disponíveis num observadas entre a marcação dos servidores e aquelas
painel gerencial para uso interno. Tal painel mostra sugeridas pela RAFA geraram boas discussões sobre
a evolução da iniciativa nos testes realizados sema- o processo de classificação em si, uma vez que a má-
nalmente, dado que ajustes são feitos nos algoritmos quina enxerga padrões muitas vezes não perceptíveis
quando os especialistas fazem curadoria dos resul- rapidamente por humanos.
tados anteriores. O fluxo é o seguinte: os algoritmos
são executados em sua configuração e parâmetros 4.1 Performance Processamento em Lote
atuais. Os resultados são enviados para especialistas A performance das redes neurais recorrentes é
do tribunal, que devolvem notas sobre as classifica- avaliada através de métricas tradicionais de aprendi-
ções feitas pela iniciativa RAFA 2030. As análises de zagem de máquina, tais como acurácia, sensibilidade,
tais notas motivam mudanças nos algoritmos e o ciclo especificidade, precisão e F-score. O quadro 2 apre-
de melhorias se repete, alternando curadoria e reajuste senta tais métricas e suas fórmulas:
de algoritmos. Este movimento motivou, por exemplo,
QUADRO 2 – MÉTRICAS
MÉTRICA FÓRMULA
Sensibilidade (recall) VP / (VP + FN)
Especificidade VN / (FP+VN)
Acurácia (VP+VN) / N
Precisão VP / (VP+FP)
F-Score 2 x (PxS) / (P+S)
No Quadro 2 as siglas e suas respectivas des- O Quadro 2 mostra que a acurácia é a métrica
crições correspondem a: verdadeiros positivos (VP), mais simples e avalia o percentual geral de acertos,
falsos negativos (FN), falsos positivos (FP), verda- entre marcações e não marcações. A sensibilidade (re-
deiros negativos (VN), precisão (P), sensibilidade (S) e call) avalia a capacidade do modelo classificar corre-
total de elementos (N). Em outras palavras, VP ocorre tamente etiquetas de ODS. A especificidade, ao con-
quando o modelo prevê etiqueta e há etiqueta na re- trário, é indicada para avaliar não etiquetas. A precisão
alidade, isto é, os especialistas de fato etiquetaram avalia a quantidade de verdadeiros positivos sobre a
aquele processo. VN ocorre quando não há etiqueta soma de todas as etiquetas (certas ou não). A métrica
e o modelo não prevê etiqueta. FP ocorre quando o F-Score é uma média entre a precisão e a sensibilidade.
modelo prevê etiqueta e na verdade não há marcação. O Quadro 3 mostra a matriz de confusão, objeto
E, por fim, FN acontece quando o modelo não prevê que organiza as quantidades VP, VN, FP e FN:
etiqueta e os especialistas a identificam.
CLASSE PREDITA
MATRIZ DE CONFUSÃO
POSITIVA NEGATIVA
Positiva VP FN
Classe original
Negativa FP VN
O Quadro 4 mostra as métricas observadas para a última execução das redes neurais recorrentes:
O ODS 10 mostra o pior F-Score em razão da baixa de processos. Por este motivo, foi desenvolvido um
precisão. Em síntese, neste ODS, a RAFA 2030 etiqueta aplicativo em Shiny, pacote da linguagem R. São
muito mais processos do que deveria. Em contrapar- disponibilizadas ferramentas gráficas para NLP, tais
tida, as métricas de acurácia se mostram boas para como gráficos de coocorrência e de palavras mais fre-
todos os ODS e todas as sensibilidades estão acima de quentes, bem como nuvens de palavras e bigramas,
80%. Estes resultados mostram que é possível utilizar além de pesquisas de palavras-chave e busca por con-
aprendizagem de máquina e deep learning para sugerir texto de palavras específicas.
classificações em ODS da Agenda 2030. O aplicativo fica disponível em um link similar a
um endereço web e pode ser utilizado em qualquer na-
4.2. Utilização do aplicativo vegador (Google Chrome, Mozilla, etc). Nenhum pré-
-requisito técnico ou de hardware é necessário, pois o
A iniciativa RAFA também pretende apoiar ana-
aplicativo foi criado para ser útil, funcional e intuitivo
listas que buscam classificar um processo por vez. A
aos servidores da área jurídica. O aplicativo pode ser
execução em lote demanda esforço de código e com-
utilizado até mesmo em celular, basta haver um nave-
putação, funcionando melhor para grandes conjuntos
gador web e acesso à internet. A primeira aba do apli-
cativo tem informações sobre o seu uso e a segunda sificações obtidas aprendizagem de máquina (ODS
contém informações sobre a Agenda 2030, com links 16,10,8 e 3) e gráficos como a nuvem de palavras. Ainda
oficiais para a ONU e para o hotsite do STF. O usu- nesta aba, o usuário pode baixar o texto limpo para
ário encontra um campo para upload do processo na utilização em algoritmos próprios. A figura a seguir
terceira aba (chamada RAFA 2030). Depois que o apli- mostra a aba RAFA 2030 do aplicativo:
cativo lê a peça em PDF, aparecem sugestões de clas-
As demais abas mostram gráficos mais avançados, contagem e exibição das palavras-chave localizadas e um
buscador de contexto, como mostram as figuras 6 e 7.
REFERÊNCIAS
CNJ - Conselho Nacional de Justiça. Programa Justiça 4.0. 2022. Disponível em: [Link]
gia-da-informacao-e-comunicacao/justica-4-0/. Acesso em: 10 mai. 2022.
______. Projetos com Inteligência Artificial no Poder Judiciário. 2022. Disponível em: [Link]
[Link]/single/?appid=29d710f7-8d8f-47be-8af8-a9152545b771&sheet=b8267e5a-1f1f-41a7-90ff-d7a2f4ed34ea&lan-
g=pt-BR&opt=ctxmenu,currsel/. Acesso em: 11 mai. 2022.
DAVID, M. S.; RENJITH, S. Comparison of word embeddings in text classification based on RNN and CNN.
In: IOP Conference Series: Materials Science and Engineering. IOP Publishing, 2021. p. 012029. Disponível em:
[Link] Acesso em: 12 mai. 2022.
FGV - Fundação Getúlio Vargas. Portal FGV. 2021. Artificial Intelligence in the Judiciary: the most complete rese-
arch on the subject. Disponível em: [Link]
Luiz Fux
ORCID: [Link]
Ministro do Supremo Tribunal Federal, jurista e professor universitário.
E-mail: gabineteluizfux@[Link]
Foi ministro do Tribunal Superior Eleitoral de 2014 a 2018 e ministro do Superior Tribunal de Justiça de 2001 a 2011,
promotor de justiça do Ministério Público do Estado do Rio de Janeiro de 1979 a 1982 e juiz de direito fluminense de 1982
até 1997, quando foi promovido a desembargador do Tribunal de Justiça do Rio de Janeiro. É bacharel (1976) e doutor
(2009) em direito pela Faculdade de Direito da Universidade do Estado do Rio de Janeiro (UERJ). Desde 1995 é professor
titular da UERJ, além de ter lecionado na Escola de Magistratura do Estado do Rio de Janeiro e na Pontifícia Universidade
Católica do Rio de Janeiro. É membro da Academia Brasileira de Letras Jurídicas e da Academia Brasileira de Filosofia.
Presidiu a comissão de juristas que elaborou o anteprojeto do Código de Processo Civil, em vigor desde 2016.
É graduada em Direito pelo Uniceub-Centro de Ensino Unificado de Brasília, pós-graduada em Direito Público pela
Universidade Cândido Mendes e responsável pela interlocução para a execução das ações do Projeto Agenda 2030 no STF.
Secretária de Gestão de Precedentes do STF.