#41 | A vigilância por câmeras em Goiás e o desempenho do ChatGPT no Enem
Uma newsletter sobre jornalismo investigativo baseada em dados do projeto CruzaGrafos e em investigações brasileiras
Olá!
Eu sou Flávia Faria* e esta é mais uma edição da Investigadora, a newsletter de jornalismo investigativo baseado em dados da Abraji.
Hoje trazemos os bastidores da reportagem de Aiuri Rebello no The Intercept Brasil que revelou que o ex-deputado Delegado Waldir destinou mais de R$ 30 milhões para projetos de implantação de sistemas de reconhecimento facial em cidades goianas que nem têm saneamento básico.
Também contamos como a equipe de jornalismo de dados da Folha de S.Paulo testou o desempenho do ChatGPT no Enem —a ferramenta até vai bem em ciências humanas e linguagens, mas falha bastante nas questões de matemática.
Na dica do dia, apresentamos um tutorial para descobrir APIs ocultas.
Se esta é a sua primeira vez por aqui, sinta-se em casa. Esta é uma newsletter sobre jornalismo investigativo baseada em dados do projeto CruzaGrafos – parceria da Abraji e do Brasil.IO, com o apoio da Google News Initiative.
A ferramenta está disponível para todos os associados da Abraji. Para não associados, basta clicar aqui. Quem quiser fazer parte da Abraji pode ver os passos para se associar neste link. E aqui dá para apoiar o Brasil.IO. Também temos agora um canal privado no Telegram para divulgar as novidades do CruzaGrafos.
E já começaram as inscrições para o 18º Congresso Internacional de Jornalismo Investigativo da Abraji, que será realizado de 29.jun.2023 a 2.jul.2023 no campus Álvaro Alvim da ESPM, em São Paulo. Veja todas as informações e garanta seu desconto até 28 de maio neste link. Uma outra novidade é que jornalistas que moram nos Estados da Amazônia Legal podem se inscrever para obter bolsas para custear a viagem (passagem e hospedagem), detalhes aqui.
Boa leitura!
Vigilância no interior de Goiás
A ideia de contar como Goiás se tornou o estado mais monitorado por câmeras do país surgiu a partir de uma parceria do site The Intercept Brasil com o Centro de Estudos de Segurança e Cidadania (Cesec). A organização, que monitora o uso de reconhecimento facial na segurança pública, rastreava um convênio do Ministério da Justiça que destinava verbas para iniciativas do tipo. Chamou a atenção dos pesquisadores o grande número de cidades goianas contempladas.
O repórter Aiuri Rebello se debruçou sobre o material levantado pelo Cesec e foi buscar outros convênios similares. Para a pesquisa, utilizou como fontes portais da transparência (municipais, estadual e federal) e sites de tribunais de contas. Também fez alguns pedidos pela Lei de Acesso à Informação.
Partir do nome de empresas, contratos ou licitações já identificadas pelos pesquisadores facilitou o trabalho de busca, mas o repórter também fez pesquisas mais amplas.
“Ter informações específicas ajuda muito, mas muitas vezes é preciso apelar para termos mais genéricos, quase um trabalho de SEO [search engine optimization]. Tenta ‘videomonitoramento’ junto, depois separado. Será que escrevem com hífen? E aí você vai refinando. Quando você começa uma busca bem livre, a dica é montar um arcabouço de palavras fundamentais e testar variações para ver o que o sistema retorna”, conta Aiuri.
O levantamento mostrou algo curioso: Delegado Waldir, deputado federal por dois mandatos (2015 a 2022), era o responsável pela liberação de verbas para financiar projetos em 130 cidades de Goiás. Ao todo, somando valores que ainda devem ser liberados, são mais de R$ 30 milhões em emendas de sua autoria. O político é do União Brasil e perdeu a eleição para o Senado em 2022.
Os valores empregados, contudo, contrastam com a realidade socioeconômica e a situação da segurança dos municípios. A reportagem traz dados de urbanização, saúde, saneamento e renda que demonstram as condições precárias das cidades e embasam o questionamento feito sobre a real necessidade do programa de monitoramento. Além disso, são municípios com poucos crimes, em geral pequenos furtos ou ocorrências de tráfico de drogas —sem grande potencial ofensivo, portanto.
Quase todos os dados são públicos e facilmente acessíveis nas plataformas do IBGE. A exceção são as informações detalhadas de criminalidade dos municípios, que Aiuri precisou pedir via Lei de Acesso à Informação. O governo de Goiás não disponibiliza os dados on-line e também não foi possível obtê-los com a assessoria de imprensa, segundo o repórter.
“A gente estava pensando em como demonstrar que aquele investimento não era prioritário, e os números que chegaram via LAI iluminaram o quadro. Fica aí a lição de paciência. Às vezes, o pedido de LAI é infrutífero, a gente espera um ou dois meses e não vem nada, mas nesse caso foi uma espera importante. Enriqueceu bastante o material”, relata.
A apuração revelou alguns pontos de suspeita, como o fato de que duas empresas venceram a maioria das licitações. Uma delas é a Tecno Marra, condenada em um processo do Tribunal de Contas da União que a proibiu de prover serviços para o poder público em 2020.
#ParaTodosVerem: print do CruzaGrafos mostra dados da Tecno Marra, como quadro societário e capital social
A empresa também é alvo de uma apuração da Polícia Federal ligada ao fornecimento de câmeras para prefeituras de Goiás, mas a corporação não quis comentar o caso. A pista da investigação da PF veio do próprio Delegado Waldir, que diz não ter ligação com as suspeitas.
“Ele é super orgulhoso do projeto dele e não tinha nada a esconder. Forneceu informações complementares, lista de controle de emendas. Isso foi super importante. Por isso é essencial procurar ouvir os envolvidos e ir desarmado, conversar e estar aberto para entender o que a pessoa vai dizer. Dali, muitas vezes saem entrevistas maravilhosas, como foi o caso”, diz Aiuri.
O computador que não sabia matemática
Foi ao ver a experiência do ChatGPT respondendo ao exame da OAB americana que a equipe do Deltafolha, núcleo de jornalismo de dados da Folha de S.Paulo, teve a ideia de testar o desempenho da ferramenta no Enem.
A reportagem assinada por Daniel Mariani, Leonardo Diegues, Diana Yukari, Paula Soprana e Raphael Hernandes traz os resultados do experimento. A inteligência artificial foi melhor do que 78,9% dos candidatos, mas tem desempenho desigual entre as disciplinas: supera
98,9% dos estudantes em ciências humanas e 95,3% em linguagens e códigos, mas, em matemática, só vai melhor que 27% dos participantes.
#ParaTodosVerem: infográfico elaborado por Diana Yukari para a Folha de S.Paulo mostra o desempenho do ChatGPT e dos candidatos humanos no Enem
Para medir os conhecimentos do ChatGPT, a equipe extraiu o enunciado das questões de todas as provas de 2017 a 2021, disponíveis no site do Inep. A ferramenta (na versão 3.5) não lê imagens, e optou-se pela prova para candidatos com deficiência visual —ela contém a descrição de figuras e gráficos.
O primeiro passo foi “quebrar” os pdfs das questões, de modo a separá-las e permitir que o ChatGPT respondesse a cada uma. Isso foi feito usando a linguagem de programação R. Veja as bibliotecas usadas, segundo Daniel Mariani:
pdftk para quebrar o pdf em páginas
pdfplumber para ver se tinha uma reta no meio da prova (elas indicam o fim da questão)
`k2pdfopt` para o caso de haver uma reta no meio da prova (logo, duas colunas de questões) e dividir o pdf no meio
pdfunite para unir as páginas
pdftotext para extrair o texto
Com o arquivo das questões em formato de texto, a etapa seguinte foi alimentar a ferramenta. Isso foi via API da OpenAI, que é paga, com código em Python. Também foi utilizado um framework já desenvolvido para testar o desempenho do ChatGPT em avaliações (você confere aqui).
Leonardo Diegues conta que um dos desafios foi identificar, dentro do texto fornecido pela ferramenta como resposta, a alternativa que foi considerada correta.
“Mesmo pedindo para que respondesse apenas com a letra da alternativa certa, ela às vezes se empolgava e queria fazer textão, dar explicações”, brinca. Isso era mais frequente em questões de matemática e ciências da natureza.
“Uma coisa que notamos é que, se déssemos as instruções do que devia ser feito em inglês, esse erro acontecia menos”, completa, ressaltando que as perguntas eram fornecidas em português — apenas a indicação do que a ferramenta deveria fazer (responder a questão) estava em língua estrangeira.
Com a lista de respostas (veja todas elas aqui), foi possível calcular a nota que o ChatGPT teria. O Enem é corrigido a partir da Teoria da Resposta ao Item, que dá pesos diferentes às questões de acordo com a dificuldade do que é avaliado.
Para fazer esse cálculo, foram usados os parâmetros fornecidos pelo Inep — eles são públicos desde o ano passado. Como controle do desempenho do método de cálculo da nota, a equipe calculou também o resultado dos alunos (a partir dos microdados do Enem) e comparou com a nota final divulgada pelo órgão.
Em uma minoria dos casos o cálculo usando os parâmetros do Inep não resultava na nota final publicada pelo órgão, indicando um possível problema nos dados. Nessas situações, conta Daniel, a opção foi recalcular os parâmetros — metodologia que ele havia desenvolvido em 2021, para a produção de reportagem que mostrou que questões do Enem tidas como ideológicas por grupos conservadores eram eficientes em testar o conhecimento dos candidatos.
“Aí, quando usávamos os parâmetros estimados, a nota dos estudantes batia com aquela divulgada oficialmente pelo Inep. Mas isso aconteceu em poucos casos”, diz.
Encontrando as APIs escondidas
Para quem tem alguma habilidade com programação, APIs (APIs são um conjunto de padrões que fazem parte de uma interface, que permitem por exemplo que dois ou mais computadores troquem informações) são bastante úteis para obter dados de maneira automatizada e rápida. Nem sempre, porém, elas estão visíveis.
Este guia (em inglês, mas bastante didático) traz o passo a passo para descobrir APIs ocultas e construir datasets necessários em investigações.
Ele foi desenvolvido por Leon Yin, do site The Markup. O jornalista traz exemplos a partir de sua experiência ao descobrir uma API não documentada durante uma apuração sobre vídeos com discurso de ódio no YouTube.
#ParaTodosVerem: print do tutorial para descobrir APIs ocultas, por Leon Yin
Fortaleça o trabalho de quem faz a Investigadora. Contribua com qualquer quantia. O pagamento pode ser feito via Pix, por meio da chave aleatória 61699d2c-28f7-4d90-b618-333a04f13e0a. É só copiar e colá-la. Também dá para usar o QR Code a seguir:
*Flávia Faria é jornalista especializada na cobertura guiada por dados. Foi repórter da Folha e editora do DeltaFolha, núcleo de jornalismo de dados do jornal. Foi finalista do Sigma Awards 2022
Ficou com alguma dúvida? Quer saber sobre os bastidores de uma determinada reportagem ou aprender mais sobre alguma ferramenta? Vem com a gente: cruzagrafos@abraji.org.br.
Para ler as edições passadas da Investigadora, clique aqui.
Saiba mais sobre o CruzaGrafos
Consultamos milhões de dados da Receita Federal do Brasil, do Tribunal Superior Eleitoral e de autos de infração lavrados pelo Ibama.
Temos, por exemplo, candidaturas em eleições, informações sobre empresas e cruzamentos com o Portal da Transparência. Você pode ler mais sobre nossa última atualização do projeto aqui.
O CruzaGrafos, indicado como finalista do Sigma Awards 2021, conta com um programa de treinamentos voltado para redações, grupos de freelancers, universidades e organizações do terceiro setor ligadas à educação e à transparência de dados.
Você pode ler mais sobre o projeto aqui. Preparamos um guia escrito, um vídeo tutorial com legendas em português, inglês e espanhol, além de uma web stories.
Vale lembrar que as informações disponibilizadas pelo CruzaGrafos são públicas, mas o trabalho de curadoria, seleção, limpeza, cruzamento, estudo de relações de poder, diferentes tipos de download (manual, pedidos de LAI, webscraping, OSINT), descrição e pesquisa de exemplos é feito pela equipe da Abraji e do Brasil.IO. Dar crédito às organizações é importante para a manutenção desse trabalho e para mostrar a outros colegas que a ferramenta é útil.
Se você usar a ferramenta como referência para sua reportagem, não se esqueça de citar!
Confira as informações mais recentes do projeto aqui.
O que você achou desta edição da Investigadora?
>> Divulgue a Investigadora: encaminhe a newsletter para seus amigos e compartilhe os conteúdos nas suas redes sociais.