“É bem sabido que os casos excepcionais não se acomodam
bem a regras "objetivas", desenhadas para um tratamento
de massa. Einstein, caso trabalhasse no Brasil nos dias
de hoje, ganharia bolsa de produtividade do CNPq?”
A avaliação da qualidade da produção científica é sabidamente
um problema difícil e complexo. Em todo o mundo, e no Brasil
em particular, o acentuado crescimento dos sistemas científicos,
tanto em número de pesquisadores e centros de pesquisa como
no volume da produção e diversidade dos periódicos, vem
exercendo forte pressão para que os mecanismos tradicionais
de avaliação se adaptem a uma tarefa cuja escala não tem
precedente.
Outra crítica freqüente é à natureza necessariamente subjetiva
da avaliação pelos pares: cresce a demanda por critérios
"transparentes e objetivos". Na prática, isto tem conduzido
ao uso crescente de parâmetros bibliométricos, sobretudo
estatísticas relativas a citações, para priorizar indivíduos,
programas, publicações ou periódicos. Cada vez mais, no
lugar de servirem como complemento a outras informações,
incluindo as opiniões dos especialistas, as estatísticas
de citações acabam substituindo uma análise aprofundada
do mérito.
Esta tendência global se reflete no nosso país, naturalmente,
embora sua penetração ainda seja muito variável segundo
a área científica. Curiosamente, tais variações parecem
ter pouca relação com o grau de matematização da área enquanto
disciplina científica. Em particular, os comitês de Matemática
e Estatística no CNPq e na Capes estão, tradicionalmente,
entre os mais prudentes quanto ao uso de critérios numéricos
nos seus julgamentos.
Dados estatísticos de citações, tais como o índice de impacto
ou o fator h, para citar apenas os mais populares, têm o
inegável mérito da simplicidade: cada um oferece uma priorização
de pesquisadores, revistas ou programas, numa ordem completa
e fácil de calcular. Mas eles também levantam algumas perguntas
importantes.
Não discutiremos aqui a questão se um sistema de avaliação
determinado por citações pode incentivar, ou mesmo permitir,
a originalidade e a inovação. É bem sabido que os casos
excepcionais não se acomodam bem a regras "objetivas", desenhadas
para um tratamento de massa. Einstein, caso trabalhasse
no Brasil nos dias de hoje, ganharia bolsa de produtividade
do CNPq?
O foco deste artigo está em outra questão de igual importância:
até que ponto as estatísticas de citações realmente medem
relevância e qualidade? A pesquisa científica consome um
volume apreciável de recursos em todo o mundo e é, evidentemente,
necessário avaliar da forma mais precisa possível a eficácia
na utilização desses recursos.
Dada a enorme popularidade de parâmetros estatísticos tais
como o índice de impacto ou o fator h, seria de se esperar
que seu uso estivesse amparado em estudos de validação.
Surpreendentemente, não é assim: o uso corrente de critérios
"objetivos" carece da fundamentação adequada e repousa,
mais do que seria razoável, em pressupostos implícitos.
Esta é uma das conclusões do relatório Citation Statistics
recentemente promovido por três importantes organizações
internacionais – a International Mathematical Union (IMU),
o International Council of Industrial and Applied Mathematics
(Iciam) e o Institute for Mathematical Statistics (IMS),
e realizado por três destacados especialistas da área de
Matemática e Estatística, com ampla experiência no âmbito
da publicação científica: os professores Robert Adler (Israel),
John Ewing (USA) e Peter Taylor (Austrália).
Esse documento pode ser encontrado no site http://www.mathunion.org/Publications/Report/CitationStatistics
. A nosso ver, ele constitui leitura obrigatória tanto para
os responsáveis nos sistemas de avaliação do fomento, como
para todo o usuário desses sistemas.
A partir de ampla biografia existente sobre o tema, e da
experiência acumulada de diversos cientistas, Citation Statistics
critica o modo simplista e mal-informado como critérios
baseados em citações são utilizados em todo o mundo. Embora
esteja escrito do ponto de vista de matemáticos e estatísticos,
as mensagens principais do relatório valem para a Ciência
como um todo.
Algumas conclusões principais merecem destaque:
- Dados estatísticos não são mais precisos, se forem usados
indevidamente. De fato, estatísticas podem ser enganadoras,
se forem mal-usadas ou mal-compreendidas. Grande parte do
uso atual de critérios estatísticos apóia-se na intuição
para a sua interpretação e validação.
- Embora números pareçam objetivos, essa "objetividade"
é ilusória. O significado de uma citação é mal compreendido
e pode ser ainda mais subjetivo que a avaliação pelos pares.
Citações podem ter pouco que ver com "impacto".
- Ainda que seja realmente simples usar um único número
para avaliar qualidade, isso pode conduzir a uma compreensão
superficial de algo tão complexo como é a pesquisa. Números
não são inerentemente superiores a julgamentos sensatos.
Por estas razões, enquanto reconhece que "a avaliação precisa
ser prática e, por essa razão, estatísticas de citações
certamente farão parte do processo", Citation Statistics
também alerta contra o uso excessivo de parâmetros tais
como o índice de impacto ou o fator h, "que dão apenas uma
visão limitada e incompleta do que é qualidade", insistindo
que "a pesquisa é demasiado importante para que o seu valor
possa ser medido por meio de uma ferramenta única, e grosseira".
Após uma rápida introdução à problemática da avaliação,
o relatório de Adler, Ewing e Taylor discute o uso, apropriado
ou não, de estatísticas de citação na avaliação de revistas,
artigos e pesquisadores. Entre as diversas críticas concretas
ao índice de impacto, destaca-se a afirmação de que o seu
significado não é realmente compreendido por quem toma decisões
com base nele. Um exemplo ilustra bem este ponto e merece
ser citado aqui.
As revistas Proceedings of the AMS e Transactions of the
AMS, ambas publicadas pela American Mathematical Society
(AMS), têm perfis distintos: enquanto os Proceedings se
restringem a artigos rápidos, com até dez páginas, as Transactions
geralmente publicam artigos bem mais longos. O índice de
impacto das Transactions é o dobro do índice de impacto
dos Proceedings. Para a maioria dos sistemas de avaliação
baseados em estatísticas de citações isto significa que
artigos nas Transactions são "melhores" do que artigos nos
Proceedings, no sentido de terem mais citações. Mas será
que essa conclusão é justificada?
Quando consideramos artigos ao acaso nessas duas revistas,
qual é a probabilidade de que o artigo nas Transactions
seja realmente "melhor" do que o artigo nos Proceedings?
A resposta pode ser calculada facilmente a partir dos histogramas
de citações das duas revistas: essa probabilidade é de apenas
38%. Quer dizer que, em quase dois terços dos casos, um
artigo na revista com menor índice de impacto é "tão bom
ou melhor" do que um artigo na revista com o dobro de índice
de impacto! Deve ser enfatizado que não há nada de especial
na escolha destas duas revistas.
O relatório de Adler, Ewing e Taylor prossegue com uma discussão
do real significado de citações, desmontando a crença, amplamente
disseminada, de que citações necessariamente se correlacionam
com impacto e qualidade científica.
A par de outros fatores que distorcem a própria contagem
das citações, o relatório chama a atenção para "a nossa
ignorância das razões por que os autores citam algumas publicações
em particular e não outras". De fato, está muito longe de
ser claro quando uma citação significa reconhecimento de
uma dívida intelectual a outra publicação e há razões para
crer que talvez esse nem seja o caso na maioria das vezes.
Na última seção do relatório, Adler, Ewing e Taylor discutem
o uso adequado de estatísticas na avaliação científica e
como elas podem e devem ser temperadas com outras informações
relevantes de natureza acadêmica. Ao fazê-lo, voltam a enfatizar
a mensagem central de que "a pesquisa tem objetivos múltiplos,
de curto e longo prazos e, portanto, é razoável que seja
julgada usando critérios variados.
Os matemáticos sabem que há muitas coisas, tanto reais como
abstratas, que simplesmente não podem ser ordenadas, no
sentido de duas quaisquer poderem ser comparadas. Freqüentemente
a comparação exige uma análise mais complicada, que nem
sempre determina qual das duas é a 'melhor'."
Em resumo, ao esforço para tornar a avaliação da pesquisa
"simples e objetiva" pode e deve ser aplicada a máxima de
Albert Einstein: "Tudo deveria ser tornado tão simples quanto
possível. Mas não mais simples do que isso".
*Marcelo Viana é pesquisador titular do Instituto Nacional
de Matemática Pura e Aplicada (Impa), membro do comitê executivo
da IMU e coordenador da área de matemática, probabilidade
e estatística na CAPES
Fonte: Roberto Berlinck (IQSC) |