Sobre gestão de dados científicos
O que é ciência aberta?
A Ciência Aberta é um movimento que incentiva a transparência da pesquisa científica desde a concepção da investigação até o uso de softwares abertos. Também promove esclarecimento na elaboração de metodologias e gestão de dados científicos, para que estes possam ser distribuídos, reutilizados e estar acessíveis a todos os níveis da sociedade, sem custos.
O que é acesso aberto?
É uma das dimensões da Ciência Aberta, um modelo de prática científica colaborativa e aberta que reforça o conceito de responsabilidade social científica, ou seja, a disponibilidade da produção em meio digital, de forma livre, gratuita e universal.
O que são dados abertos?
São dados depositados em um repositório aberto e acessível ao público, ou seja, fica disponibilizado para que qualquer pessoa possa usá-lo, reutilizá-lo e redistribuí-lo, estando sujeito aos requisitos de atribuição ou compartilhamento previamente estabelecidos.
O que são dados de pesquisa ou dados científicos?
Consideram-se dados de pesquisa todo e qualquer tipo de dado, em suporte físico ou digital, que foi coletado, observado, gerado, criado/produzido, processado durante uma pesquisa para validar resultados de um estudo. Podem ser classificados:
- segundo a sua origem: observacionais, computacionais e experimentais.
- segundo a sua natureza: simulações, software, imagens, vídeos, entre outros.
- segundo a fase da pesquisa: dados brutos, crus ou preliminares (raw data em inglês), dados derivados e dados canônicos ou dados referenciais.
O ciclo de vida dos dados de pesquisa compreende a criação, o processamento, a análise, a preservação e o compartilhamento dos dados para que possam ser recuperados ou reutilizados.
O que é a gestão de dados de pesquisa?
Gestão de dados de pesquisa é uma prática de coleta, organização, armazenamento e compartilhamento dos dados da pesquisa, que seriam atividades relacionadas à curadoria digital, a fim de que possam ser preservados e reutilizados.
Tendo em vista as transformações advindas da e-science, os avanços tecnológicos, as exigências das agências de fomento e para submissão em alguns periódicos, as iniciativas de acesso aberto entre cientistas, o trabalho de equipes interdisciplinares, a maneira acelerada das descobertas e avanços da ciência, fica cada vez mais evidente a questão da gestão de dados de pesquisa.
Quais os benefícios da gestão de dados de pesquisa?
Pode-se citar como benefícios: continuidade do projeto; facilidade na validação dos resultados; possibilidade de compartilhamento o que gera colaboração e maior impacto; economia de tempo pela organização dos dados; facilidade na redação dos resultados da pesquisa; redução do risco de perda de dados, roubo ou mesmo má utilização dos mesmos; cumprimento de requisitos estabelecidos pelo financiador ou pelo periódico; reúso em outras pesquisas.
O que é um plano de gestão de dados de pesquisa?
É um documento que descreve os dados de pesquisa e os passos a serem realizados para o gerenciamento dos mesmos durante e após a pesquisa. Geralmente incluem: quem são os membros da equipe de pesquisa e suas responsabilidades; os dados que a pesquisa irá gerar/coletar (métodos de captura e produção); como os dados serão documentados, o que inclui padrões e ferramentas de metadados (tipos e formatos, nomeação de arquivos); como os dados serão organizados, armazenados e protegidos durante o projeto de pesquisa; como os dados serão compartilhados com outras pessoas durante ou após o projeto; e, onde e como os dados serão arquivados/preservados para acesso de longo prazo.
Exemplos de ferramentas para elaboração de plano de gestão de dados: DMPTool (link externo), DMponline (link externo).
Pode haver exigências externas de agências de fomento a pesquisa e de periódicos.
Quais os tipos e formatos dos dados de pesquisa?
Os mais utilizados são:
- imagens: JPEG, PNG, TIFF, BMP, GIF, PIC, DXF, NRG
- arquivos em vetor: EPS, AI, SVG, CDR
- vetor de dados geoespaciais: SHP, DBF, TIF, DWG, KML
- texto simples: ODT, DOC, TXT, RTF, WRI, DAT, LOG, PDF, PDF/A, XML, MD
- texto estruturado/database: CSV
- página web: HTML, XML, ASP, PHP, JS
- apresentação: PPT
- bancos de dados: MYSQL, ORACLE
- dados áudio: AIFF, WAV, MP3, WMA, AAC, AC3, FLAC, ASF, MID, OGG, RM
- dados vídeo: MP4, AVI, FLV, MPEG, MOV, RMVB, MKV, VOB, MBV
- planilhas: CALC, XLS
- compactador: ZIP, RAR, TAR, GZIP, 7z
- arquivo estatístico: SPSS, Statistica, EPI- Info
- executável: EXE, BAT, COM
- dados de espectroscopia: JCAMP, NMR, IR, RAMAN, UV
- gráficos
- dados bibliográficos
- aplicações de software
- gráficos estruturados
- [outros]
Boas práticas para gestão de dados de pesquisa:
- Armazenamento: utilize armazenamento atribuído à equipe em vez de pertencer a um indivíduo ou estar salvo em uma máquina física, a fim de que seja facilmente acessível pelos membros, preferencialmente ferramentas institucionais;
- Nomeação de arquivos: convencionar a nomenclatura dos dados ajudará a encontrar os arquivos e rastrear a versão mais atual. Use nome de arquivos descritivos que sejam significativos, mas que sejam curtos (alguns softwares só aceitam até 32 caracteres) e evite o uso de caracteres especiais e acentuação (? [ / $ & ~^). Comece nomeando pela categoria mais geral e termine com a mais específica para que os arquivos relacionados sejam classificados juntos (por exemplo data invertida aaammdd e versão 01 ao invés de 1) e prefira o uso de letras minúsculas porque alguns sistemas operacionais diferenciam maiúscula e minúscula no momento da classificação. Use um sistema numerado sequencial para diferenciar as versões (v01, v02);
- Organização dos arquivos: defina convenções para uma estrutura de diretórios, nomes de pastas e nomes de arquivos a fim de facilitar a busca tanto por você quanto pelos demais membros da equipe;
- Backups: siga a regra 3-2-1 (mantenha três cópias de seus dados armazenados em ao menos duas mídias diferentes sendo uma delas fora do local físico). Realize o armazenamento de forma sincronizada (automática) em nuvem;
- Preservação dos dados: faça na conclusão do projeto avaliando: o que deve ser mantido dos dados utilizados; por quanto tempo os dados precisam ser preservados; quem serão os responsáveis pelos dados; em qual repositório serão armazenados os dados ou a vida útil do hardware; quais formatos de arquivo serão mantidos (preferência por dados abertos e sustentáveis). Lembrar de verificar as exigências do financiador do projeto de pesquisa ou periódico.
- Formatos de dados: dê preferência por formatos de dados com maior probabilidade de serem utilizáveis no futuro ou que permitam a reutilização (como .txt ou .csv ao invés de .pdf). Recomenda-se a utilização de formatos não proprietários ou conversão de seus dados em formatos abertos e compartilháveis. Caso armazene os dados em formatos proprietários, o ideal é documentar o software necessário para visualizar esses dados. E, caso opte por trabalhar com um formato e transferir para outro formato com a finalidade de preservá-lo, considere documentar os recursos que podem ter sido perdidos na conversão de dados.
Como citar dados de pesquisa
A citação dos dados de pesquisa é semelhante a de trabalhos acadêmicos: Autor (Ano) ou (Autor, ano).
Todas as citações devem ser incluídas na lista de referências. Forneça identificadores permanentes (DOI) quando disponível, mencione o conjunto de dados de forma mais detalhada possível e a versão, caso haja. Veja a estrutura a seguir:
SOBRENOME, Nome. Título do conjunto de dados. Versão. Local: distribuidor, ano. Descrição do tipo de dado. Disponível em: URL. Acesso em: dd mês ano.
Exemplo:
O’DONOHUE, W. Content analysis of undergraduate psychology textbooks. Version V1. [S.l.]: ICPSR, 2017. Data set. Disponível em: https://doi.org/10.3886/ICPSR36966.v1. Acesso em: 08 ago. 2023.
Compartilhamento e reúso de dados de pesquisa
Para assegurar boas práticas no compartilhamento e reúso dos dados é recomendada a aplicação dos princípios FAIR (link externo), sigla proveniente do inglês Findable (localizável), Accessible (acessível), Interoperable (interoperável) e Reusable (reutilizável).
Os princípios FAIR orientam produtores e usuários, humanos ou computadores, sobre o compartilhamento, uso e reúso de dados de pesquisa mais facilmente, bem como, a citação correta dos mesmos.
Para informações em português sobre os princípios FAIR, visite o curso sobre dados abertos da Fiocruz (link externo).
Repositórios de dados
Os repositórios de dados científicos têm a função de armazenar e disponibilizar os dados, podendo ser temáticos (contendo a produção de uma determinada área do conhecimento) ou institucionais (contendo a produção de uma determinada instituição).
Para consultar repositórios temáticos visite re3data.org (link externo).
Exemplos de repositórios de dados no Brasil:
– LattesData (link externo)
– Arca Dados (link externo)
A UFSC possui seu Repositório Institucional (RI) (link externo), porém ainda não inclui dados de pesquisa.
Licenciamento e direitos autorais
Os dados abertos devem adotar licenças que permitam sua reutilização e redistribuição.
As licenças Creative Commons fornecem uma maneira padronizada de permissão para utilização da publicação sob a lei de direitos autorais, disponíveis desde 2002. Possuem seis tipos de opções desde mais permissivas até mais restritivas. Para mais informações acesse o site do Creative Commons (link externo).
Contrastando com os dados abertos, existem situações nas quais os dados não podem ser livremente usados, reutilizados e redistribuídos pois foram aplicadas cláusulas de segredo/sigilo. Dentre esses casos, estão dados relacionados a pesquisas que poderiam gerar patentes ou que tratam da privacidade das pessoas ou organizações.
Capacitações e treinamentos
FIOCRUZ:
Formação modular em Ciência Aberta;
Aula sobre “Dados abertos”.
Normas e regulamentos da UFSC
A UFSC ainda não possui políticas ou diretrizes sobre dados de pesquisa.
Sobre acesso aberto, está em tramitação a Política de acesso aberto à produção acadêmica e científica da Universidade Federal de Santa Catarina (Processo 23080.089453/2019-48).
O que a BU/UFSC está fazendo?
- comissão: criou a Comissão de Concepção do Serviço de Suporte à Pesquisa e Gestão de Dados Científicos: a comissão foi instituída em 25 de maio de 2016 por meio da Portaria nº 1.202/2016/GR (link externo) e atualizada pela Portaria nº 1.043/2019/GR (link externo), para criar e implementar um serviço de suporte à pesquisa e gerenciamento de dados brutos de pesquisa na UFSC;
- eventos: realizou o I Seminário de Suporte à Pesquisa e Gestão de Dados Científicos: panorama atual e desafios, nos dias 18 e 19 de setembro de 2017. Mais informações no site do evento (link externo);
- pesquisa: elaborou o Projeto de pesquisa “Suporte à Pesquisa e Gestão de Dados Científicos” (link externo), o qual está registrado no SIGPEX sob o número 201611840;
- institucional: promoveu a discussão e elaborou a Política de acesso aberto à produção acadêmica e científica da Universidade Federal de Santa Catarina elaboração, a qual encontra-se em tramitação institucional;
- publicações: os membros da Comissão de Concepção do Serviço de Suporte à Pesquisa e Gestão de Dados Científicos divulgaram os resultados de seus estudos em:
LEHMKUHL, Karyn Munyk et al. Suporte à pesquisa e gerenciamento de dados: proposta de concepção de serviço para Biblioteca Universitária da UFSC. In: SEMINÁRIO NACIONAL DE BIBLIOTECAS UNIVERSITÁRIAS, 19., 2016, Manaus. Anais eletrônicos […]. Manaus: SNBU, 2016. p. 1438-1448. Disponível em: http://repositorio.febab.org.br/items/show/4506. Acesso em: 25 jul. 2023.
LEHMKUHL, Karyn Munyk et al. Suporte à Pesquisa e Gestão de Dados Científicos em Bibliotecas Universitárias: experiência da BU/UFSC. In: BEM, Roberta Moraes de; GRANTS, Andréa Figueiredo Leão (org.). A construção de saberes: protagonismo compartilhado em serviços e inovações na Biblioteca Universitária da UFSC. Florianópolis: Biblioteca Universitária Publicações, 2018. (Série Gestão de Bibliotecas Universitárias; 1). Disponível em: https://repositorio.ufsc.br/bitstream/handle/123456789/192743/AConstrucaodeSaberes.pdf?sequence=3&isAllowed=y. Acesso em: 25 jul. 2023.
Fontes consultadas:
BRASIL. Ministério da Ciência e Tecnologia. CNPq. Lattes data: histórico. 2022. Disponível em: https://lattesdata.cnpq.br/dvn/about/. Acesso em: 12 dez. 2023.
FIOCRUZ. Dados Abertos: gestão, compartilhamento e abertura de dados para pesquisa: uma nova cultura no fazer científico. [2023]. Disponível em: https://mooc.campusvirtual.fiocruz.br/rea/ciencia-aberta/serie3/curso2/aula1.html. Acesso em: 12 dez. 2023.
PRINCETON UNIVERSITY LIBRARY. Research Data Management at Princeton. 2023. Disponível em: https://libguides.princeton.edu/rdm. Acesso em: 12 dez. 2023.
SILVA, Fabiano Couto Corrêa da; SILVEIRA, Lúcia da. O ecossistema da Ciência Aberta. Transinformação, Campinas, v. 31, n. 190001, p. 1-13, set. 2019. Disponível em: https://doi.org/10.1590/2318-0889201931e190001. Acesso em: 12 dez. 2023.
UNIVERSITY OF OREGON. Research Data Management. 2023. Disponível em: https://researchguides.uoregon.edu/data-management. Acesso em: 12 dez. 2023.
WILKINSON, Mark D. et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, [s.l.], v. 3, n. 1, p. 1-9, 15 mar. 2016. Disponível em: https://doi.org/10.1038/sdata.2016.18. Acesso em: 12 dez. 2023.


