
BANCOS DE DADOS
Dados para Machine Learning
Dataset (conjunto de dados) livres para treinamento e teste de Modelos de Machine Learning:
Bancos de dados biológicos
BD Primários
-
PDB - Protein Data Bank é um BD de estrutura 3D de proteínas e ácidos nucleicos.
-
UniProt - BD de sequências de proteínas.
-
GenBank - BD de anotações de sequências de nucleotídeos e de proteínas traduzidas.
-
DDBJ - BD de seqüências nucleotídicas.
BD Secundários
-
PROSITE - BD de domínios, família e sítios funcionais de proteínas
-
PubMed - BD de literatura científica indexada nas áreas de medicina, enfermagem, odontologia, medicina veterinária, saúde e ciências pré-clínicas, e outras áreas não relacionadas.
-
Pfam - BD de famílias de proteínas, representadas por alinhamento de múltiplas sequências e hidden Markov models (HMMs).
-
PIR - Protein Information Resource
BD Especializados
-
Flybase - BD de genética e biologia molecular de Drosophila.
-
HIV database - contém dados de sequências gênicas do HIV e epítopos imunológicos.
-
RDP (Ribosomal Database Project) - BD que fornece dados de sequência de 16S rRNA de bactérias e arqueas e 28S rRNA de fungos, com controle de qualidade, alinhados e anotados.