生物信息学数据库
一级核苷酸数据库
核苷酸序列数据库:NCBI的GeneBank、EMBL的ENA、日本的DDBJ以及中国的GSA 其中GeneBank、ENA、DDBJ三者会进行信息数据共享
在 Genebank 下有三大子库 分别是 Nucleotide、GSS 和 EST
Genebank 子库 | 描述 |
---|---|
Nucleotide | 存储大多数常规的核苷酸序列 |
GSS(Genome Survey Sequence) | 收录测序起始阶段用来进行序列或基因示踪、重复序列或基因数量预判等各种短读长序列 |
EST | 收录 cDNA 及 cDNA 特征序列信息 |
基因组数据库:主要收集基因组序列、注释结果并且展示这些序列。
数据库 | 备注 |
---|---|
Ensemble | 细菌、原生生物、真菌、植物及无脊椎动物基因组数据库 |
NCBI Genome | NCBI整合基因组各类信息,包括序列、图谱、染色体、拼装、注释等 |
Phytozome | 植物基因组数据库 |
TAIR | 拟南芥基因组资源数据库 |
二级核苷酸数据库
非编码RNA数据库 EBI建立了一个综合性非编码RNA数据库RNAcentral,内包含国际上40个主要非编码RNA数据库
数据库 | 备注 |
---|---|
NONCODE | 非编码RNA综合数据库,主要收录LncRNA,数据来源于文献及其他数据库 |
LNCipedia、RefLnc、LncBook | 均为人类非编码长RNA专门数据库 |
SILVA | 核糖体RNA数据库,真核生物、细菌和古菌 |
RDP | 核糖体RNA数据库,仅微生物 |
Rfam | 非编码RNA家族数据库 |
其他非编码RNA数据库: - microRNA数据库:miRBase,包含miRNA的前体序列和成熟序列以及其位置 - circRNA数据库:circAtlas,包含来自6个脊椎动物物种不同组织的数百万个circRNA;PlantcircBase,包含19个植物物种的数十万个circRNA - 非编码RNA互作数据库:NPInter,包含35个物种的ncRNA互作文献和高通量ncRNA互作测序数据 - tRNA数据库:GtRNAdb,通过软件tRNAscan-SE在完整基因组上预测得来的 - 植物非编码RNA数据库:PNRD,综合性植物ncRNAdb,包含166个植物物种的数万条ncRNA
来自NCBI的二级数据库[[4-序列比对#^5c3b9e|RefSeq_rna]]: - RefSeq,非冗余的基因参考序列数据库,提供标准的参考序列数据 - 非冗余 - 明确连接的核苷酸和蛋白质序列 - 更新以反映序列数据和生物学的最新知识 - 数据验证和格式一致性 - 有独特的Accession标识(所有Accession都包含下划线"_"字符) - NCBI 工作人员和合作者正在进行的策划,并注明已审查的记录,即人工审查
^969454
一级蛋白质数据库
1. Uniprot蛋白质序列数据库
Uniprot (Universal Protein )是包含蛋白质序列,功能信息,研究论文索引的蛋白质数据库,整合了包括EBI( European Bioinformatics Institute),SIB(the Swiss Institute of Bioinformatics),PIR(Protein Information Resource)三大数据库的资源。
由以下子库构成
数据库名 | 用途 |
---|---|
UniProtKB/Swiss-Prot | 高质量,手工注释,非冗余数据库 |
UniProtKB/TrEMBL | 自动翻译蛋白质序列,预测序列,未验证的数据库 |
UniPrac | 非冗余蛋白质序列数据库 |
UniRef | 聚类序列减小数据库,加快搜索速度 |
Proteomes | 为全测序基因组物种提供蛋白质信息 |
Uniprot数据库中各子库之间的关系,以及其与核酸序列数据库的关系
通过EMBL,GenBank,DDBJ等公共数据库得到原始数据,处理后存入UniParc的非冗余蛋白质序列数据库。UniProt作为数据仓库,再分别给UniProtKB,Proteomes,UniRef提供可靠的数据集。其中在UniProtKB数据库中Swiss-Prot是由TrEMBL经过手动注释后得到的高质量非冗余数据库,也是我们今后常用的蛋白质数据库之一。
- 对于UniprotKB数据库进行检索,可以知道一个基因对应的蛋白质;
- 其中Entry表示蛋白质学历的在UniprotKB数据库中的检索号,Entry_Name是检索名,二者都是对于一条蛋白质序列的唯一标识(区分,UPnirotKB中检索号为Entry,GeneBank中是Accession);
- UniprotKB可以对序列进行比对、格式转换和存储也可以查看蛋白质序列的注释信息。 ### UniParc
- 为了避免冗余,UniParc仅将每个唯一序列存储一次。 相同序列被合并,无论它们来自相同还是不同物种。 每个序列都有一个稳定且唯一的标识符(UPI),从而可以从不同的来源数据库中识别相同的蛋白质。
- UniParc仅包含蛋白质序列,没有注释。 UniParc条目中的数据库交叉引用允许从源数据库检索有关该蛋白质的更多信息。 当源数据库中的序列发生更改时,UniParc将跟踪这些更改,并记录所有更改的历史记录。
UniRef
UniRef100数据库将来自任何生物体的11个或更多残基的相同序列和亚片段组合到单个UniRef条目中,显示代表性蛋白质的序列,所有合并条目的accession以及相应的UniProtKB和UniParc记录的链接。 - UniRef100:非冗余的UniProt蛋白质序列 - UniRef90:聚类UniRef100中一致性超过90%且80%重叠的蛋白质,取最长的一条(序列数压缩58%) - UniRef50:聚类UniRef90中一致性超过50%且80%重叠的蛋白质,取最长的一条(序列数压缩79%)
2. PIR蛋白质序列数据库
子库
数据库名 | 用途 |
---|---|
PIR-PSD | 分类并程序化注释 |
PIRSF | 自动程序化注释 |
iProClass | 整合UniProtKB和NCBI Unique数据 |
PIR与UniprotKB相比,信息整合的蛋白质序列数据库(iProClass),内容/编号与UniProtKB相同,但额外提供到超过160个数据库的链接
PDB蛋白质结构数据库
PDB与其他数据库关系:PDB与欧洲的PDBe和日本的PDBj合作建立了一个国际蛋白质结构数据库wwPDB 定义:1) PDB是用于保存生物大分子结构数据的常用数据库,由美国Brookhaven国家实验室于1971年创立。2) PDB中包含了通过X射线单晶衍射、磁共振和电子衍射等实验手段确定的蛋白质、多糖和核酸等生物大分子的三维结构数据。3) PDB数据库以文本文件的方式存放数据,每个分子各用一个独立的文件,都有唯一的PDB-ID。4) PDB数据库允许用户用各种关键词进行搜索,如功能类别、PDB代码、名称、作者、分子式、参考文献等。5) 对于查询结果不仅可以得到生物大分子的各种注释、原子空间坐标和三维图形。并能链接到一些与PDB相关的数据库,如SCOP、CATH。
二级蛋白质数据库
1. 蛋白质结构分类数据库
蛋白质结构分类可以包括不同层次(折叠类型、拓扑结构、家族、超家族、结构域、二级结构、超二级结构)
SCOP数据库
1.定义:SCOP(Structural Classification of Proteins)数据库(建立于1994年,由英国医学研究委员会MRC开发并维护),是对已知蛋白质结构进行分类的数据库,根据不同蛋白质的氨基酸组成及三级结构的相似性,描述已知结构蛋白的功能及进化关系。SCOP数据库的构建除了使用计算机程序,主要依靠人工验证。
2.分类体系: 基于树状层级,从根到叶依次为类(class)、折叠类型(fold)、超家族(super family)、家族(family)。 其中家族用来描述相近的蛋白质进化关系,通常把序列相似度在30%以上的蛋白质归为同一家族,即有明确的进化关系。在某些情况下,尽管序列相似度较低,也可以从结构和功能相似性推断来自同一祖先,也视为同一家族。 超家族用来描述远源的进化关系,表现为序列相似度很低,但在结构和功能特性上有共同的进化起源。(有点疑惑,这个和家族的特殊情况不就冲突了吗?到底是家族还是超家族) 折叠类型用来描述空间的几何关系,无论有无共同的进化起源,只要二级结构单元具有相同的排列和拓扑结构,即归为相同的折叠方式。 种类依据二级结构组成分为:全 \(\alpha\) 螺旋,全 \(\beta\) 折叠、\(\alpha\) 螺旋和 \(\beta\) 折叠、\(\alpha\) 螺旋+ \(\beta\) 折叠等其他种类。
3.总结 - 对已知三维结构(PDB)的蛋白质进行分类,基本靠人工分类 - 描述结构相似性=>进化关系 - 69,919 non-redundant domains (802,102 protein structures) - 4个分类层次:结构类型Class,折叠模式fold,超家族superfamily,家族family
CATH数据库
1.定义:CATH数据库(建立于1993年,由伦敦大学开发并维护),该数据库的名称分别是数据库中四种分类层次的首字母,即 Class蛋白质种类,Architecture二级结构的架构,Topology拓扑结构,Homologous Superfamily蛋白质同源超家族
2.层次分类: 蛋白质种类为全\(\alpha\)、全\(\beta\)、\(\alpha\)-\(\beta\)(\(\alpha/\beta\)型和\(\alpha+\beta\)型)和低二级结构(二级结构成分很低的蛋白质分子)四类。 架构主要考虑\(\alpha\)螺旋和\(\beta\)折叠形成超二级结构的排列方式,而不考虑其连接关系。 拓扑结构考虑二级结构的形状和二级结构间的联系,与SCOP中的fold相当。 同源超家族,是先通过序列比对再用结构比较来确定的。
3.总结: - 主要利用程序自动化分类 - 4个分类层次:(C)lass类型,(A)rchitecture架构,(T)opology拓扑,(H)omologous Superfamily同源超家族 当对一个蛋白质在CATH中进行检索的时候,可以得到该蛋白质的分类代码(如2.70.40.10),CATH就会给出所有具有这种分类代码的蛋白质并根据序列相似度进行聚类
SCOP和CATH的区别: 1. SCOP 数据库与CATH 类似,也属于蛋白质结构分类数据库,但SCOP 的分类原则侧重于蛋白质间的进化关系,而且分类主要依赖于人工验证;CATH偏重于从结构角度对蛋白质分类,其分类基础是蛋白质结构域,而且主要利用程序自动化注释。 2. SCOP 和CATH 里面都有提到Superfamily这个词,但两者的含义并不相同。CATH 里 Superfamily 是指的从 C 到 A 到 T 再到 H 这样四层的一个精细结构分类。而 SCOP 中,Superfamily 是结构分类的第三个层次的名称。
参考:生物数据库之二级蛋白质数据库 - 简书 (jianshu.com)和《生物信息学》李霞
2. 蛋白质功能域数据库
蛋白质功能
PROSITE(Protein Site)和Pfam(Protein Family)是两个常用的蛋白质功能域数据库。它们都用于识别蛋白质中的功能域,但在方法和范围上有所不同。
chatGPT3.5的回答:(略看) PROSITE是一个手工编制的蛋白质功能域数据库,它通过描述蛋白质序列中的保守motif、结构域或功能域来提供注释信息。PROSITE使用人工收集的专家知识和模式来识别功能域,这些模式可以是保守序列模式、保守结构模式或保守功能模式。PROSITE中的信息由专家手动构建,并且经过验证。PROSITE的主要优势是其精确性和专门性,但缺点是其覆盖范围相对较小。 Pfam是一个自动化的蛋白质家族数据库,它使用聚类分析方法来识别功能域。Pfam根据相似的序列、结构和功能特征将蛋白质聚类成家族。在Pfam中,每个家族都有一个代表性的蛋白质序列,称为代表性序列,以及一个描述家族特征的模型。Pfam中的模型是通过多序列比对和统计方法生成的,这使得Pfam能够覆盖更广泛的蛋白质功能域。
区别: PROSITE是基于模式识别,收集具有显著性生物学意义的位点和序列模式(profiles 和 patterns)所覆盖的范围小;而Pfam是基于隐马尔可夫模型,使用多序列比对将蛋白质进行识别和分类
联系: PROSITE和Pfam之间存在一些联系和互补关系。PROSITE中的模式可以用于帮助构建Pfam家族模型。Pfam可以提供更全面的功能域注释,而PROSITE提供了更具体和精确的功能域描述。研究人员通常会同时使用这两个数据库,以获得更全面和准确的信息。
总结起来,PROSITE和Pfam是两个互补的蛋白质功能域数据库,PROSITE强调专门性和精确性,而Pfam强调覆盖广泛的功能域。使用这两个数据库可以对蛋白质功能域进行更全面和详细的分析和注释。
3. 蛋白质互作数据库
- BioGRID 是 Biological General Repository for Interaction Datasets 的缩写,是一个公开的数据库,主要记录、整理包括蛋白、遗传和化学互作的数据,涵盖人类和所有主要的模式生物。BioGRID 网站的主页如下,使用起来也比较简单,只需要输入一个基因ID、关键词或基因名,选择物种,点击搜索即可获得基因互作的结果。
- DIP(Database of Interacting Protein)
- IntAct
- STRING
BioGRID和IntAc和STRING的比较 - Data Type:BioGRID和IntAct只含有基于实验的数据类型,而STRING既包含实验数据又包含预测数据 - Input:BioGRID仅支持单条序列的输入,而IntAct和STRING支持多条序列的输入 - Output:BioGRID和IntAct均不会得到富集分析的结果,而STRING则会得到富集分析的结果
研究结果表明hPRINT和STRING是获取最大蛋白质相互作用数量的理想选择。对于只考虑实验证实的相互作用,STRING是一个好选择,但STRING和UniHI的组合使用可以提供更广泛的内容覆盖率。在几个主要的PPI数据库中,BioGRID提供了最广泛的覆盖。 参考:Systematic comparison of the protein-protein interaction databases from a user's perspective - ScienceDirect
高通量数据库
GEO数据库
GEO数据库定义: GEO,全称Gene Expression Omnibus 基因表达综合数据库,是由美国国立生物技术信息中心NCBI于2000年创建并维护至今的高通量基因表达数据库。GEO是一个国际公共存储库,收录并整理了全球范围内研究工作者上传的基因芯片、二代测序以及其他形式的高通量基因组数据以及不同生理、病理个体或细胞系基因表达数据,并提供免费下载。
GEO数据有两种存储形式,其中: - GEO DataSets 以数据集为单位,存储同一个实验中的数据; - GEO Profiles 以基因为单位,存储基因在不同数据集中的表达谱。
GEO数据组织结构 - Platforms - GPLxxx编号的注释文件里面包括了芯片或测序平台类型、数据集的定义还有一些其它相关描述,它并不涉及到具体的数据,只包含对于数据集性质的描述信息。 - Sample - GSMxxx编号注释的是基因表达测序的单个样品的处理值,未与其它组别进行比较且比较原始的数据值。 - Series - GSExxx编号的数据是一组相关样本实验测定的基因表达谱 ,是对于GSMxxx单个样本组织起来并进行比较后形成较为系统的一个数据集,在里面可以找到差异基因,可以进行功能注释分析等等,是用于后续分析的成品数据。 - Datasets & Profiles - 一些高质量的GSE数据集还会被GEO官方工作者整理为Datasets和Profiles。 - GDSxxx编号的数据是经过GEO工作人员处理过的数据,并且已经形成了相应的数据汇编。(比如热图,基因的聚类分析或者差异基因的筛选工作可能都已经完成了,我们只用从其中搜索就可以了) - Profiles 则以基因为单位存储数据,是 Datasets 各分组中的表达谱,分配的是流水号,例如 33759453。
疾病数据库
1. 人类孟德尔遗传疾病数据库 OMIM
定义:由 NCBI 开发并维护的一个将遗传病分类连接到人类基因组的基因数据库。是在文献检索的基础上,分别以疾病和基因为中心,阐述遗传变异介导的疾病相关基因情况或遗传变异介导的基因参与不同疾病情况。OMIM 是目前最权威的人类疾病数据库之一,研究人员可以将病人的临床表现输入到数据库查找相关的疾病信息,也可以针对某些感兴趣的基因或疾病进行搜索。在 OMIM 中搜索基因和疾病时,可同时查询到基因和疾病相关的信息如基因的序列、染色体位置、以及一些相关的参考文献等。
OMIM 中每一条记录都有唯一的6位数编码,可以是常染色体显性(隐性)遗传、X 连锁、Y 连锁、线粒体遗传等
MIM 编号 | 遗传方式 |
---|---|
100000-199999 | 常显 |
200000-299999 | 常隐 |
300000-399999 | X 连锁 |
400000-499999 | Y 连锁 |
500000-599999 | 线粒体 |
600000- | 染色体位点 |
2. 基因型和表型数据库 dbGAP
定义:由美国国立卫生研究院 NIH 于 2006 年建立的一个基因型和表型数据库,该数据库将多年研究采集到的海量受试者的基因、健康状况和生活方式等方面的信息纳入其中,形成了一个信息丰富的疾病相关性数据库,并对研究人员实行有限制的开放。目前该数据库主要收集复杂疾病或性状相关的全基因组关联研究或全基因组测序研究中受试者的原始基因分型数据和表型数据。
dbGAP 根据开放程度分为公开数据库和控制访问数据库。公开数据库中的数据可以免费下载,而控制访问数据的获取和使用需要研究人员提交申请并获批。dbGAP 中所有的数据都有一个禁止日期,在数据没有通过禁止日期前不得利用该数据发表文献,目前绝大部分有限访问的数据都未通过禁止日期。
3. 其他的遗传多态性数据库
- dbSNP
- 收录所有物种中发现的短序列多态和突变信息,包括单核苷酸多态性、微卫星、小片段/删除多态 indel 等定位、侧翼序列和功能、频率信息。收录的 SNP 条目一般以"rs+数字"表示
- dbVar
- 收录较大规模的基因组变异,包括大片段的插入、缺失、易位、倒置和拷贝数多态 (CNV)等
- ClinVar
- 收录临床中发现或报导的邮政局支持的与人类疾病或健康状态有关的变异位点
问题解答
1. 哪些数据可用于创建生物信息学数据库? 答:在生物信息流中,根据中心法则可知——DNA经过转录可以得到RNA;RNA通过逆转录可以得到cDNA,通过翻译可以得到蛋白质;在生物体内存在多种代谢途径,在各个代谢途径中包含许多代谢物质,代谢物质之间相互关联可以组成代谢通路;生物学研究人员完成实验后也会撰写文献。 因此,DNA和RNA原始数据可以用于构建核苷酸序列数据库、基因/基因组数据库;蛋白质可以用于构建蛋白质序列数据库、蛋白质结构数据库;对序列和结构进行注释,可以得到基因注释数据库和功能数据库;代谢物质可以创建代谢通路数据库;文献可以构建文献数据库
2. 一级数据库和二级数据库之间的区别和联系 答:一级数据库是源于实验室得到的原始数据(如测序序列或X射线晶体衍射得到的三维结构数据等),同时还包含一些数据的基本说明(如来自哪个物种、属于哪种类型数据、所发表的文献出处等)。而二级数据库则是在一级数据库的基础上进行计算加工并增加许多人为注释的信息(如一致性序列计算、BLAST进行相似性比对、为序列添加预测的蛋白质产物及功能注释等)
3. Entrez 的检索途径有哪些? Entrez 可以进行 1. 全局检索:直接在 NCBI 主界面的搜索框中搜索关键词,其搜索后将返回查询结果在每个数据库中的数量,通过点击特定的数据库可定位到关键词在该数据库中的结果,全局搜索属于宽泛检索,其检索精度不高; 2. 特定数据库检索:在搜索框左侧的下拉栏中选择需要查询的数据库,再输入关键词搜索时便可以直接链接到该数据库的结果; 3. 在搜索框中手动输入布尔操作符来限制查询结果,Entrez 使用 AND 表示交集、OR 表示并集、NOT 表示差集,并且使用引号表示短语 4. 使用搜索栏下方的 advance 进行高级检索:利用查询生成器选择列举出特定的域,在不同的域中输入不同的关键词可以进一步的缩小检索范围,提高检索精度。
5. EST、STS、GSS、HTGS、WGS、PAT、TPA、TSA、ENV、SYN等分类(GenBank divisions),相应功能有何不同? 答: - EST:是是从一个随机选择的cDNA 克隆,进行5'端和3'端单一次测序挑选出来获得的短的cDNA部分序列,代表一个完整基因的一小部分,有时候由于cNDA文库的复杂性和测序的随机性,可能用多个EST序列代表一个基因或基因组,称为EST簇。 - STS:序列的某些位置处的生物学功能位点,通常用于描述基因组序列上编码蛋白质功能域或者表达调控元件的区域。是唯一标识在基因组上的,且在基因组上平均分布,可用于物理图谱的构建,特定基因或标记的定位,以及连锁分析和基因克隆等[[6-组学数据组装#^4f56a2|STS物理图谱构建]] ^cd97c7 - GSS:是一类用于对基因组进行大规模随机勘探的DNA序列。
EST序列标签位点的应用有哪些? 1)基因组物理图谱的构建,EST是用于绘制基因组物理图谱最常用的STS(没错,EST和STS是从属关系🤣);2)基因识别,一个物种的全基因组测序完成后,会对基因组中包含的全部基因进行预测,但预测工具并不能完全预测准确,这个时候将预测出来的基因与EST序列进行比对,可以实现对基因识别的验证;3)基因表达谱构建,用来比较不同物种、不同组织、不同器官、不同发育方式以及不同病理生理状态下的基因表达水平差异;4)发现新基因,EST与数据库中序列进行比对,可以发现新基因或该基因家族的新成员;5)电子PCR克隆,将同一基因的冗余EST序列拼接成全长cDNA;6)SNP发现,不同地区获得的冗余EST之间进行比较,可以获得SNP
GSS(Genomic Survey Sequence)、EST(Expressed Sequence Tag)和STS(Sequence Tagged Site)都是不同目的得到的DNA序列片段,主要区别如下:
- 来源不同
- GSS来自整个基因组的随机片段
- EST来自基因表达序列的末端序列
- STS来自基因组的特定位置
- 长度不同
- GSS长度数百到数千个碱基不等
- EST长度一般200-500个碱基
- STS长度一般在200-500个碱基
- 在基因组上的分布
- GSS随机分布
- EST集中在基因编码区域
- STS在整个基因组上均匀分布
- 功能差异
- 大多数GSS不编码蛋白质,主要作为标记
- EST多对应编码区域的一部分
- STS包含的功能未知,但可作为标记
- 用途不同
- GSS主要用于标记绘制图谱
- EST主要用于基因表达谱构建和基因识别,基因组图谱绘制
- STS主要用于标记定位和图谱绘制

6. 如何获取某个物种所有核苷酸序列?EST序列?基因列表?基因组是否测序完成? 答: 1. 核苷酸序列 - 可以在NCBI Nucleotide数据库中搜索该物种的所有核苷酸序列。使用科属名加“[orgn]”进行限定搜索。 - 例如:Escherichia coli[orgn] 2. EST序列 - 可以在NCBI EST数据库中搜索该物种的所有EST。使用科属名加“[orgn] AND EST[Properties]”进行限定搜索。 - 例如:Oryza sativa[orgn] AND EST[Properties] 3. 基因列表 - 可以在NCBI Gene数据库中获得该物种的全部基因列表。使用科属名加“[orgn] AND gene[Properties]”进行限定搜索。 - 例如:Danio rerio[orgn] AND gene[Properties] 4. 基因组测序状态 - 可以在NCBI Genome数据库中查询该物种基因组的最新测序和注释状态。完整基因组通常会组装并注释为染色体。 - 例如小鼠基因组已完整测序;疟原虫基因组已草图阶段测序。
7. RefSeq与GenBank/INSDC序列有何不同? 1. 序列品质控制 - RefSeq序列经过NCBI统一核验,删除 Vector污染序列,统一编号和标注格式。 - GenBank序列来源多样,核验不如RefSeq严格,可能包含向量或其他污染。 2. 序列完整性 - RefSeq序列多为整个基因组或整个基因全长序列。 - GenBank包含许多不完整的ESTs, GSSs等片段序列。 3. 数据注释 - RefSeq对基因结构、功能域等都有详细标准注释。 - GenBank序列注释不完整,依赖提交者的原始注释。 4. 版本管理 - RefSeq的不同版本易于跟踪和区分。 - GenBank不同版本难以区分,可能重复提交。 5. 数据统一性 - RefSeq对同一基因的序列使用唯一accession编号。 - GenBank同一基因序列可能有多个accession。 综上,RefSeq提供了质量更高、注释更完整的序列数据,更适合进行全基因组分析和功能研究。GenBank则序列更全,数据注释参差不齐。
8. 如何检索某单位某人某年在某期刊上发表的文章?如何自动获取文献更新? 1. 进入PubMed数据库网站:https://pubmed.ncbi.nlm.nih.gov/ 2. 在搜索框中组合关键词进行限定检索: - 例如:Singapore[ad] AND Tan L[author] AND 2020[pdat] AND Nucleic Acids Res[journal] 3. 此外,您可以设置RSS订阅或邮件提示以自动跟踪特定条件下的最新文献: - 在高级搜索页面建立预定的搜索查询 - 点击“Create alert”创建提示 - 设置接收提示的方式(RSS订阅或email)和频率 - 每当有新的搜索结果时,您将自动获得通知 4. 另外还可以使用NCBI的My Bibliography功能跟踪您的文献 - 在My NCBI账户里建立bibliography - 随时将您涉及的文章保存到bibliography中 - 设置定期email提醒新添加的文献
9. 生物数据库根据其存储的数据类型可以分为几类? 根据其存储的类型可以分为 5 类,分别是 (1)基因组数据库、(2)核酸序列数据库、(3)蛋白质序列数据库、(4)生物大分子(尤其是蛋白质)的三维空间结构数据库、(5)以及根据生命科学不同领域的实际需要对基因组图谱、核酸和蛋白质序列和结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二级数据库。
会根据文章提供的NCBI、EBI等数据库的数据ID号等信息,下载到基因组和高通量测序数据。 蛋白质数据库哪家强?SWISS-PROT和TrEMBL有何不同?UniRef100、UniRef50是什么意思? Prosite、Pfam、CDD、PDB、KEGG这些数据库是干嘛用的?