第一章 绪论

第一单元测试

1、以下哪项不属于生物信息数据:
    A、DNA
    B、RNA
    C、蛋白质
    D、水
    E、水

2、组学就是在实体名词后加上如下哪个后缀?
    A、OMICS
    B、OMECS
    C、ATICS
    D、AMICS

3、以下关于GenBank数据格式的描述,错误的是:
    A、GenBank格式的记录中,包含了众多相关数据库的超链接
    B、GenBank格式的记录最后通常都是以双斜杠代表序列信息的终止
    C、GenBank格式的记录首行以”>“开始
    D、GenBank格式的记录提供序列的文献信息,其文献数据库为PUBMED

4、中心法则”central dogma“不包括以下哪个过程?
    A、DNA的自我复制
    B、DNA转录成RNA
    C、RNA翻译成蛋白质
    D、蛋白质构象的改变

5、FASTA 格式的生物数据中,”>“符号意味着:
    A、本条序列的开始
    B、上条序列的结束
    C、本条序列的结束
    D、上条序列的开始

6、生物信息技术可以在以下哪些方面发挥重要的作用?
    A、设计流感疫苗
    B、分析人体不同部位中微生物群落的差异
    C、寻找祖先的发源地
    D、判断一个基因是否表达

7、系统生物学主要整合了哪几个方面的研究?
    A、基因组学
    B、代谢组学
    C、蛋白组学
    D、宏基因组学

8、Fasta格式的数据比Genbank格式的数据更加详细。

9、序列访问号是唯一且不变的,版本号会随着版本更新而攀升。

10、记录生物信息的GenBank格式是欧洲分子生物学实验室EMBL默认使用的数据记录格式

11、转录组学技术是研究微生物群落结构的主要技术

12、蛋白组学指的是对一个生物体中的全部重要蛋白质进行研究的科学

专题,DNA测序

DNA测序专题测试

1、SMRT测序属于
    A、物理测序法
    B、电子测序法
    C、检测化学信号的测序方法
    D、化学测序法
    E、pH值测序法
    F、检测荧光信号的测序方法

2、Illumina测序是基于
    A、合成反应的测序技术
    B、荧光信号检测的测序技术
    C、连接反应的测序技术
    D、物理反应的测序技术
    E、电信号检测的测序技术
    F、声音信号检测的测序技术

3、以下哪种测序方法的测序通量最高?
    A、Sanger
    B、SOLidD
    C、Illumina
    D、454

4、下列新一代测序技术那一种的测序读长最长?
    A、Illumina
    B、SOLiD
    C、ONT
    D、454

5、典型的新一代化学测序流程通常包括以下哪些步骤?
    A、DNA提取
    B、蛋白质纯化
    C、DNA片段化
    D、文库PCR富集
    E、基因克隆建库
    F、适配器连接
    G、DNA片段长度筛选
    H、样品脱水

第二章 生物数据检索

第二单元测验

1、以下哪个不是一级核酸数据库
    A、NCBI
    B、EMBL
    C、DDBJ
    D、EST

2、2019年之前NCBI官网上把GenBank分为三个核心子数据库,其中不包括
    A、PDB
    B、Nucleotide
    C、EST
    D、GSS

3、三大核酸数据库的数据 ( ) 相互交换、更新汇总,这使得他们几乎在任何时候都享有相同的数据
    A、每小时
    B、每天
    C、每周
    D、每个月

4、以下哪个不是UniProt的子数据库
    A、UniProtKB
    B、UniParc
    C、UniRef
    D、UniForm

5、以下哪个不是UniRef的子数据库
    A、UniRef100
    B、UniRef90
    C、UniRef60
    D、UniRef50

6、以下哪个是基因组数据库
    A、UniProt
    B、Ensembl
    C、Genome Data Viewer
    D、UCSC Genome Browser

7、GenBank数据库中的信息经过清理、合并、注释、审核,得到的二级数据库有
    A、TPA
    B、PDB
    C、UniProt
    D、RefSeq

8、生物数据基本上分为以下哪几类
    A、DNA数据
    B、RNA数据
    C、蛋白质数据
    D、多糖数据

9、以下关于PDB的说法,错误的是
    A、PDB提供了在线可视化工具
    B、PDB是全世界唯一存储生物大分子3D结构的数据库
    C、PDB库中收录的结构既有实验测得的,也有计算机预测的
    D、PDB并不提供蛋白质的序列信息

10、UniProt的数据库资源主要来自于
    A、Swiss-Prot
    B、TrEMBL
    C、PIR
    D、NCBI

11、从一条核酸序列的访问号上并不能区分出它来自RefSeq数据库还是GenBank数据库。

12、UniProt的数据中,经过专家人工注释并且人工校验的序列来自于TrEMBL,由计算机自动注释、没有经过人工校验的来自于Swiss-Prot。

13、Uniref100就是把UniProtKB数据库中100%相同序列合并成一条序列,给一个唯一的UniRef编号。

第三章 序列比对

第三单元测验

1、假设你发现两条需要比对的序列为近源相关的蛋白质序列,为了获得更好的比对结果,最好使用以下哪对矩阵:
    A、BLOSUM90或PAM1
    B、BLOSUM62或PAM1
    C、BLOSUM90或PAM250
    D、BLOSUM62或PAM250

2、以下关于PAM矩阵的描述错误的是
    A、PAM250是PAM1矩阵自乘250次后构建的矩阵
    B、PAM是基于远源相关的蛋白所构建的可接受点突变矩阵
    C、PAM250矩阵比PAM1矩阵更适合远源相关的序列比对
    D、PAM1的生物学意义是,每100个残基中有1个可接受单点突变

3、以下关于BLOSUM矩阵的描述错误的是:
    A、BLOSUM矩阵中,两个氨基酸残基对的分值越大,表示这两个残基发生相互突变的概率越低
    B、BLOSUM矩阵是基于远源相关的蛋白所构建的块替换矩阵
    C、BLOSUM45是指:将一致度大于等于45%的蛋白质序列合并,并以此为基础构建所得的矩阵
    D、目前业内普遍认为BLOSUM矩阵的准确性比PAM矩阵高

4、以下因素哪些对序列比对结果会产生重大影响:
    A、空位罚分
    B、打分矩阵
    C、比对算法
    D、计算机内存

5、马蹄和驴蹄是相似的,但不是同源的。

6、在真正的序列中是没有空位的,所以空位没有生物学意义

7、点阵法可以找到序列中相同的片段和相似的片段。

8、在PAM250矩阵中,每100个残基中可能发生了250次可接受单点突变,因此有些位点上的残基可能都经过了多次改变,甚至可能变回到原先的氨基酸。

9、动态规划算法将复杂的问题拆解成一个个的子问题来解决,我们按顺序依次解决每一个子问题,前后子问题相互独立。

10、全局比对算法的结果不一定会考虑两条序列中的所有位点。

11、空位代表了序列中相应位点上出现了氨基酸残基或者核酸碱基的( )或( )。(两个答案之间请用短横线“-”隔开)

12、在动态规划算法中,Needleman-Wunsch是( )序列比对算法的代表,而Smith-Waterman是( )序列比对算法的典型。(两个答案之间请用短横线“-”隔开)

第三章 序列比对(第二部分)

第四单元测验

1、局部比对算法把所有的负分调整为(),打分矩阵回溯时,从()开始,到最小正得分停止,这样就找到了全长中局部匹配的片段。
    A、1分,最大分
    B、1分,最末端
    C、0分,最大分
    D、0分,最末端

2、多序列比对运用(),单序列与数据库比对常运用()。
    A、全局比对,全局比对
    B、局部比对,局部比对
    C、局部比对,全局比对
    D、全局比对,局部比对

3、现得到一份之前未发现的蛋白质序列,为了验证其对应的编码区(CDS),应该使用blast中的哪一项服务:
    A、Blastp
    B、Blastx
    C、Tblastn
    D、Tblastx

4、关于启发式算法,错误的是
    A、启发式算法更适合海量数据的对比。
    B、启发式是指以小片段为单位,根据打分矩阵找到相似片段,再进行比对的方法。
    C、启发式算法除受到打分矩阵影响,和片段长度也有关。
    D、启发式算法增加了匹配速度,提高了匹配精度。

5、Blast比对结果中的S值代表了比对相似度得分,E值代表了从数据库中随机抽取一条序列,其得分高于S值的概率,因此S越(),E值越()说明比对结果越好。
    A、大,小
    B、大,大
    C、小,小
    D、小,大

6、运用动态规划算法计算比对打分矩阵,计算完成之后的对角箭头回溯代表一次(),横竖箭头回溯代表一次()。
    A、残基之间比对,残基与空白比对
    B、残基与空白比对,残基之间比对
    C、残基之间比对,残基之间比对
    D、残基与空白比对,残基与空白比对

7、MEGA软件内置比对软件是以下哪些()
    A、Clustal
    B、Muscle
    C、MAFFT
    D、T-Coffee

8、为了准确快速发现序列中的简单重复序列(SSR),我们应该使用()并()。
    A、全局比对算法
    B、局部比对算法
    C、提高空位与延伸罚分
    D、降低空位与延伸罚分

9、找到一类物种中的高度保守片段可以用多序列比对

10、多序列比对特别适合相似程度很小的序列进行比对。

11、蛋白质序列相较于同长度的核酸序列比对时间更()。

12、局部比对的速度比全局比对(),应用场景更多,主流比对软件多基于()比对算法。答案用&隔开。

第四章 系统发生树

第五单元测验

1、以下关于进化的说法错误的是:
    A、在一定程度上,表观上的相似度可以佐证基因的同源度。
    B、基因同源程度的鉴定依赖祖先DNA的样本,考古上的某个重要发现可能会对鉴定结果产生深远影响。
    C、人类基因图鉴计划的祖先报告结果由各祖先相似度占比构成。
    D、拥有极为相似祖先构成的人一定生活在同一环境下。

2、关于系统发生树,错误的是:
    A、系统发生树表现了不同物种间进化关系的距离关系。
    B、系统发生树的根代表了共同的祖先。
    C、无根系统发生树的距离也代表了亲缘关系的远近。
    D、系统发生树的每一个节点都是一个已发现的真实物种。

3、用blast构建不同物种间的同源基因进化关系,说法错误的是:
    A、“>”是机器识别序列开始的符号。
    B、需要设置查询序列和目标序列。
    C、将查询序列和目标序列中的一条对换,结果会完全改变。
    D、某段同源基因的同源程度一定程度上反应了物种的进化关系。

4、关于UPGMA算法说法错误的是:
    A、计算速度较快。
    B、不考虑不同物种间的进化速率。
    C、产生的是一颗有根树。
    D、聚类结果比邻接法更加准确。

5、关于邻接法算法说法错误的是:
    A、产生的是一颗有根树。
    B、大多数时候需要选择一个外类群。
    C、外类群的选择不应该太近,也不应该太远。
    D、关注的是每次聚类产生的节点,而非类群。

6、运用DNA分子进化技术,以下说法正确的是:
    A、DNA分子进化技术可以定量描述差异大小。
    B、分子进化关系越近的个体其表观一定越接近。
    C、海豚比兔子的智商高,所以相对来说和人的基因更接近。
    D、利用表观来衡量进化关系是简单粗暴的,所以对于分子进化结果分析没有意义。

7、采用自展法对系统发生树进行评估时,说法错误的是
    A、自展次数为500次时,会产生500棵新的树。
    B、自展值为99时,说明99%都出现了这个分支,置信度很高。
    C、自展法每次会随机选取序列中某几个位点,重新建树。
    D、和统计学中经典算法的一样,每一个分支的置信度都在95%以上的树才有意义。

8、分子进化理论需满足以下哪些假设:
    A、DNA、RNA或者蛋白质序列包含了物种所有的进化信息。
    B、DNA或者蛋白质序列在进化过程中以大致固定的速率发生替换。
    C、如果群体数量够大,且基因交流没有阻碍,则其中的大多数基因都会得到保留。
    D、基因的同义突变对分析结果无影响。

9、关于最大似然法,说法正确的是
    A、最大似然法准确率高,速度慢。
    B、最大似然法是一种基于概率模型的方法。
    C、最终概率值(似然值)是各个子概率连乘的结果。
    D、序列里的每一个替换都会被考虑。

10、采用mega构建系统发生树时,下列说法正确的是:
    A、可以自行设定算法,展现方式,以及评估方法。
    B、用两种以上的算法建树结果相同时说明有较高的可信度。
    C、当用不同方法建树总有几个分支自展检测值很低时,我们应选择重点关注的位点置信度较高的树作为结果。
    D、系统发生树的构建基于多序列比对的结果。

11、最大简约法的精髓就是找到最小碱基变化的系统发生树。

12、当对系统发生树的精确度有较高要求时,我们应该选择最大()。

第五章 蛋白质功能和结构预测

第六单元测验

1、关于蛋白质组的说法,错误的是:
    A、对蛋白质组的研究基于中心法则。
    B、凝胶电泳可以用于分离蛋白质,质谱技术可以识别蛋白质。
    C、基因组相对稳定,蛋白质组变化较大。
    D、蛋白质的序列和修饰决定了其功能,空间结构几乎不产生影响。

2、关于GO(Gene ontology),下列说法错误的是:
    A、GO的关系图没有环状结构。
    B、GO的语言是标准化的,方便统一理解。
    C、GO包括分子功能、细胞组分和生物过程。
    D、GO的关系图有双向箭头。

3、下列关于家族蛋白质说法错误的是:
    A、同一个家族的蛋白质拥有相同或相似的功能。
    B、同一个家族的蛋白质常常是同源的。
    C、可以通过对蛋白质的功能预测将其划分为某个家族。
    D、同一个家族的蛋白质一定来自于某一个种属的生物。

4、关于InterPro数据库说法错误的是:
    A、InterPro整合了多个主流的蛋白质二级数据库。
    B、InterPro可以通过直接输入序列,上传序列文件和输入关键词多种手段进行搜索。
    C、InterPro可以查看具体在哪个数据库中出现了几条相似序列。
    D、InterPro是闭源收费的数据库。

5、关于蛋白质序列分析说法错误的是:
    A、氨基酸组成、等电点、疏水性等等都是可以通过序列计算得到的。
    B、ExPASy整合了多个蛋白质序列分析的工具。
    C、ProtScale可以计算每一个氨基酸亲疏水性。
    D、对具体功能进行预测时,蛋白质序列分析几乎起不到作用。

6、关于蛋白质信号说法正确的是:
    A、蛋白质信号是指序列中相对独立的单元,如功能位点,保守残基等。
    B、通过多序列比对和库序列比对,可以筛选出成熟的信号单元。
    C、蛋白质信号序列通常是一个蛋白质家族的保守序列。
    D、蛋白质信号数据库是一级数据库。

7、关于蛋白质二级结构说法正确的是:
    A、蛋白质二级结构通常指α螺旋、β折叠、β转角和无规则卷曲。
    B、可以通过原子间的相互作用力推测二级结构。
    C、通过已知蛋白质为模板可以推测未知蛋白质的二级结构。
    D、各个二级结构预测工具结果展示方法是基本一致的。

8、下图是TMHMM跨膜结构预测结果,说法正确的是:
    A、该蛋白前半段位于细胞内部。
    B、该蛋白大概率不是跨膜蛋白。
    C、该蛋白质大概有300个左右氨基酸。
    D、该蛋白质大部分区域位于细胞外部。

9、关于蛋白质三级结构,说法正确的是:
    A、同源建模,折叠识别,从头计算是常用的蛋白质三级结构预测方法。
    B、SWISS-MODEL工具中的GMQE值越高,说明模板可靠度越高。
    C、SWISS-MODEL工具呈现的结果中,序列和3D图像是对应且可交互式的。
    D、Phyre2工具的建模结果会发送邮箱,并附上简要说明。

10、关于蛋白质可视化软件SWISS-PDB VIEWER,说法正确的是:
    A、可以手动选择显示或者屏蔽二级结构和标签。
    B、可以测量数个残基之间的角度和距离。
    C、可以根据列表的标识找到某段特定的α螺旋或者β折叠并调整其位置。
    D、可以通过多种文件格式打开如PDB格式、FASTA格式、TXT格式和XLSX格式。

11、如图,白色部分为一个α螺旋。

12、Gene ontology 是指基因()。

第六章 微生物群落分析

第七单元测验

1、关于扩增子测序,说法错误的是:
    A、先要把目标片段扩增出来,再进行测序。
    B、16SrDNA针对细菌,18SrDNA和ITS序列针对真菌。
    C、测序的区域是高度保守区。
    D、扩增子序列都位于核糖体DNA中。

2、关于宏基因组,说法错误的是:
    A、采用鸟枪法而不是特定扩增引物。
    B、经拼接组装后获得的是基因的全长片段。
    C、宏基因组测序比扩增子测序鉴定分辨率更高。
    D、目前,和扩增子测序相比价格差不多,只是步骤繁琐。

3、关于OTU,说法错误的是:
    A、OTU的中文翻译是可操作分类单元。
    B、OTU是设定一个阈值之后归并的一类序列。
    C、97%是目前比较常用的阈值。
    D、OTU真实反映了一个实际物种。

4、关于测序质量评估,说法错误的是:
    A、稀疏性曲线越平滑,说明测序深度越足够。
    B、通过物种累积曲线可以判断样本是否已经足够大。
    C、高质量序列需要占总数的一定比例以上才被认为结果可靠。
    D、OTU的阈值不会影响对测序质量的判断。

5、关于物种组成分析,说法错误的是:
    A、扩增子测序大部分可以鉴定到种,少部分可以鉴定到菌株。
    B、相比于excel,R语言可视化功能更加强大。
    C、韦恩图可以显示数个样品之间共有和独有的OTU。
    D、热图适合较大样本的矩阵型数据可视化。

6、以下是R语言pheatmap包导出的热图,反映了数个样本之间某指标的相关性,说法错误的是:
    A、关于辅对角线对称。
    B、根据各个样本之间的相关性系数相似程度进行了聚类。
    C、方块颜色越红,代表相关系数越大。
    D、方块颜色越白,代表相关系数越小。

7、关于微生物群落alpha多样性指数,说法错误的是:
    A、Chao1指数和ACE指数越大,代表群落丰度越大。
    B、Shannon指数和Simpson指数除了表示丰富度,还表达了群落的均匀度。
    C、Simpson指数根据规定的不同,会呈现相反的规律。
    D、当样本Chao1指数较高时,Shannon指数一定较高。

8、关于beta多样性,说法错误的是:
    A、Beta多样性反映了样本与样本之间的差异。
    B、通常情况下,beta多样性需要降维处理。
    C、降维之后的数据不会损失信息。
    D、不同算法生成的结果会有差异。

9、微生物存在于下列哪些环境中:
    A、酿造或发酵食品
    B、污水处理厂
    C、生物燃料生产过程中
    D、胎儿发育的子宫中

10、微生物的多样性包括哪几个方面:
    A、遗传多样性
    B、物种多样性
    C、生理多样性
    D、生态多样性

11、关于稀疏性曲线和丰度等级曲线说法正确的是:
    A、丰度等级曲线一定是一条递减的曲线。
    B、丰度等级曲线越平滑说明丰度大且较均匀。
    C、稀疏性曲线变平滑时说明测序深度足够。
    D、丰度等级曲线是根据实际数据绘制,稀疏型曲线是抽样绘制,有一定随机性。

12、关于PCA,PCoA,NMDS算法说法正确的是:
    A、散点图的距离都反映了样品之间的相似度大小。
    B、PCA算法是根据数值的欧式距离计算的。
    C、PCoA和NMDS算法可以根据发育树亲疏远近计算距离。
    D、NMDS算法将样本的关系进行排序,而不关注具体数值。