DNASTAR中文网站 > 热门推荐 > DNASTAR从头转录组分析工作流程
DNASTAR从头转录组分析工作流程
发布时间:2024/10/11 15:09:04

什么是转录组?

 

生物体中大多数基因的功能仍不为人所知。例如,人类 DNA 包含超过 20,000 个基因,但其中只有 10% 得到了详细研究。虽然生物体的每个细胞都包含相同的基因,但只有这些基因中的一小部分在特定细胞中被激活或“表达”。

当前正在表达的基因不断被转录(复制)成 mRNA 片段。这些“转录本”(副本)会传送到细胞的核糖体,在那里它们会作为制造蛋白质的指令。组织或细胞类型中所有转录本的集合称为“转录组”。

 

转录组分析是了解特定组织或细胞类型中基因功能的一种方式。通过分析实验组织样本中的转录组,我们可以确定其“基因表达”,包括在收集组织样本时产生了哪些蛋白质。随着我们对不同转录组的了解越来越全面,我们正在了解组织细胞的正常功能以及转录组的变化如何反映或促成疾病。此外,关于基因表达的知识为了解不同基因的功能提供了重要线索。

 

组装转录组读取数据的两种主要方法是什么?

 

在实验室准备样本测序的过程中,核苷酸链被分解成数千个较短的片段。随后,生物信息学软件用于将这些片段重新组装成尽可能长的链。该软件通过自动查找哪些读数部分重叠并使用该信息将序列片段重新组装成更长的序列(称为“重叠群”)来实现这一点。

 

直到最近,大多数转录组数据都是通过将其与参考基因组进行映射来组装的。这种组装类型称为“模板化”组装,涉及将实验读数和(通常带注释的)参考序列上传到组装软件中。然后将短序列片段与参考序列模板对齐。这种组装类型快速、高效,并创建可以使用参考序列中的信息自动注释的长重叠群。

相比之下,“从头”组装仅利用实验读段;不涉及参考序列。这种组装会产生大量短重叠群,耗时更长,并且需要更大的计算能力。此外,缺乏参考序列通常意味着无法注释从头组装的重叠群。

 

为什么要从头组装读取而不是使用全基因组参考序列作为模板?

 

鉴于从头组装的缺点,为什么不是每个人都选择进行模板组装呢?最常见的原因是许多生物体没有可用的参考序列。

 

但即使有参考序列,模板组装也有几个缺点,可能使得从头组装更受欢迎。

 

  • 转录组覆盖率通常与特定细胞或组织类型中的基因表达水平相关。相比之下,基因组序列覆盖率水平可能会因 DNA 内含子区域中的重复内容而随机变化。
  •  
  • 参考指导的组装不能解释 mRNA 转录物的可变剪接和其他类型的结构改变。
  •  
  • 未沿基因组连续排列的剪接变体可能会被错误地视为蛋白质异构体。
  •  
  • 如果参考基因组不完整,则可能只能部分恢复使用从头组装发现的转录本。
  •  

本电子书的第二部分将讨论一种软件解决方案,该解决方案消除了从头组装的许多缺点,并允许对模型和非模型生物的重叠群进行注释。

 

从头转录组组装和分析涉及哪些步骤?

 

根据您的项目、目标和您使用的应用程序,从头转录组组装和分析项目可能需要不同数量的步骤。在这本电子书中,我们根据您通常需要从一种工具切换到另一种工具以继续推进流程的时间,将工作流程的生物信息学部分分为四个步骤。

 

如果您使用的是开源解决方案,则可能涉及此处未讨论的其他步骤。相反,如果您使用的是某些商业软件,则单个流程中可能会发生多个步骤。无论您采用哪种方式,重要的是预先规划您的软件流程,甚至在将样本送去测序之前。

准备步骤:准备样本并获取 RNA-Seq 数据

 

当您从目标生物体的组织中提取和纯化 mRNA 时,工作流程就开始在您的实验室中开始了。

 

随后,样本将在公司内部进行测序或送至测序机构。测序会逆转录 mRNA 并创建互补 DNA (cDNA) 文库,然后将其分割成较短的片段。此工作流程最常见的测序技术是 Illumina MiSeq 和 HiSeq 配对读取,数据通常以 FASTQ 文件格式提供。

 

在获取用于从头转录组工作流程的读取时,您应该尽可能获取最长的读取。您可能想从头组装 5 亿个 2x76bp 读取的 Illumina RNA-Seq 数据集。然而,与使用较长读取的组装运行相比,这些组装的转录本将被截断(更短)。

 

虽然 50-100bp 的配对 Illumina 读段非常适合模板化 RNA 测序分析,但当使用长度为 150bp 或更长的配对 Illumina 读段时,从头转录组组装会得到极大改善(图 1和表 1中的黄色行)。

图 1 .使用五种不同的 Illumina 配对读长对十五种不同生物体进行从头转录组组装时获得的重叠群长度。

 

长度超过 150bp 的 Illumina 读段通常会产生更长的组装转录本,最长可达全长。同时,长度少于 150bp 的读段可能只产生长度只有 mRNA 一半的转录本。太短的读段组装会产生许多部分转录本。

接下来,将使用组装软件将 cDNA 序列读段组装成转录本。在某些情况下,组装软件还可以在组装前移除载体和接头序列,并在组装过程中注释转录本。在其他情况下,您必须使用不同的软件应用程序来执行这些操作。以下步骤顺序是使用开源软件时遵循的典型顺序。

 

软件步骤 1:查找并移除污染物、载体和适配器

 

转录组测序数据通常含有污染物和未修剪的衔接子(又称“接头”或“载体”),这些会严重损害从头组装。例如,我们从美国国家生物技术信息中心 (NCBI)短读档案下载的转录组数据集中有一半以上含有我们认为不可接受的高水平“Illumina 通用衔接子”。

 

在组装之前,您可以使用 FASTQC (免费下载 Babraham Institute)扫描 .fastq 输入数据文件以查找接头的存在。如果您的文件包含接头序列,请寻找可以在组装前自动将其移除的组装软件(图 2)。移除接头序列后,数据集可以在很短的时间内组装,并且组装的 mRNA 转录本更长、更完整。

图 2 . SeqMan NGen组装软件提供了一个复选框来删除通用适配器,或者删除用户指定的载体和适配器。

 

软件步骤 2:整理成绩单

 

无论您使用哪种组装软件,它都会提示您上传 cDNA 读数,通常为 FASTQ 格式。有些软件允许您优化组装设置。要开始组装,您通常只需单击一个按钮。根据您的数据集、计算机硬件和您使用的组装软件,从头转录组组装可能需要一小时到一周的时间才能完成。

 

在桌面计算机上组装大型转录组数据集通常至少需要几天的时间,因此这些数据集通常在计算机集群上组装。

为什么我不能用我的 RNA-Seq 数据进行全基因组组装?

 

为什么不直接用您的数据进行全基因组组装呢?我们建议遵循转录组特定的工作流程,主要原因至少有三个。

 

首先,全基因组组装的高序列覆盖率可能是重复序列的结果,这些序列在组装过程中可能被隐藏。然而,在分析转录组数据时,高序列覆盖率更有可能表明丰度,这一点很重要。

 

其次,RNA-Seq 可以是链特异性的,因为可能同时存在正义和反义转录本。相比之下,基因组测序总是使用双链。最后,来自同一基因的转录本变体很难通过全基因组组装来解析,因为它们可以共享外显子。

 

软件步骤 3:注释成绩单

 

如果您使用典型的组装软件,尤其是开源软件, RNA-Seq 数据的从头组装可能会导致数千个代表表达的转录本的未标记的重叠群。

 

组装转录本的功能注释提供了有关特定蛋白质的生物过程和分子功能的信息。一些软件可以将组装转录本的功能注释作为组装过程的一部分。如果没有,则转录本注释将在组装完成后进行。

 

基于 BLAST 的注释方法可能极其耗时且难以管理。这些解决方案之一是基于订阅的 Blast2GO (B2G),它挖掘基因本体网站数据。另一个是 GOanna,这是一个开源的、以农业为中心的解决方案,是 AgBase 数据库的一部分。使用这些方法注释包含数千个查询序列的数据集可能需要数天时间。

 

软件步骤 4:分析成绩单

 

组装完成后,结果通常会显示在表格中。如果组装软件提供了自动注释选项,转录本可能会被分类为“已识别”和“新颖”类别。新颖类别包括所有与组装应用程序中所选注释数据库中的项目不匹配的转录本。某些软件可能允许您使用过滤或排序功能对转录本进行排序,并导出一组选定的转录本。

 

更常见的情况是,表格将仅显示代表表达的转录本的数千个重叠群,没有任何背景或标签。在这种情况下,有时可以使用额外的注释选项(如 DNA 与蛋白质数据库匹配)来识别新的转录本。

 

这个工作流程中常见的挑战是什么?

 

非模型生物的全转录组测序数据的从头组装带来了一些独特的挑战,首先是测序数据本身。

 

典型的从头转录组组装中的读取数量非常庞大,最多可包含 5亿个读取。短 Illumina 读取、未修剪的 Illumina 衔接子(接头)序列、核糖体 RNA 和/或基因组重复序列的存在通常会导致组装失败或质量较差。大型转录组数据集通常需要具有比大多数台式计算机更多的 RAM 和 CPU 能力的计算机。

 

寻找可行的软件管道带来了另一个问题,特别是当您仅限于开源解决方案时。

为了从 contig 组装中生成完整且带注释的 mRNA 集,您可能需要掌握多种组装和注释应用程序。例如,典型序列组装程序的输出可能包含数千个未注释的 contig,必须使用其他软件工具进行识别和注释。

 

尽管从头转录组组装具有挑战性,但这些问题可以通过仔细的思考和准备来解决。

 

 

 

 

读者也访问过这里:
135 2431 0251