题目：CGM 第199期: 长读长测序组装单倍型基因组方法的开发
时间：欧洲中部时间 2021年12月09日（星期四）08 PM（美国中部时间 12 月 9 号 01PM，北京时间 12 月 10 号 03AM）
主讲人：罗宵, 华中科技大学本科, 中国科学院大学硕士, 荷兰国家数学与计算机科学研究中心 & 德国比勒费尔德大学博士

中文摘要

生物的遗传与变异使得同一物种的基因组通常有着丰富的多样性。例如，二倍体高等生物含有两个基因组拷贝，其中一个单倍型来自父本，另一个来自母本；病毒在宿主体内发生变异，可能产生新的亚种(毒株)。构建单倍型(haplotype)或者株(strain)水平的基因组序列称为单倍型水平基因组组装，其在基因组学、精准医学、病毒防控等许多领域有着重要的作用。

二代测序由于其较短的读长，因而在单倍型水平基因组组装方面存在不足。近年来随着三代测序(如PacBio, Nanopore)的快速发展，其测序准确度大幅提高(错误率5%~15%, 尤其 PacBio HiFi <1%)，成本也进一步降低。由于其长读长的天然优势被广泛应用于基因组组装，使得单倍型水平基因组组装成为可能。现有的基因组序列组装方法主要包括两类：第一类是从头组装(de novo assembly), 这类方法通常不依赖于参考基因组，一般不考虑单倍型之间的差异，直接组装出共同序列(consensus)，但损失了一部分单倍型信息; 第二类方法基于参考基因组(reference based)构建单倍型, 通常会引入参考基因组偏差(reference bias)，且依赖于高质量的参考基因组。

为弥补现有研究的不足，我们开发了适用于三代测序数据的单倍型水平基因组从头组装方法：phasebook 用于二倍体的基因组组装，Strainline 用于病毒的基因组组装。在模拟和真实数据上测试结果表明，与现有方法相比，我们的方法在单倍型完整性(haplotype completeness)，错误率(error rate)等指标上表现出明显的优势。

参考文献

1.Luo, X., Kang, X. & Schönhuth, A. phasebook: haplotype-aware de novo assembly of diploid genomes from long reads. Genome Biol 22, 299 (2021).

2.Luo, X., Kang, X. & Schönhuth, A. Strainline: full-length de novo viral haplotype reconstruction from noisy long reads. bioRxiv (2021).

CGM 第199期: 长读长测序组装单倍型基因组方法的开发

中文摘要

参考文献

YouTube

Bilibili