存力及算力一直以来是微电子及集成电路的焦点营业。此中,跟着年夜数据时代的到来,全世界数据大水对于数据存储技能提出了严重挑战。DNA具备极高的信息存储密度,每一克DNA可存储数百艾字节的数据,并能于适量前提下生存千年,远超现有电子存储介质的能力,国际上由微软、西部数据等巨头已经成立DNA数据存储同盟。然而,传统的DNA读取效率低下,往往需要数天时间,难以实实际时读取。纳米孔测序技能可以或许以单份子方式读取DNA的信息,经由过程记载电流变化及时解析碱基序列,显著缩短了读取时间,满意了快速数据存储的需求。纳米孔测序虽具备便携性及及时性,但其高插入-缺掉(indel)过错率成为数据存储中的重要挑战。是以,怎样经由过程编码及解码算法,按捺纳米孔测序中固有的高插入-缺掉过错率,具备主要现实意义。
近日,南边科技年夜学深港微电子学院李毅课题组于DNA存储中的编解码范畴取患上新进展,于国际学术期刊Nature Co妹妹unications上发表题为“Composite Hedges Nanopores codec system for rapid and portable DNA data readout with high INDEL-Correction”的研究论文。

基在上述配景,李毅课题组提出了一种面向纳米孔测序的新型编解码器Composite Hedges Nanopores (CHN)。该编解码器显著加强了体系的过错改正能力,可以或许于高过错率情况下有用恢复数据。本方案使纳米孔测序可以更为便捷的合用在信息存储,还有为于极度情况中实现便携、高效的数据读取提供了可能性。是以,本编解码器研究为迎接将来信息存储及数据安全范畴带来了新的契机。

图 1用在高插入/缺掉过错校订的复合对于冲纳米孔 (CHN) 编解码器架构。
图1展示了CHN编码方案的完备流程图和其于纳米孔编码体系中的机能体现。该编码流程经由过程利用简并碱基、嵌入锚点序列及约束筛选等要领,晋升了DNA存储体系对于插入-缺掉过错的容忍度,有用降低了数据丢掉危害。此外,经由过程与其他编码计谋的比力,揭示了CHN方案于容忍度及数据恢复率上的显著上风,注解其于高偏差情况下的鲁棒性。

图 2DNA数据恢复率与过错率模仿阐发
图2深切切磋了于差别插入-缺掉及替代过错率下的二进制数据恢复率。CHN编码体系于高达16%的插入-缺掉率下仍能维持100%的数据恢复。

图 3基在CHN编码的文本数据读取
图3出现了基在CHN编码方案的体外文本数据恢复试验成果。试验显示,编码为7个复合链的文本文件于20分钟内实现了完备恢复。这一数据恢复时间的显著缩短,为加快DNA数据存储技能的现实运用提供了可能。此外,图3还有经由过程纳米孔读数的有用漫衍,验证了CHN编码的高效性。

图 4基在CHN编码的图象文件恢复和机能阐发
图4展示了一个别外图象文件的CHN编码试验成果。该图象文件于120分钟内乐成恢复,显示了CHN方案于更年夜数据文件上的强盛恢复能力。该试验注解,只管图象文件的恢复时间比文本文件稍长,但CHN体系依然于较低的笼罩度下体现出优良的数据完备性,为更年夜范围数据的DNA存储摸索了新路径。
南边科技年夜学为论文第一单元,配合第一作者赵旭阳及李骏垚是本院2022级及2021级硕士研究生,今朝均已经完成学业并于课题组内攻读博士学位。南边科技年夜学李毅研究员、浙江工业年夜学潘清传授为论文配合通信作者。本研究事情获得了国度重点研发规划生物与信息交融(“BT+IT”交融)专项青年科学家项目、国度天然科学基金、广东省结合基金、深圳市天然科学基金不变撑持项目等,以和浙江省及南边科技年夜学科学与工程计较中央的撑持。
论文信息:
Zhao, X., Li, J., Fan, Q.et al.Composite Hedges Nanopores codec system for rapid and portable DNA data readout with high INDEL-Correction.Nat Co妹妹un15, 9395 (2024). https://doi.org/10.1038/s41467-024-53455-3
-米兰milan