近年來,DNA因其高密度、低能耗、長壽命等特性,成為極具潛力的下一代數據存儲介質。然而,DNA在測序過程中易產生替換、插入、缺失等錯誤,嚴重影響數據解碼的準確性與完整性。
近日,南方科技大學蔣興宇團隊在 《ACS Nano》 上發表題為《Integrated Error Correction to Enhance Efficiency of Digital Data Storage Based on DNA Nanostructures》的研究,提出了一種集成糾錯算法IEC,顯著提升了DNA數據存儲的效率和可靠性。

IEC算法三大核心機制
1、 “頭-尾”區域Levenshtein距離聚類
傳統Levenshtein距離計算復雜度高,不適用于海量DNA序列。IEC僅提取序列的頭部和尾部區域進行相似度計算,將復雜度從 O(m2)(m 為全序列長度)降至 O(n2)(n 為頭尾區間長度),聚類速度提升10倍,且對頭尾錯誤具備強容錯能力。

2、基于Sliding Window-Optimized的Hamming距離糾錯
傳統Hamming距離要求序列等長,IEC引入滑動窗口機制,實現對變長序列的插入、缺失、替換錯誤檢測與校正。

3、Score-weighted Majority Voting剔除“噪音序列”
在聚類與糾錯后,IEC采用分數加權的majority voting機制,進一步提升序列選擇的準確性。相比傳統majority voting,缺失序列率降低約2%,覆蓋率和準確率也更高。

實驗驗證:
團隊以醫療影像數據(MRI 圖像,122KB) 為存儲對象,通過 Twist Bioscience 合成 DNA oligo pool,經多輪PCR 擴增(模擬長期使用中的序列退化),全面驗證IEC的實用性。
1、研究中使用的DNA oligo pool通過杭州沃森生物訂購,包含4468條DNA序列,每條長度200 nt,結構如下:
2、合成后的DNA經過多輪連續PCR擴增,模擬多次讀取中錯誤的累積效應。
擴增產物經瓊脂糖凝膠電泳驗證后,在Illumina平臺上進行150 bp雙端測序。發現IEC處理后前4輪均能成功解碼,5輪后仍能保持80%以上,序列效率也顯著提高,待解碼序列數畢傳統DNA Fountain方法減少0.5%-29.89%,數據量縮小3個數量級。

IEC算法通過三重糾錯機制協同工作,在不依賴高冗余編碼的前提下,實現了對DNA存儲中常見錯誤的高效校正。其低冗余、高密度、強糾錯的特性,適用于醫療數據、個性化醫療、大數據存儲等場景。
代碼已開源:
https://github.com/lasso-sustech/IEC_Codes/tree/reponse
參考文獻:
Mao, C. et al. ACS Nano 2025. DOI: 10.1021/acsnano.5c08183