대량의 데이터를 DNA에 보존하는 방법
- 기술 / 문광주 기자 / 2020-09-14 08:54:35
100MB 데이터 하나의 피코그램(10^−12 gram)에 들어간다.
DNA조각 규산염 캡슐에 넣어 수 천년간 보관 가능.
2MB 합성에 약 7천 달러(2018년). 10년 후 DNA 저장기술 친숙해질 것.
TV 시리즈를 DNA에 저장
인터뷰 : 대량의 데이터를 게놈 분자에 보존하는 방법
데이터 저장소로서의 유전 물질 :
연구원들은 유전 물질 DNA에 더 많은 양의 데이터를 저장하는 방법을 개발했다.
100MB의 데이터가 단 하나의 DNA 피코그램에 들어간다. DNA 조각을 규산염 캡슐에 넣음으로써 이러한 데이터는 컴퓨터 메모리보다 훨씬 긴 수천 년 동안 보관될 수 있다.
![]() |
▲ 데이터는 컴퓨터 메모리보다 훨씬 긴 수천 년 동안 보관될 수 있다. |
우리 문명은 사진, 비디오 또는 텍스트에서 소셜 미디어 게시물에 이르기까지 방대한 양의 디지털 데이터를 생성한다. 그러나 하드 드라이브 및 기타 데이터 저장 장치는 기껏해야 수십 년 동안 지속된다. 오래된 LP판, 테이프 레코더 머지않아 CD도 재생해서 내용물을 확인하려면 용산 전자상가를 찾아가야 할 것이다. 이 모든 것이 순식간에 진행되고 있다.
연구자들은 이미 후손을 위해 데이터를 더 영구적으로 보존할 방법을 찾고 있다.
이본 안왈로프(Yvonne Anwaloff, AI 컨설팅&바이오컴퓨터)는 "생물학에서 예시된 효율적인 데이터 스토리지 유형을 사용하는 것이 합리적일 것이다"고 말했다.
DNA를 저장 매체로 사용하는 아이디어다. DNA는 하드 드라이브를 대체해야한다고 주장한다. 스토리지 문제에 대한 매력적인 솔루션이다.
이 방법을 사용하면 인터넷의 모든 정보를 DNA에 저장할 수 있으며 단지 신발 상자 크기만 필요하다. 전 세계의 모든 정보와 데이터에 대해 표준 생활 공간만 필요한다.
DNA의 장점은 매우 컴팩트 할뿐만 아니라 차갑게 보관하면 수세기 동안 지속된다는 것이다. DNA를 생성하고 정보를 재구성 (시퀀싱)하는 데 걸리는 시간은 이제 새로운 기술로 단시간에 가능하다.
안와로프는 "정보가 DNA로 저장 되었다면 As, Ts, Cs 및 Gs (염기에 따라)로 변환된다. 이 코드는 실제 DNA에 통합된다. 정보는 언제든지 재구성 할 수 있다. DNA는 시퀀싱 될 수 있다. 따라서 A, T, C 및 G 코드를 다시 얻고 데이터를 0과 1로 변환 할 수 있다"고 설명했다.
![]() |
▲ http://www.somersault1824.com/science-illustrations/ |
가격은 아직 떨어지지 않았다.
과학자들은 2012 년경부터 이 프로세스를 연구해 왔으며 이미 책과 영화를 DNA로 인코딩 할 수 있었다. 대량 적합성의 고집은 현재 높은 생산 비용이다. 이것들은 여전히 2 메가 바이트 합성에 약 7천 달러이고 시퀀싱에 추가로 2천 달러이다.
0과 1 대신 DNA 염기
디지털 망각에 대한 한 가지 해결책은 "생명의 데이터 운반자"인 유전 분자 DNA일 수 있다. 모든 유기체에서 4개의 DNA 염기 서열은 단백질에 대한 구성 지침을 코딩하고 모든 세포 과정을 위한 제어 장치를 포함한다. 그러나 이 코드는 4개의 DNA ‘문자’ A, C, G 및 T가 있는 0과 1대신 디지털 비트와 바이트를 저장하는 데 매우 쉽게 사용할 수 있다.
연구원들은 이미 느슨한 DNA 가닥을 사용했지만, 예를 들어 텍스트 나 이미지를 저장하기 위해 살아있는 박테리아의 유전 물질도 사용했다. 이미 비교적 견고한 DNA 가닥이 작은 규산염 캡슐에 들어 있다면 이 생화학적 데이터 운반체는 천 년 이상 지속될 수 있다.
가닥은 많은 유전 실험실에서 발견되는 것과 같은 자동화된 DNA 시퀀서의 도움으로 코딩되고 판독된다.
![]() |
▲ 데이터 저장에 대한 전 세계적 수요 추이 |
많은 양의 데이터도 가능할까?
문제는 합성으로 생성된 DNA 가닥이 특정 길이까지만 생성될 수 있다는 것이다.
따라서 하나의 긴 유전 물질 가닥에 대량의 데이터를 단순히 저장하는 것은 불가능하다.
"대신에 디지털 정보는 여러 개의 짧은 인덱스 DNA 시퀀스에 저장되어야 한다"고 뮌헨 공과 대학(TU Muenchen)의 라인하르트 헥켈(Reinhard Heckel)과 ETH Zurich의 로베르트 그라스(Robert Grass)가 설명했다.
그러나 이것은 읽을 때 많은 짧은 문자열을 올바른 순서로 다시 모아야 함을 의미하며 동시에 복사 또는 읽기 오류의 가능성이 증가한다.
따라서 Heckel과 그의 동료는 인덱싱 및 오류 수정을 최적화하는 프로세스를 개발해 DNA를 사용하여 대량의 데이터를 코딩하고 디코딩 할 수 있다.
이 기술을 입증하기 위해 연구진은 최근 출시 된 TV 시리즈 "Biohackers"의 전체 에피소드를 합성 DNA 형태로 저장했다. Reinhard Heckel은 인터뷰에서 이것이 작동하는 방식과 DNA 데이터 저장이 수익성있는 미래 기술이 될 수 있는 이유를 설명했다.
다음은 헥켈 교수의 인터뷰 내용이다.
Heckel,“Biohackers”는 어두운 과거를 가진 교수에게 복수하려는 의대생과 생명 공학을 통한 DNA 조작에 관한 이야기다. 그들은 시리즈의 내용을 DNA에 저장하도록 위임받았다. 어떻게 작동하는가?
Reinhard Heckel :
먼저 인공적으로 생성된, 즉 합성 DNA에 대해 이야기하고 있다. DNA는 뉴클레오티드 아데닌 (A), 티민 (T), 구아닌 (G) 및 시토신 (C)의 네 가지 빌딩 블록으로 구성됩니다. 컴퓨터 데이터는 다시 0과 1로 코딩된다. "Biohackers"의 첫 번째 에피소드는 약 6억 개의 0과 1의 시퀀스로 구성된다.
예를 들어 01 01 11 00 시리즈를 DNA에 저장하려면 어떤 문자에 해당하는 숫자 조합을 지정한다. 예를 들어 00은 A, 01은 C, 10은 G, 11은 T입니다. 이 예에서 DNA는 다음과 같다. 시퀀스 CCTA. 이 "DNA 데이터 저장"원칙에 따라 시리즈의 첫 번째 에피소드를 DNA에 저장했다.
시리즈를 재생할 수 있도록 문자가 단순히 "뒤로 번역"되어 있는가?
Heckel :
그렇게 상상할 수 있다. 아주 간단하다. 그러나 DNA를 쓰고, 저장하고, 읽을 때 오류가 발생한다. 이러한 오류가 수정되지 않으면 DNA에 저장된 데이터가 손실된다. 문제를 해결하기 위해 채널 코딩을 기반으로 한 알고리즘을 개발했다. 채널 코딩은 정보 전송에서 발생하는 오류를 수정하는 것과 관련이 있다.
그 이면의 아이디어는 데이터에 중복성을 추가하는 것이다.
언어를 상상해 보자 : 누락되거나 잘못된 글자가 있는 단어를 읽거나 듣더라도 뇌의 처리 능력은 여전히 단어를 이해한다. 알고리즘은 동일한 원리를 따른다. 데이터를 중복 인코딩하여 나중에 매우 결함이 있는 DNA에서도 데이터를 복원 할 수 있다.
![]() |
▲ 데이터를 중복 인코딩하여 나중에 매우 결함이 있는 DNA에서도 데이터를 복원 할 수 있다. |
채널 코딩은 통신을 포함한 많은 영역에서 사용된다. 솔루션을 개발할 때 어떤 어려움이 있었는가?
Heckel :
첫 번째 과제는 DNA에서 발생하는 오류를 위해 특별히 설계된 알고리즘을 만드는 것이었다. 두 번째 과제는 가능한 한 적은 양의 DNA에 최대한 많은 데이터를 저장할 수 있도록 알고리즘을 매우 효율적으로 만들어 절대적으로 필요한 중복성만 추가하는 것이었다. 우리는 알고리즘이 이러한 의미에서 최적임을 보여주었다.
"DNA 데이터 저장"은 DNA 생산과 판독이 매우 복잡하기 때문에 매우 비싸다. 그러나 DNA를 저장 매체로 매력적으로 만드는 것은 무엇인가?
Heckel :
한편으로는 DNA의 정보 밀도가 매우 높다. 이를 통해 가장 작은 공간에 막대한 양의 데이터를 저장할 수 있다. 시리즈의 경우 피코그램에 "단지"100 메가 바이트, 즉 DNA 1조분의 1에 해당한다. 그러나 이론적으로는 1g의 DNA에서 최대 200 엑사(10^18)바이트가 가능하다.
반면에 DNA는 매우 오래 지속된다. 비교를 위해 : PC와 하드 드라이브가 항상 꺼져 있거나 비어있는 경우 데이터는 몇 년 후에 사라진다. 반면에 DNA는 적절하게 포장되어 수천 년 동안 안정적으로 유지될 수 있다.
여러분이 개발한 방법 덕분에 DNA 가닥이 거의 "파괴 불가능"하게 된다.
Heckel :
제 동료 Robert Grass는 유리의 일종인 실리카로 만들어진 나노 미터 크기의 구체에 DNA 가닥을 캡슐화하여 안정적으로 포장하는 프로세스를 최초로 개발했다. 이것은 DNA를 기계적으로 보호한다. 2015년에 우리는 알고리즘과 Grass '캡슐화를 최초의 강력한 DNA 데이터 저장소로 제시하는 논문을 작성했다. 그 이후로 우리는 방법을 계속 개발했다.
2020년 1월 Nature Protocols의 최신 간행물에 우리는 경험을 전달했다.
다음 단계는 무엇인가?
DNA에 데이터를 저장하는 데 미래가 있을까?
Heckel :
우리는 DNA 데이터 저장을 더 저렴하고 빠르게 만들기 위해 노력하고 있다.
'바이오 해커'는 상용화 방향의 이정표였지만 아직 갈 길이 멀다.
기술이 성공하면 큰일이 가능하다. 전체 도서관, 모든 영화, 사진, 음악, 모든 종류의 지식 (데이터로 표현할 수 있는 한)은 DNA에 저장되어 인류가 영원히 사용할 수 있다.
(Nature Protocols, 2020; doi : 10.1038 / s41596-019-0244-5)
출처 : Technische Universität München
[더사이언스플러스=문광주 기자] "No Science, No Future"
[ⓒ the SCIENCE plus. 무단전재-재배포 금지]