사사바

미생물 메타프로테오믹스 : 시료 처리, 데이터 수집부터 데이터 분석까지

우은후이, 차오량*

중국 상하이 푸단대학교 화학과

 

 

 

미생물은 인간의 질병 및 건강과 밀접한 관련이 있습니다. 미생물 군집의 구성과 기능을 어떻게 이해하는가는 시급히 연구해야 할 중요한 문제이다. 최근 몇 년 동안 메타프로테오믹스는 미생물의 구성과 기능을 연구하는 중요한 기술적 수단이 되었습니다. 그러나 미생물 군집 샘플의 복잡성과 높은 이질성으로 인해 샘플 처리, 질량 분석 데이터 수집 및 데이터 분석은 현재 메타프로테오믹스가 직면한 세 가지 주요 과제가 되었습니다. 메타프로테오믹스 분석에서는 다양한 유형의 샘플에 대한 전처리를 최적화하고 다양한 미생물 분리, 농축, 추출 및 용해 방식을 채택해야 하는 경우가 많습니다. 단일 종의 프로테옴과 유사하게, 메타프로테오믹스의 질량 분석 데이터 수집 모드에는 데이터 종속 수집(DDA) 모드와 데이터 독립 수집(DIA) 모드가 포함됩니다. DIA 데이터 수집 모드는 샘플의 펩타이드 정보를 완벽하게 수집할 수 있으며 개발 잠재력이 큽니다. 그러나 메타프로테옴 샘플의 복잡성으로 인해 DIA 데이터 분석은 메타프로테오믹스의 깊은 적용을 방해하는 주요 문제가 되었습니다. 데이터 분석에 있어서 가장 중요한 단계는 단백질 서열 데이터베이스를 구축하는 것이다. 데이터베이스의 규모와 완전성은 동정 횟수에 큰 영향을 미칠 뿐만 아니라 종과 기능 수준의 분석에도 영향을 미칩니다. 현재 메타프로테옴 데이터베이스 구축의 표준은 메타게놈을 기반으로 한 단백질 서열 데이터베이스입니다. 동시에 반복검색을 기반으로 한 공공데이터베이스 필터링 방법 역시 강력한 실용가치가 있음이 입증되었다. 구체적인 데이터 분석 전략 측면에서는 펩타이드 중심의 DIA 데이터 분석 방식이 절대적인 주류를 차지하고 있다. 딥러닝과 인공지능의 발전으로 거대단백체 데이터 분석의 정확성, 적용 범위, 분석 속도가 크게 향상될 것입니다. 다운스트림 생물정보학 분석 측면에서 최근 몇 년 동안 단백질 수준, 펩타이드 수준 및 유전자 수준에서 종 주석을 수행하여 미생물 군집의 구성을 얻을 수 있는 일련의 주석 도구가 개발되었습니다. 다른 오믹스 방법과 비교하여 미생물 군집의 기능 분석은 거대단백질체학의 독특한 특징입니다. Macroproteomics는 미생물 군집의 다중 오믹스 분석의 중요한 부분이 되었으며 적용 범위 깊이, 검출 감도 및 데이터 분석 완전성 측면에서 여전히 큰 발전 잠재력을 가지고 있습니다.

 

01샘플 전처리

현재 메타프로테오믹스 기술은 인간 미생물군집, 토양, 식품, 해양, 활성 슬러지 및 기타 분야의 연구에 널리 사용되고 있습니다. 단일 종의 프로테옴 분석과 비교하여 복잡한 샘플의 메타프로테옴 샘플 전처리는 더 많은 어려움에 직면해 있습니다. 실제 샘플의 미생물 구성은 복잡하고, 존재비의 동적 범위가 크고, 다양한 유형의 미생물의 세포벽 구조가 매우 다르며, 샘플에는 종종 다량의 숙주 단백질과 기타 불순물이 포함되어 있습니다. 따라서 메타프로테옴 분석에서는 다양한 유형의 샘플을 최적화하고 다양한 미생물 분리, 농축, 추출 및 용해 방식을 채택해야 하는 경우가 많습니다.

다양한 샘플에서 미생물 메타프로테옴을 추출하는 데에는 몇 가지 유사점과 차이점이 있지만 현재 다양한 유형의 메타프로테옴 샘플에 대한 통합된 전처리 프로세스가 부족합니다.

 

02질량분석 데이터 수집

샷건 프로테옴 분석에서 전처리 후의 펩타이드 혼합물은 먼저 크로마토그래피 컬럼에서 분리된 다음 이온화 후 데이터 수집을 위해 질량 분석기로 들어갑니다. 단일 종 프로테옴 분석과 마찬가지로 거대 프로테옴 분석의 질량 분석 데이터 수집 모드에는 DDA 모드와 DIA 모드가 포함됩니다.

 

질량 분석 장비의 지속적인 반복 및 업데이트로 인해 더 높은 감도와 분해능을 갖춘 질량 분석 장비가 메타프로테옴에 적용되고 메타프로테옴 분석의 적용 범위 깊이도 지속적으로 향상됩니다. 오랫동안 Orbitrap이 이끄는 일련의 고해상도 질량 분석 장비가 메타프로테옴에 널리 사용되었습니다.

 

원문의 표 1은 2011년부터 현재까지의 메타프로테오믹스에 관한 대표적인 연구를 시료 유형, 분석 전략, 질량분석기, 획득 방법, 분석 소프트웨어 및 식별 횟수 측면에서 보여줍니다.

 

03질량분석 데이터 분석

3.1 DDA 데이터 분석 전략

3.1.1 데이터베이스 검색

3.1.2드 노보시퀀싱 전략

3.2 DIA 데이터 분석 전략

 

04종분류 및 기능적 주석

다양한 분류학적 수준의 미생물 군집 구성은 미생물군집 연구의 핵심 연구 분야 중 하나입니다. 최근 몇 년 동안 미생물 군집의 구성을 얻기 위해 단백질 수준, 펩타이드 수준 및 유전자 수준에서 종에 주석을 달기 위한 일련의 주석 도구가 개발되었습니다.

 

기능적 주석의 핵심은 목적 단백질 서열을 기능성 단백질 서열 데이터베이스와 비교하는 것입니다. GO, COG, KEGG, eggNOG 등과 같은 유전자 기능 데이터베이스를 사용하여 거대단백질체로 식별된 단백질에 대해 다양한 기능 주석 분석을 수행할 수 있습니다. 주석 도구에는 Blast2GO, DAVID, KOBAS 등이 포함됩니다.

 

05개요 및 전망

미생물은 인간의 건강과 질병에 중요한 역할을 합니다. 최근 몇 년 동안 메타프로테오믹스는 미생물 군집의 기능을 연구하는 중요한 기술적 수단이 되었습니다. 메타프로테오믹스의 분석 과정은 단일종 프로테오믹스의 분석 과정과 유사하지만, 메타프로테오믹스의 연구 대상이 복잡하기 때문에 시료 전처리, 데이터 수집, 데이터 분석에 이르기까지 각 분석 단계에서 구체적인 연구 전략을 채택해야 합니다. 현재 전처리 방법의 개선, 질량 분석 기술의 지속적인 혁신, 생물정보학의 급속한 발전 덕분에 메타프로테오믹스는 식별 깊이와 응용 범위에서 큰 발전을 이루었습니다.

 

거대단백질체 시료의 전처리 과정에서는 시료의 특성을 먼저 고려해야 합니다. 환경 세포 및 단백질로부터 미생물을 분리하는 방법은 거대단백질체가 직면한 주요 과제 중 하나이며, 분리 효율과 미생물 손실 간의 균형은 해결해야 할 시급한 문제입니다. 둘째, 미생물의 단백질 추출에서는 서로 다른 박테리아의 구조적 이질성으로 인한 차이를 고려해야 합니다. 미량 범위의 거대단백질 샘플에는 특정 전처리 방법도 필요합니다.

 

질량 분석 장비 측면에서 주류 질량 분석 장비는 LTQ-Orbitrap 및 Q Exactive와 같은 Orbitrap 질량 분석기를 기반으로 하는 질량 분석기에서 timsTOF Pro와 같은 이온 이동도 결합 비행 시간 질량 분석기를 기반으로 하는 질량 분석기로 전환되었습니다. . Ion Mobility 차원 정보를 갖춘 timsTOF 시리즈 장비는 높은 검출 정확도, 낮은 검출 한계 및 우수한 반복성을 제공합니다. 이는 단일 종의 프로테옴, 메타프로테옴 및 대사체와 같이 질량 분석 검출이 필요한 다양한 연구 분야에서 점차 중요한 도구가 되었습니다. 오랫동안 질량 분석 장비의 동적 범위로 인해 메타프로테옴 연구의 단백질 적용 범위가 제한되었다는 점은 주목할 가치가 있습니다. 앞으로는 더 큰 동적 범위를 갖춘 질량 분석 기기가 메타프로테옴에서 단백질 식별의 감도와 정확성을 향상시킬 수 있습니다.

 

질량 분석 데이터 수집의 경우 DIA 데이터 수집 모드가 단일 종의 프로테옴에 널리 채택되었지만 대부분의 최신 거대 프로테옴 분석에서는 여전히 DDA 데이터 수집 모드를 사용합니다. DIA 데이터 수집 모드는 시료의 단편 이온 정보를 완전히 얻을 수 있으며 DDA 데이터 수집 모드와 비교하여 매크로프로테옴 시료의 펩타이드 정보를 완전히 얻을 수 있는 가능성이 있습니다. 그러나 DIA 데이터의 복잡성으로 인해 DIA 매크로프로테옴 데이터 분석은 여전히 ​​큰 어려움에 직면해 있습니다. 인공지능과 딥러닝의 발전으로 DIA 데이터 분석의 정확성과 완성도가 높아질 것으로 기대된다.

 

메타프로테오믹스의 데이터 분석에서 중요한 단계 중 하나는 단백질 서열 데이터베이스를 구축하는 것입니다. 장내 세균총 등 대중적인 연구 분야에서는 IGC, HMP 등의 장내 미생물 데이터베이스를 활용해 좋은 동정 결과를 얻을 수 있었다. 대부분의 다른 메타프로테오믹스 분석에서 가장 효과적인 데이터베이스 구축 전략은 여전히 ​​메타게놈 시퀀싱 데이터를 기반으로 샘플별 단백질 서열 데이터베이스를 구축하는 것입니다. 복잡성이 높고 동적 범위가 큰 미생물 군집 샘플의 경우 서열 분석 깊이를 늘려서 존재량이 적은 종의 식별을 높여 단백질 서열 데이터베이스의 적용 범위를 향상시키는 것이 필요합니다. 시퀀싱 데이터가 부족한 경우 반복 검색 방법을 사용하여 공용 데이터베이스를 최적화할 수 있습니다. 그러나 반복 검색은 FDR 품질 관리에 영향을 미칠 수 있으므로 검색 결과를 주의 깊게 확인해야 합니다. 또한, 메타프로테오믹스 분석에서 전통적인 FDR 품질 관리 모델의 적용 가능성은 여전히 ​​탐구할 가치가 있습니다. 검색 전략 측면에서 하이브리드 스펙트럼 라이브러리 전략은 DIA 메타프로테오믹스의 적용 범위 깊이를 향상시킬 수 있습니다. 최근 몇 년 동안 딥러닝을 기반으로 생성된 예측 스펙트럼 라이브러리는 DIA 단백질체학에서 우수한 성능을 보여주었습니다. 그러나 메타프로테옴 데이터베이스에는 종종 수백만 개의 단백질 항목이 포함되어 있어 대규모 예측 스펙트럼 라이브러리가 생성되고, 많은 컴퓨팅 리소스를 소비하며, 검색 공간이 넓어집니다. 또한, 메타프로테옴의 단백질 서열 간의 유사성은 매우 다양하여 스펙트럼 라이브러리 예측 모델의 정확성을 보장하기 어려워 예측 스펙트럼 라이브러리가 메타프로테오믹스에서 널리 사용되지 않았습니다. 또한 서열 유사성이 높은 단백질의 메타프로테오믹스 분석에 적용하려면 새로운 단백질 추론 및 분류 주석 전략을 개발해야 합니다.

 

요약하면, 신흥 마이크로바이옴 연구 기술로서 메타프로테오믹스 기술은 상당한 연구 결과를 얻었으며 또한 엄청난 발전 잠재력을 가지고 있습니다.


게시 시간: 2024년 8월 30일