티스토리 뷰

728x90

같은 peptide인데 왜 어떤 날은 사라질까
같은 peptide인데 왜 어떤 날은 사라질까

Charge state 분포가 proteomics 해석을 바꾸는 이유

Proteomics 데이터를 오래 보다 보면 이상한 순간들이 반복된다. 분명 같은 샘플이고, 같은 장비이며, gradient도 거의 동일한데 어떤 peptide는 특정 run에서만 유독 잘 보인다. 반대로 이전 run에서는 안정적으로 검출되던 peptide가 어느 날 갑자기 intensity가 급격히 감소하거나 identification에서 완전히 사라지기도 한다. 처음 이런 현상을 경험하면 대부분 장비 컨디션을 의심한다. spray가 흔들렸나, column 상태가 나빠졌나, calibration이 틀어졌나 같은 생각부터 하게 된다. 하지만 QC가 멀쩡하고 다른 peptide들은 안정적으로 검출된다면 이야기가 달라진다. 이 시점부터는 단순한 instrument issue가 아니라 데이터 해석 자체의 문제로 접근해야 한다.

실제로 LC-MS/MS 기반 proteomics에서 우리가 관찰하는 것은 peptide 자체가 아니다. 정확히 말하면 ionization 과정을 거쳐 특정 전하 상태를 띠게 된 peptide ion을 보고 있다. 그리고 이 전하 상태, 즉 charge state distribution은 생각보다 훨씬 많은 것들을 바꿔놓는다. 어떤 precursor가 선택되는지, fragmentation이 어떤 방식으로 일어나는지, 어떤 spectrum이 생성되는지, search engine이 무엇을 confident identification으로 받아들이는지까지 모두 영향을 받는다. 결국 charge state 분포는 단순한 물리화학적 특성이 아니라 데이터 해석 전체를 움직이는 숨겨진 축에 가깝다.

1. 하나의 peptide는 하나의 신호가 아니다

LC-MS를 처음 배울 때 많은 사람들이 자연스럽게 갖는 이미지가 있다. 하나의 peptide가 column을 지나오고, mass spectrometer에서 하나의 peak로 보인다는 그림이다. 하지만 실제 데이터는 훨씬 복잡하다. ESI 환경에서 peptide는 protonation을 거치며 여러 개의 charge state로 나뉘어 존재한다. 예를 들어 동일한 peptide가 2+, 3+, 4+ 상태로 동시에 존재할 수 있고, 각각은 서로 다른 m/z 위치에서 독립적인 precursor처럼 관찰된다.

실제 Orbitrap raw data를 열어보면 이런 현상은 매우 흔하다. 예를 들어 tryptic peptide 하나가 2+ 상태에서는 m/z 742.38 부근에서 관찰되고, 동일 peptide의 3+ 상태는 m/z 495.25 근처에서 나타나는 경우가 있다. 중요한 것은 instrument가 이 둘을 “같은 물질”로 이해하지 않는다는 점이다. acquisition 단계에서는 각각을 독립적인 precursor candidate로 처리한다.

이 차이는 단순해 보이지만 이후 모든 단계에 영향을 준다. 특히 DDA에서는 precursor selection 자체가 intensity 기반 경쟁 구조이기 때문에, 어떤 charge state가 더 우세하게 형성되느냐에 따라 선택 가능성이 완전히 달라진다. 동일 peptide라도 어느 날은 3+ state가 dominant해서 MS/MS 대상으로 선택되고, 다른 날은 signal이 2+와 3+로 분산되면서 둘 다 threshold 아래로 떨어질 수 있다. 결과적으로 peptide 자체는 존재하지만, 데이터에서는 사라진 것처럼 보이게 된다.

2. 실제 raw data에서 보이는 charge state 변화

이 현상은 이론이 아니라 실제 raw file에서 매우 자주 관찰된다. 예를 들어 HeLa digest를 Orbitrap Exploris에서 반복 분석한 데이터에서 특정 mitochondrial protein peptide를 추적해보면 흥미로운 패턴이 나타난다.

Run A에서는 해당 peptide가 3+ 상태로 강하게 형성되면서 precursor intensity가 약 1.8e6 수준까지 올라간다. 이 경우 DDA Top15 조건에서 안정적으로 선택되며 high-quality MS/MS spectrum을 생성한다. Search engine score 역시 충분히 높게 나오기 때문에 protein identification에도 안정적으로 포함된다.

그런데 동일 조건으로 보이는 Run B에서는 상황이 달라진다. peptide 총량 자체는 거의 비슷한 수준인데 signal이 2+와 3+ 상태로 분산된다. 각각의 precursor intensity는 약 6e5~7e5 수준으로 낮아지고, 동일 retention time 구간에서 co-eluting precursor들과 경쟁하게 된다. 결국 해당 precursor는 TopN selection에서 밀려나고, MS/MS 자체가 발생하지 않는다.

결과만 보면 특정 peptide가 한 run에서는 존재하고 다른 run에서는 사라진 것처럼 보인다. 하지만 raw level에서 보면 peptide는 존재하고 있었다. 단지 ionization distribution이 바뀌면서 acquisition 구조에서 탈락했을 뿐이다.

이 차이는 proteomics 데이터를 해석할 때 매우 중요하다. 많은 연구자들이 “검출되지 않았다”는 결과를 곧바로 biological absence로 연결하지만, 실제로는 acquisition physics에 의해 설명되는 경우가 적지 않다.

3. charge state는 왜 변하는가

더 흥미로운 부분은 charge state distribution이 매우 민감하게 변한다는 점이다. 동일 sample이라도 spray stability, solvent composition, LC gradient condition, source temperature 같은 요소들이 조금만 바뀌어도 protonation behavior가 달라진다.

특히 organic solvent 비율 변화는 charge distribution에 직접적인 영향을 준다. 높은 acetonitrile 환경에서는 peptide unfolding이 증가하면서 protonation site 접근성이 달라질 수 있고, 그 결과 higher charge state formation이 증가하는 경우가 있다. 반대로 ion suppression이 강한 matrix 환경에서는 일부 peptide가 낮은 charge state 위주로 이동하기도 한다.

실제 plasma proteomics에서는 이런 현상이 더욱 극적으로 나타난다. matrix complexity가 높기 때문에 특정 retention time 영역에서 ion competition이 발생하고, peptide별 charge distribution이 불안정해진다. 동일 peptide라도 clean matrix에서는 3+ dominant였던 signal이 plasma background에서는 2+ dominant로 바뀌는 경우가 흔하다.

이런 변화는 precursor selection뿐 아니라 downstream fragmentation behavior까지 연쇄적으로 바꾼다.

4. fragmentation은 charge state에 따라 완전히 달라진다

많은 사람들이 fragmentation을 단순히 “peptide를 부수는 과정” 정도로 이해하지만, 실제로는 charge state dependence가 매우 강한 현상이다. 동일 peptide라도 2+ 상태와 3+ 상태는 전혀 다른 fragmentation pattern을 생성할 수 있다.

일반적으로 higher charge state는 proton mobility가 증가하기 때문에 fragmentation efficiency가 높고 다양한 fragment ion series를 생성한다. 특히 HCD 환경에서는 3+ precursor가 더 풍부한 b/y ion series를 제공하는 경우가 많다. 반면 2+ 상태에서는 일부 dominant fragment에 signal이 집중되면서 spectrum complexity가 낮아질 수 있다.

실제 raw spectrum을 비교해보면 차이가 꽤 크다. 동일 peptide를 대상으로 했을 때 3+ precursor spectrum에서는 y5~y11 ion series가 연속적으로 형성되지만, 2+ precursor spectrum에서는 일부 fragment intensity만 강하게 남고 중간 ion들이 sparse하게 나타나는 경우가 있다.

Search engine 입장에서는 이 차이가 매우 중요하다. Mascot이나 Sequest 같은 알고리즘은 fragment matching density를 기반으로 score를 계산하기 때문에, ion coverage가 높은 spectrum이 훨씬 높은 confidence를 갖는다. 결국 동일 peptide라도 charge state에 따라 identification probability 자체가 달라질 수 있다.

5. charge state와 dynamic exclusion의 충돌

이 문제는 dynamic exclusion과 결합되면 더욱 복잡해진다. DDA에서는 동일 precursor가 반복적으로 선택되는 것을 막기 위해 exclusion window를 사용한다. 그런데 여기서 precursor identity는 m/z 기반으로 정의된다.

즉 동일 peptide라도 2+와 3+ state는 서로 다른 precursor로 취급된다. 결과적으로 어떤 peptide가 여러 charge state로 분산되어 존재하면 dynamic exclusion이 사실상 제대로 작동하지 않는 상황이 발생할 수 있다.

실제 데이터에서는 이런 패턴이 자주 보인다. 동일 peptide의 3+ state가 먼저 선택된 뒤 exclusion에 들어갔는데, 직후 2+ state가 다시 선택된다. instrument 입장에서는 다른 precursor라고 판단하기 때문이다. 반대로 특정 charge state intensity가 낮아져 selection threshold 아래로 떨어지면, 해당 peptide는 exclusion 상태가 아님에도 반복 선택되지 않는다.

결국 charge distribution은 precursor redundancy와 sampling efficiency까지 바꿔놓는다.

6. DIA에서도 문제는 끝나지 않는다

많은 사람들이 DIA가 되면 charge state 문제에서 자유로워진다고 생각한다. DDA처럼 precursor selection bias가 없기 때문이다. 하지만 실제로는 그렇지 않다.

DIA에서도 fragment pattern 자체는 charge state에 의존한다. spectral library 기반 matching에서는 reference spectrum과 실제 acquired spectrum 간의 similarity가 중요한데, charge distribution이 바뀌면 fragmentation pattern도 변하기 때문에 matching efficiency가 떨어질 수 있다.

특히 library가 특정 charge state 기반으로 구축된 경우 문제가 심해진다. 실제 sample에서는 2+ dominant precursor가 형성되었는데 library는 3+ 기반 spectrum만 포함하고 있다면 score가 낮아질 수 있다. 이 경우 peptide는 raw data에 존재하지만 confident identification threshold를 넘지 못하게 된다.

최근 DIA-NN이나 Spectronaut 같은 소프트웨어들이 charge state-aware scoring을 강화하고 있는 이유도 여기에 있다. 결국 DIA 역시 charge distribution 문제에서 완전히 자유로운 구조는 아니다.

7. charge state 분포와 ion suppression의 연결

Proteomics 데이터를 실제 biological sample에 적용하기 시작하면 charge state 문제는 ion suppression과 강하게 연결된다. 특히 plasma나 tissue lysate처럼 matrix complexity가 높은 환경에서는 특정 precursor가 suppression에 의해 selective하게 영향을 받는다.

흥미로운 점은 suppression이 모든 charge state에 동일하게 작용하지 않는다는 것이다. 어떤 peptide는 3+ state가 preferentially suppressed되고, 다른 peptide는 2+ state가 더 민감하게 감소한다. 이 현상은 retention time 근처에서 co-eluting compound들의 ionization competition과 관련이 있다.

실제 raw chromatogram을 보면 특정 retention time 영역에서 3+ precursor intensity만 급격히 감소하는 사례를 확인할 수 있다. 동일 peptide의 2+ signal은 유지되는데 3+ signal만 약해지는 것이다. 이 경우 search engine은 원래 사용하던 fragmentation pattern을 충분히 확보하지 못하고, identification score가 불안정해질 수 있다.

결국 ion suppression은 단순히 signal 감소 문제가 아니라 charge distribution 자체를 재구성하는 변수다.

8. 정량 데이터가 흔들리는 진짜 이유

Label-free quantification에서는 이 문제가 더 조용하지만 더 위험하게 작동한다. 대부분의 software는 peptide feature intensity를 기반으로 abundance를 계산한다. 그런데 charge state distribution이 바뀌면 동일 peptide라도 feature intensity distribution이 달라진다.

예를 들어 어떤 peptide가 원래는 3+ dominant였는데 특정 condition에서 2+와 3+로 분산되었다고 가정해보자. total ion abundance는 유사하더라도 individual feature intensity는 감소하게 된다. 만약 software가 특정 charge state만 주요 feature로 선택했다면 abundance가 실제보다 낮게 계산될 수 있다.

실제 LFQ dataset에서 이런 현상은 생각보다 흔하다. 특히 low abundance protein 영역에서는 charge redistribution 때문에 fold change가 artificial하게 생성되는 경우가 있다. 문제는 이런 변화가 통계적으로는 매우 그럴듯하게 보인다는 점이다. replicate 간 consistency까지 유지되면 연구자는 이를 biological signal로 받아들이기 쉽다.

하지만 raw precursor level에서 보면 실제 protein abundance 변화보다는 ionization behavior 변화에 가까운 경우가 있다.

9. charge state bias는 단백질 수준 해석까지 이어진다

Peptide level에서 발생한 작은 bias는 protein inference 단계에서 확대된다. 대부분의 proteomics workflow는 여러 peptide intensity를 합쳐 protein abundance를 추정한다. 그런데 특정 peptide들이 charge distribution 변화에 민감하다면, 해당 protein의 정량 결과도 함께 흔들리게 된다.

특히 peptide 수가 적은 low coverage protein에서는 이 영향이 크다. protein abundance 계산이 사실상 1~2개 peptide에 의존하는 경우, 특정 charge state precursor가 selection에서 누락되는 순간 protein 자체가 differential expression처럼 보일 수 있다.

실제로 cancer tissue proteomics dataset에서 특정 signaling protein이 treatment group에서 감소한 것으로 나타났지만, raw precursor inspection 결과 주요 peptide의 3+ state intensity만 선택적으로 감소한 사례가 보고된 적이 있다. total peptide abundance 자체는 큰 차이가 없었고, matrix composition 변화에 따른 ionization redistribution 가능성이 더 높은 상황이었다.

이런 사례는 proteomics에서 “보이는 변화”와 “실제 biological 변화”를 구분하는 일이 얼마나 어려운지를 보여준다.

10. 왜 우리는 이 문제를 자주 놓치는가

가장 큰 이유는 software abstraction 때문이다. Raw data 단계에서는 charge state 정보가 분명 존재하지만, processing이 진행될수록 이 정보는 점점 숨겨진다. 최종 protein table에서는 대부분 charge state 정보가 제거된 상태로 결과만 남는다.

연구자는 protein fold change와 p-value를 보게 되지만, 그 결과가 어떤 precursor distribution에서 비롯되었는지는 쉽게 드러나지 않는다. 결국 acquisition physics 수준에서 발생한 현상이 biological interpretation 단계까지 조용히 침투하게 된다.

특히 automated pipeline이 발전할수록 이런 문제는 더 잘 숨겨진다. Workflow는 편리해졌지만, 데이터가 생성되는 물리적 과정을 직접 들여다보는 빈도는 오히려 줄어들고 있다.

11. 실제 데이터에서 반드시 확인해야 하는 것들

Proteomics 데이터를 해석할 때 charge state 문제를 완전히 제거할 수는 없다. 하지만 최소한 그 영향을 인식하고 점검하는 것은 가능하다.

우선 precursor charge distribution을 run 간 비교해보는 습관이 중요하다. 특정 sample group에서 unusual charge enrichment가 발생하는지 확인해야 한다. 또한 동일 peptide가 어떤 charge state로 반복적으로 선택되는지도 살펴볼 필요가 있다.

Fragmentation quality 역시 charge state별로 직접 비교해보는 것이 좋다. 특히 low abundance peptide는 charge state에 따라 spectrum quality 차이가 크게 나타나는 경우가 많다.

가능하다면 raw level chromatogram inspection도 중요하다. 실제로 peptide가 사라진 것인지, 아니면 다른 charge state로 redistribution된 것인지를 구분할 수 있기 때문이다.

결론

Proteomics에서 우리는 peptide 자체를 보는 것이 아니다. 정확히는 ionization 과정에서 형성된 여러 charge state 중 일부를 선택적으로 관찰하고, 그 fragment pattern을 기반으로 존재를 추론한다. 따라서 charge state distribution이 바뀌는 순간 데이터 해석 전체가 달라질 수 있다.

어떤 peptide는 실제로 사라진 것이 아니라 다른 charge state로 이동했을 수 있고, 어떤 differential expression은 biological change가 아니라 ionization redistribution에서 비롯되었을 수도 있다. 결국 proteomics 데이터는 단순한 abundance table이 아니라 acquisition physics와 ion chemistry가 복합적으로 얽혀 만들어낸 결과다.

이 사실을 이해하기 시작하면 이전에는 설명되지 않던 많은 현상들이 다르게 보이기 시작한다. 왜 어떤 peptide가 특정 run에서만 보였는지, 왜 재현성이 예상보다 낮았는지, 왜 일부 protein이 비정상적으로 흔들렸는지에 대한 답이 charge state distribution 안에 숨어 있는 경우가 생각보다 많기 때문이다.

728x90
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/05   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함