Functional Annotation의 한계

티스토리 뷰

제약산업

Functional Annotation의 한계

pharma_info 2026. 6. 8. 20:59

728x90

단백질의 이름을 아는 것과, 그 단백질이 실제로 무엇을 하고 있는지를 아는 것은 전혀 다른 문제다

Proteomics 분석을 처음 시작하면 데이터는 대개 숫자로 가득 차 있다.

수천 개의 protein ID, fold change, p-value, abundance 값들이 나열된다.

그 자체로는 의미를 읽어내기 어렵다.

그래서 대부분의 연구자는 다음 단계로 넘어간다.

Functional annotation.

즉 검출된 단백질에 기능(function)을 부여하는 과정이다.

예를 들어 어떤 단백질이 검출되면:

Cell cycle
Apoptosis
Inflammation
Metabolism
Signal transduction

같은 기능 카테고리가 붙는다.

그리고 연구자는 그 순간부터 데이터를 "해석"하기 시작한다.

"Cell cycle 관련 단백질이 증가했다."

"Inflammatory pathway가 활성화되었다."

"Metabolic remodeling이 일어났다."

이 과정은 너무 자연스럽기 때문에 대부분의 사람들은 의심하지 않는다.

하지만 실제로는 Proteomics 해석에서 가장 많은 과해석이 발생하는 지점 중 하나가 바로 Functional annotation이다.

왜냐하면 annotation은 생물학적 사실(biological fact)이 아니라 인간이 만든 분류 체계(classification system)이기 때문이다.

그리고 실제 세포는 annotation database가 생각하는 것보다 훨씬 복잡하게 움직인다.

1. Functional annotation은 측정 결과가 아니다

가장 먼저 이해해야 할 점이 있다.

Proteomics 실험이 실제로 측정한 것은:

peptide intensity
protein abundance
protein identification

뿐이다.

실험은 절대로:

"이 단백질은 apoptosis 단백질입니다."

라고 말해주지 않는다.

그 정보는 나중에 database에서 가져온다.

즉 Functional annotation은 실험 결과가 아니라 외부 지식이 추가된 해석 레이어다.

많은 연구자가 이 둘을 혼동한다.

2. 단백질은 하나의 기능만 가지지 않는다

Functional annotation의 가장 근본적인 문제다.

Database는 보통 단백질에 기능을 붙인다.

하지만 실제 생물학에서 단백질은 하나의 역할만 하지 않는다.

예를 들어 어떤 kinase를 생각해 보자.

이 단백질은:

Cell cycle
DNA repair
Stress response
Metabolism

에 동시에 관여할 수 있다.

즉 단백질은 본질적으로 다기능적(multifunctional)이다.

그런데 annotation은 이를 카테고리로 단순화한다.

3. Function은 상황에 따라 바뀐다

같은 단백질도 환경에 따라 전혀 다른 역할을 수행한다.

예를 들어:

정상 조직에서는

세포 생존 유지

역할을 하던 단백질이

암 조직에서는

종양 성장 촉진

역할을 할 수 있다.

면역세포에서는 염증 반응에 관여하지만,

간세포에서는 대사 조절에 관여할 수도 있다.

즉 Function은 고정된 속성이 아니다.

Context-dependent property다.

하지만 annotation database는 대개 이를 충분히 반영하지 못한다.

4. Annotation은 연구자의 현재 지식 수준을 반영한다

많은 사람들이 annotation을 절대적 사실처럼 받아들인다.

그러나 annotation은 결국 인간이 축적한 지식이다.

잘 연구된 단백질은 수많은 기능이 등록되어 있다.

반면 새롭게 발견된 단백질은:

Unknown protein
Hypothetical protein
Uncharacterized protein

으로 남아 있는 경우가 많다.

즉 annotation의 양은 biology보다 연구량을 반영하는 경우가 많다.

5. 잘 알려진 biology가 반복적으로 나타난다

Proteomics 논문을 많이 읽다 보면 비슷한 pathway가 반복된다.

Cell cycle
Apoptosis
MAPK signaling
PI3K-AKT signaling
Immune response

왜 항상 비슷한 결과가 나올까?

실제 biology 때문일 수도 있다.

하지만 동시에 annotation bias 때문이기도 하다.

잘 연구된 분야는 annotation이 풍부하다.

따라서 enrichment도 잘 된다.

반대로 새로운 biology는 annotation 자체가 부족하다.

6. Unknown protein은 분석에서 사라진다

Proteomics 데이터에는 종종 기능이 잘 알려지지 않은 단백질들이 포함된다.

문제는 annotation 기반 해석 과정에서 이런 단백질들이 거의 무시된다는 점이다.

연구자는 보통:

"해석 가능한 단백질"

에 집중한다.

결과적으로 기존 지식에 맞는 biology만 강조된다.

어쩌면 가장 중요한 발견이 될 수 있는 새로운 단백질은 분석 과정에서 사라진다.

7. GO Term 자체가 매우 중복적이다

대표적인 annotation 체계인 Gene Ontology 를 생각해 보자.

하나의 단백질은 수십 개의 GO term을 가질 수 있다.

예를 들어:

Regulation of cell proliferation
Positive regulation of cell proliferation
Positive regulation of epithelial cell proliferation
Positive regulation of epithelial cell growth

모두 비슷한 의미다.

결과적으로 enrichment 결과는 수십 개의 유사한 term으로 채워진다.

연구자는 이를 independent finding처럼 해석할 수 있다.

하지만 실제로는 같은 biology를 반복적으로 표현한 것일 수 있다.

8. Annotation은 실제 activity를 알려주지 않는다

이 부분이 특히 중요하다.

Proteomics는 abundance를 측정한다.

하지만 기능은 종종 activity에 의해 결정된다.

예를 들어 kinase를 생각해 보자.

Kinase abundance가 증가하지 않아도:

phosphorylation
localization
conformational change

만으로 활성화될 수 있다.

반대로 abundance는 증가했지만 inactive 상태일 수도 있다.

즉 annotation은 기능 가능성을 알려줄 뿐,

실제 기능 수행 여부를 알려주지는 않는다.

9. Protein abundance와 function은 일치하지 않는다

많은 연구자가 암묵적으로 가정하는 것이 있다.

Protein 증가

↓

Function 증가

하지만 실제 biology는 그렇지 않다.

예를 들어:

inhibitor 증가
inactive isoform 증가
mislocalized protein 증가

등의 경우가 있다.

따라서 abundance 변화만으로 기능 변화를 단정할 수 없다.

10. Functional annotation은 causality를 제공하지 않는다

Annotation 결과를 보면:

"Inflammation protein"

"Cell cycle protein"

같은 표현이 등장한다.

연구자는 종종:

"Inflammation이 활성화되었다."

라고 결론 내린다.

하지만 annotation은 association이다.

인과관계를 제공하지 않는다.

이 단백질이 왜 변했는지,

무엇을 유발했는지,

결과인지 원인인지

알려주지 않는다.

11. Annotation database마다 결과가 달라진다

동일한 protein list를 사용해도:

GO
KEGG
Reactome

결과는 달라질 수 있다.

왜냐하면 각 database가 biology를 분류하는 방식이 다르기 때문이다.

즉 annotation 결과는 biology 자체라기보다 ontology의 산물일 수도 있다.

12. Annotation은 biology를 단순화한다

실제 세포는 거대한 네트워크다.

대사와 신호전달, 면역반응과 세포주기가 서로 얽혀 있다.

하지만 annotation은 이를 카테고리로 나눈다.

Metabolism
Immunity
Cell cycle

등으로 분리한다.

이 과정은 이해를 돕지만 동시에 실제 biology의 복잡성을 숨긴다.

13. Functional annotation을 어떻게 사용해야 하는가

Functional annotation은 매우 유용하다.

문제는 결과를 "사실"로 받아들이는 순간이다.

실무적으로는:

Annotation은 가설 생성 도구로 사용

결론이 아니라 출발점으로 본다.

Context 고려

세포 종류와 질병 상태를 함께 해석한다.

Multiple database 비교

하나의 ontology에 의존하지 않는다.

Unknown protein도 주목

기존 지식에 없는 단백질도 확인한다.

Functional validation 수행

실제 activity를 추가 실험으로 검증한다.

결론

Functional annotation은 Proteomics 데이터를 이해 가능한 생물학적 언어로 번역해주는 강력한 도구다. 하지만 그것은 어디까지나 번역기이지, 생물학적 진실 자체는 아니다.

Annotation은 인간이 만든 분류 체계이며, 현재까지 축적된 지식과 연구 편향을 반영한다. 단백질은 하나의 기능만 수행하지 않고, 상황에 따라 역할이 바뀌며, abundance 변화가 곧 기능 변화를 의미하지도 않는다. 또한 annotation은 실제 activity나 causality를 제공하지 않는다.

결국 Functional annotation은 세포 안에서 실제 일어나는 일을 보여주는 창이라기보다, 우리가 현재 알고 있는 생물학을 통해 데이터를 해석하는 렌즈에 가깝다.

이 사실을 이해하기 시작하면 이전에는 너무 명확해 보였던 "cell cycle activation"이나 "immune response enrichment" 같은 표현이 다르게 보이기 시작한다. 왜 같은 데이터에서 연구자마다 다른 결론이 나오는지, 왜 annotation이 풍부한 pathway만 반복적으로 등장하는지, 왜 새로운 biology는 종종 annotation 밖에 존재하는지에 대한 답이 바로 Functional annotation의 구조적 한계 안에 숨어 있기 때문이다.

728x90

'제약산업' 카테고리의 다른 글

전처리 방법 선택이 생물학적 결론을 바꾸는 이유 (0)	2026.06.12
재현되지 않는 Proteomics 연구의 공통된 패턴 (0)	2026.06.11
Multi-omics Integration에서 발생하는 해석 오류 (0)	2026.06.10
Proteomics 데이터로 Mechanism을 단정하면 위험한 이유 (0)	2026.06.09
Protein interaction 데이터의 신뢰성 문제 (0)	2026.06.07
Database Bias가 해석을 왜곡하는 방식 (0)	2026.06.06
Network analysis가 과해석으로 이어지는 이유 (0)	2026.06.05
Proteomics에서 Causation vs Correlation 구분하는 방법 (0)	2026.06.04

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

제약회사 연구원의 블로그

티스토리 뷰