메뉴 바로가기 컨텐츠 바로가기 푸터 바로가기

CAU News
글자 확대축소 영역

응용통계학과 곽일엽 교수 연구실 연구성과 ‘네이처 바이오테크놀로지’ 게재

관리자 2024-11-13 조회 1224

응용통계학과 곽일엽 교수 연구실이 미네소타대와 협력해 도출한 연구 결과가 상위 1% 학술지인 네이처 바이오테크놀로지(Nature Biotechnology)에 게재됐다. 네이처 바이오테크놀로지는 네이처(Nature)의 자매지로 생명과학·화학분야에서 큰 명성을 자랑하는 세계 최상위 학술지다. 



(왼쪽부터) 김병찬 석사, 강태인 석사, 이주현 졸업생, 곽일엽 교수


최상위 학술지에 게재되 성과를 거둔 이번 연구 결과는 IBM의 연구 개발 부서인 IBM 리서치가 운영하는 ‘드림 챌린지(Dream Challenge)’를 통해 만들어진 것이다. 드림 챌린지는 세계 각국의 연구자들이 의생물학 분야의 빅데이터 문제를 대회 형식으로 풀어내며 공동 연구하는 플랫폼이다. 


대회에는 곽 교수를 비롯해 통계학과 석사과정을 졸업한 김병찬·강태인 석사, 통계학을 복수전공한 이주현 유럽문화학부 프랑스어문학전공 졸업생이 Unlock DNA팀을 이뤄 참여했다. 해외 협력 교수로 참여한 우밍 공(Wuming Gong) 미네소타대(University of Minnesota) 교수가 힘을 보탰다. 


드림 챌린지가 주관한 국제 유전자 발현 예측 대회에 참가한 Unlock DNA팀은 ChatGPT 등에도 활용되는 트랜스포머(Transformer) 모델을 유전자 데이터 상황에 맞게 변형한 프로포머(Proformer) 모델을 제안했다. 트랜스포머 블록 안에 1D convolution을 추가하는 아이디어를 실험했고, 언어모형 훈련처럼 마스크 필링(Mask filling) 방식을 혼합해 모형을 학습시켰다. 



그 결과 Unlock DNA팀은 총 110개 팀이 참여한 대회에서 3등을 기록하는 성과를 거뒀다. 이들의 연구 결과는 미국 라스베이거스에서 열린 ‘RSG(Regulatory & Systems Genomics) 드림 챌린지’를 통해 발표됐다. 


대회 1등부터 3등까지의 모든 팀이 서로 다른 접근방식을 활용한 것이 후속 연구성과를 낳는 좋은 결과로 이어졌다. 실제 1등을 차지한 러시아 과학 아카데미(Russian Academy of Sciences) 팀은 1D CNN, 2등인 서울대 컴퓨터학과 팀은 Bidirectional LSTM 모형, Unlock DNA 팀은 트랜스포머 기반 모형을 각각 활용했다. 


곽 교수는 “다른 접근방식의 모형을 활용한 만큼 공동연구 진행 시 서로 다른 모형들 간 융합에서의 시너지를 생각할 수 있었다. 추가적인 공동연구 결과 다른 의학 유전자 데이터에 대해서도 합동팀이 개발한 모형들이 모두 세계 최고 수준의 성능을 달성했다는 점이 확인됐다. 이러한 결과가 네이처 바이오테크놀로지에 게재됐다”고 설명했다. 


한층 상세한 연구성과는 네이처 바이오테크놀로지에 게재된 ‘A community effort to optimize sequence-based deep learning models of gene regulation’ 논문을 통해 확인할 수 있다. 


공동연구팀의 코드는 깃허브(Github)를 통해 공개돼 있어 누구나 손쉽게 활용 가능하다. 해당 코드 활용을 희망하는 경우 URL(https://github.com/de-Boer-Lab/random-promoter-dream-challenge-2022/tree/main)을 통해 접속하면 된다.