최신 '알파고 제로', 이세돌 이긴 '알파고 리'에 100전 100승
- 구글 알파고, 2년새 무섭게 진화
바둑 규칙만 알고선 '강화 학습'… 인공지능이 인간의 뇌처럼 작동
- 신약·신소재 개발에 돌파구 기대
세상에 없는 창의적 바둑 두었듯 기존 데이터 없이 해법 찾기 가능
"승률만 따지는 AI" 한계 지적도
이세돌과 커제 9단을 꺾었던 바둑 인공지능 알파고(AlphaGo)가 기보(棋譜) 학습 없이 '바둑의 신' 경지에 올라섰다. 구글 딥마인드의 공동 창업자인 데미스 허사비스와 수석과학자인 데이비드 실버 박사는 18일 국제 학술지 네이처지에 실린 논문에서 "알파고의 최신 버전인 '제로(Zero)'가 지금까지 바둑 세계 챔피언들을 잇따라 격파한 이전 알파고의 성능을 넘어섰다"고 밝혔다.
허사비스 딥마인드 CEO(최고 경영자)는 "알파고 제로는 혼자 바둑 학습을 한 지 단 3일 만에 이세돌을 이긴 '알파고 리(Lee)'를 100대0으로 완파했고 학습 21일차에는 지난 5월 중국 커제 9단을 3대0으로 이긴 '알파고 마스터(Master)'의 수준을 넘어섰다"고 밝혔다. 알파고 리는 이세돌의 성(姓)을 따서 만든 이름이고, 알파고 마스터는 최고 경지에 올랐다는 뜻으로 붙였다.
알파고는 지금까지 사람이 둔 바둑 기보를 학습해 수를 터득했다. 지난해 이세돌 9단을 4대1로 이긴 알파고 리의 경우 경기 전 7개월 동안 기보 16만건을 학습했다. 하지만 알파고 제로는 이전 버전과 달리 바둑의 기본 규칙 외에 아무런 정보를 제공받지 않았다. 오로지 스스로 가상 바둑을 두면서 수를 터득했다. 인간이 만든 기보라는 빅데이터를 입력하지 않아도 수없이 가상 바둑을 두면서 스스로 빅데이터를 만든 셈이다.
허사비스는 "알파고가 단 2년 만에 이처럼 발전한 것이 경이롭다"며 "알파고 제로에 쓰인 인공지능 기술은 단백질 구조를 밝히거나 에너지 사용량을 획기적으로 절감하는 신소재 개발같이 인류가 당면한 모든 문제를 해결하는 데 획기적인 전기를 마련할 것"이라고 밝혔다.
◇100년 된 심리 기법 동원
이세돌을 꺾은 알파고 리는 2단계의 연산 과정을 거친다. 정책망이라는 인공 신경망으로 먼저 바둑돌을 놓을 곳을 찾고 이후 해당 수의 승률을 가치망이라는 별도의 신경망으로 판단한다. 반면 알파고 제로는 정책망과 가치망이 동시에 작동한다. 쉽게 말해 바둑돌을 놓는 순간 해당 수의 승률까지 계산한다는 것이다. 계산의 효율성이 높아지면서 알파고 리는 인공지능 전용 칩(TPU)을 48개 쓴 반면 알파고 제로는 단 4개로 줄었다.
바둑알에 우주가 담겼다. 바둑에서 나올 수 있는 모든 경우의 수는 10의 170제곱으로 우주 전체의 원자 수보다 많다. /딥마인드
이정원 한국전자통신연구원(ETRI) 선임 연구원은 "알파고 제로의 또 다른 강점은 강화 학습"이라고 말했다. 강화 학습은 인간이나 동물의 뇌에서 실제로 작동하는 방식이다. 개를 훈련할 때는 이렇게 해라, 저렇게 하라 일일이 하지 않는다. 잘하면 간식을 주고 못하면 외면하는 방식으로 좋은 행동을 스스로 배우게 한다. 알파고 제로 역시 높은 승률이 보상으로 주어지는 수를 끊임없이 찾는다.
세계적인 뇌과학자인 이대열 미국 예일대 의대 교수는 "강화 학습은 심리학에서 약 100년 전에 나온 개념이지만 최근 뇌과학에서 연구가 활발하다"며 "뇌과학의 성과는 바로 인공지능 개발로 이어지고 있다"고 말했다.
알파고 제로의 독학은 세상에 없던 창의적인 수로 나타났다. 이정원 연구원은 "알파고 제로는 '붙이면 젖혀라'와 같은 기존 바둑 원칙에서 자유로운 수를 둔다"며 "결국 알파고 제로는 인간과 다른 길을 가면서 스스로 '바둑의 신' 경지에 올랐다"고 말했다.
◇인류 난제 해결에 돌파구 될 듯
전문가들은 알파고 제로가 인공지능의 활용 폭을 획기적으로 넓혀 줄 것으로 기대하고 있다. 이식 한국과학기술정보연구원 박사는 "바둑판이라는 한정된 공간처럼 외부 개입이 없는 특정한 조건 안에서는 인공지능이 빅데이터 없이도 무엇이든 최적의 해법을 찾아낼 수 있다는 뜻"이라고 말했다. 예를 들어 서울 시내의 인구 분포와 업무 공간을 알파고 제로에 입력하면 실제 교통 상황에 대한 정보 없이도 기존과 전혀 다르면서 완벽하게 효율적인 지하철과 버스 노선도를 그려낼 수도 있다. 또 자율 주행차가 실제 도로 운행에서 마주칠 수 있는 수많은 돌발 상황을 사람이 일일이 검토하는 것은 불가능하지만, 알파고 제로를 활용하면 지금까지 발생하지 않은 사고 형태까지 예측해 대비할 수 있다.
건물이나 공장 같은 곳의 전력 효율도 획기적으로 줄일 수 있다. 실제로 허사비스 딥마인드 CEO는 지난 5월 "지난해 구글의 데이터센터에 알파고를 활용한 결과 전력 소모량을 40%나 줄일 수 있었다"고 밝혔다.
알파고 제로의 한계도 있다. 차두원 한국과학기술기획평가원 연구위원은 "알파고 제로의 작동 방식은 왜 그 수를 뒀는지 명확하게 사람이 설명할 수 없기 때문에 예상치 못한 부작용이 생길 수도 있다"면서 "철저히 승률만 따지는 방식을 인간의 생활에 적용할 수 있는지는 고민해봐야 할 문제"라고 말했다.
[이영완 과학전문기자 ywlee@chosun.com]
조선일보 기사입력 2017-10-19 03:12 http://biz.chosun.com/site/data/html_dir/2017/10/19/2017101900332.html