UPDATED. 2026-02-13 07:55 (금)
데이터의 동굴을 나서며…설명을 요구하고 검증을 반복하는 데이터 시대의 합리성
데이터의 동굴을 나서며…설명을 요구하고 검증을 반복하는 데이터 시대의 합리성
  • 이태헌
  • 승인 2025.11.05 08:56
  • 댓글 0
이 기사를 공유합니다

세상의 중심에서 심리학을 외치다_ 열여섯 번째 주제 ‘미신 한국’④

데이터는 강력한 도구이지만 곧 진실은 아니다. 
과학은 질문 위에서 자란다. 
데이터의 허점을 묻고 알고리즘의 책임을 따지는, 
데이터과학의 시대를 열어야 한다. 

‘내 삶의 심리학 마인드’와 <교수신문>이 함께 ‘세상의 중심에서 심리학을 외치다’ 공동 기획을 마련했다. 최근 사회적으로 이슈가 되고 있는 주제를 다양한 관점으로 들여다보는 주제탐구 방식의 새로운 기획이다. 한 주제를 놓고, 심리학 전공 분야의 마음 전문가들이 다양한 시각과 분석을 통해 독자의 깊이 있고 입체적인 이해를 돕는다. 마음 전문가의 눈에 비친 세상의 모습은 길을 잃은 현대인에게 길잡이가 될 것이다. 몸과 MBTI, 학교 정글, 중독에 빠진 대한민국, AI시대의 심리학, 웰에이징 시대, 법에도 마음이 있다, 광고 심리학을 입다, 가족이 제일 어려워, ‘예술, 심리학을 만나다’, ‘심리학, 마음을 재다’, ‘잠을 잊은 그대에게’, ‘상담의 기술’, ‘심리학, 감정을 파헤치다’, ‘한국 청년들의 무기력’에 이어 열여섯 번째 주제로 ‘미신 한국’을 다룬다. 이태헌 고려대 심리학부 교수의 네 번째 글이다.

데이터라는 이름의 미신

빅데이터와 인공지능이 만능처럼 떠오른 시대에 우리는 데이터를 곧 진리로 착각하기 쉽습니다. “숫자는 거짓말하지 않는다”, “데이터가 많을수록 정확하다”는 말도 이미 익숙합니다. 기업은 데이터를 근거로 사람을 뽑고, 정부는 알고리즘으로 위험을 예측하며, 우리는 AI 추천을 따라 콘텐츠를 고릅니다. 

우리는 데이터와 알고리즘에 대해 몇 가지 착각에 빠지곤 합니다. 먼저, 데이터가 많을수록 정확하다는 믿음입니다. 그러나 사실은 치우친 표본이나 부실한 측정값이 쌓이면, 오류는 오히려 더 크게 부풀려질 뿐입니다. 소셜미디어 데이터는 특정 연령이나 성향에 치우치고, 온라인 설문은 참여 의지가 강한 집단만 모여 무응답자의 목소리를 지워버리기도 합니다. 또 다른 착각은 알고리즘이 중립적이라는 믿음입니다.

그러나 사실 알고리즘은 사람이 세운 목표와 선택, 그리고 사회의 불균형을 그대로 반영합니다. 데이터 속 불평등이 옮겨가면, “공정한 기계”조차 불공정한 결론을 내놓습니다. 또 하나의 흔한 오해는 상관관계가 곧 인과관계라는 착각입니다. 비 오는 날 우산 판매와 교통사고가 함께 늘어났다고 해서 우산이 사고를 일으켰다고 할 수는 없습니다. 사실은 ‘비’라는 제3의 요인이 두 현상을 동시에 만든 것인데 말입니다. 데이터는 윤곽을 보여줄 뿐, 현상을 움직이는 동력까지 드러내지는 못합니다. 배경이나 주변 사정을 보지 않으면 그럴듯한 숫자도 쉽게 엉뚱한 결론으로 이어집니다.

데이터가 신화가 되는 순간, 과학은 미신으로 돌아간다. 그림=챗GPT

잘못된 데이터는 그릇된 판정의 뿌리

알고리즘이 잘못 판정하는 뿌리는 결국 데이터에 있습니다. 남성 위주의 채용 데이터를 학습한 AI 모델은 남성 지원자에게 유리한 점수를 주었고, 범죄 위험 예측 모델은 과거 단속과 기소가 특정 인종·지역에 집중되어 있었다면, 그 편향을 그대로 반복했습니다. 팬데믹 시기 영국의 성적 산정 알고리즘은 저소득 지역 학생들의 점수를 체계적으로 낮췄고, 결국 거센 반발 끝에 폐기되었습니다.

국내에서도 대화형 AI가 여성, 장애인, 성소수자, 이주민을 향한 편견을 그대로 드러낸 사례가 있었습니다. 신용평가 모델 가운데 일부는 금융 이력이 부족한 청년이나 노인을 위험 고객으로 분류해 대출을 막은 사례가 있었고, 영상 면접 AI 역시 시선 처리나 어조, 표정 같은 겉모습에 지나치게 의존해 표현이 절제된 성향이나 특정 신체적·인지적 조건을 가진 지원자를 불리하게 취급한 사례가 보고되었습니다. 결국 데이터는 다양한 삶의 결을 충분히 담지 못했고, 숫자는 이들의 사연과 서사를 가려버린 것입니다.

데이터와 AI의 편향은 수집에서 평가까지 모든 과정에 스며듭니다. 특정 집단을 배제한 조사 설계는 선택 편향을 낳고, 응답하기 어려운 이들의 침묵은 무응답 편향으로 이어집니다. 잘못된 측정 기준은 특정 문화와 성향을 불리하게 만들며, 사람의 주관적 판정이 라벨로 쓰이면 편견이 정답처럼 굳어집니다. 농어촌, 저소득층, 장애인, 노인의 데이터가 부족하면 모델은 그들을 사실상 “모르는” 상태에서 판단하게 됩니다. 결국 ‘Garbage in, garbage out’은 변하지 않는 진리입니다. 아무리 정교한 딥러닝도 잘못된 데이터를 구원하지는 못합니다.

출발선에서 바로잡아야 할 것은 데이터입니다. 채용, 신용, 의료, 복지처럼 사람들의 삶에 직결되는 중요한 결정에 쓰이는 데이터는 무엇보다 대표성을 갖춰야 합니다. 이를 위해 소수 집단의 사례를 적극적으로 보강하고, 부족한 범주는 추가 수집이나 가중치 보정, 합성 데이터로 보완해야 합니다. 또한 모델 설계 단계부터 공정성을 목표로 삼아야 하며, 집단별 오류와 거짓 판정을 꾸준히 모니터링해야 합니다. 영상·음성 평가에서는 겉모습보다 문제 해결 과정과 맥락 이해 능력을 더 중시하고, 말 대신 글로 답하기, 화면 낭독기 사용, 시험 시간 연장 같은 대체 경로도 열어주어야 합니다.

데이터의 동굴 속에서 진실은 숫자가 아니라 그 너머를 바라보는 인간의 질문과 책임에 있다. 그림=챗GPT

AI의 결과는 설명할 수 있어야 한다

설명 가능한 AI는 이제 선택이 아니라 기본이 되어야 합니다. 중요한 결정은 왜 이런 점수가 나왔는지 사람이 이해할 수 있어야 하고, 데이터 정정과 이의제기 절차도 반드시 보장해야 합니다. 채용이나 대출에서 AI로 탈락한 경우, 반드시 사람이 다시 검토하고 2차 기회를 주어야 합니다.

외부 기관의 감사와 영향평가도 필요합니다. 모델과 데이터를 정기적으로 점검해 편향을 확인하고, 도입 전에는 예상 위험 요인을 체계적으로 검토하며, 운영 중에는 집단별 분석 결과를 공개해야 합니다. 개발팀 또한 다양한 배경의 사람들로 구성되어야 하며, 사용자와 피평가자가 직접 참여해 현장의 맥락이 제대로 반영되도록 해야 합니다. 

정부와 공공기관, 대학은 데이터 리터러시 교육을 강화해야 합니다. 우리가 기억해야 할 기본은 세 가지입니다. 첫째, 데이터가 많다고 해서 곧 진실이 되는 것은 아닙니다. 동굴 벽에 그림자가 아무리 많이 드리워져도 그것이 곧 이데아의 세계를 증명하지는 못합니다. 잘못된 데이터가 쌓이면, ‘적비성시(積非成是)’라 하듯, 그릇된 것이 옳은 듯 둔갑할 수 있습니다.

둘째, 알고리즘은 결코 중립적이지 않습니다. 동굴 속 그림자의 모양이 누가 불을 지피고, 어떤 사물을 비추느냐에 따라 달라지듯, 알고리즘은 사람이 세운 목표와 선택, 그리고 사회의 불균형을 고스란히 반영합니다. 이는 인과응보(因果應報), 곧 원인이 잘못되면 결과도 반드시 그릇될 수밖에 없다는 이치와 같습니다. 알고리즘은 이데아의 빛을 비추는 맑은 거울이 아니라, 불완전한 손길이 만든 그림자극의 무대에 가깝습니다.

셋째, 숫자는 맥락을 대신할 수 없습니다. 동굴 속 사람들은 벽에 비친 그림자의 윤곽만 바라보지만, 사람살이의 숨은 본질은 그 너머에 있습니다. 데이터는 그림자의 윤곽을 드러낼 뿐, 이데아의 빛까지 담아내지는 못합니다. 수치만 좇으면 결국 본질이 아닌 껍데기만 붙잡게 됩니다.

데이터과학의 시대로

결국 중요한 것은 질문입니다. 데이터가 누구의 목소리를 담고, 누구의 목소리를 빠뜨렸는지 묻는 일입니다. 숫자만 바라보지 말고 그 바깥을 살펴야 합니다. 평균이라는 냉정한 잣대가 인간의 따듯한 이해가 필요한 지점을 놓치고 만다는 사실을 인정해야 합니다. AI의 예측은 어디까지나 참고일 뿐이며, 최종 판단의 책임은 인간에게 있습니다. 의심은 비과학이 아니라 과학의 태도입니다. 반례를 찾고, 설명을 요구하고, 검증을 반복하는 태도야말로 데이터 시대의 합리성을 지탱합니다.

데이터는 강력한 도구이지만 곧 진실은 아닙니다. 그것을 집을 짓는 데 쓸지, 허무는 데 쓸지는 망치가 아니라 망치를 쥔 사람에게 달려 있습니다. 과학은 질문 위에서 자랍니다. 우리는 이제, 데이터 동굴의 시대를 넘어, 데이터의 허점을 묻고 알고리즘의 책임을 따지는, 데이터과학의 시대를 열어야 합니다. 

이태헌 고려대 심리학부 교수
서울대에서 심리학으로 석사 과정을 마친 뒤, 미국 노스캐롤라이나대 채플힐에서 통계학 석사와 계량심리학 박사학위를 취득했다. 이후 UCLA에서 박사후 연구원을 거쳐 미국 오클라호마대에서 조교수로 근무했으며, 중앙대를 거쳐 현재 고려대에서 교수로 재직 중이다. 주된 연구 목표는 인간의 심리와 행동을 데이터로 이해하는 데 있다. 심리학과 데이터과학의 경계를 잇는 연구를 통해, 복잡한 인간 경험을 정량적이고 체계적으로 탐구할 수 있는 새로운 접근을 모색하고 있다. 또한 신뢰롭고 공정한 데이터 분석과 알고리즘 설계를 기반으로, 심리학적 통찰이 인공지능과 데이터 중심의 의사결정 시대에도 지속적으로 의미 있게 활용될 수 있도록 하는 데 힘쓰고 있다. 


관련기사

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.