시민을 위한 데이터는 어떻게 가능할까

과학의 과학 ⑩ 데이터

데이터가 존재하지 않으면 우리의
인식의 범주도 달라진다. 데이터의 부재,
인식의 부재, 더 나아가 정책의 부재는
모두 연계된 사회 현상이라고 볼 수 있다.

데이터라는 용어는 중립적이고 객관적인 것으로 보이지만, 사실 사회학자들은 데이터 자체도 사회적 맥락에 따라 생산되고, 보급되며, 활용되거나, 심지어 오용되기도 할 수도 있음을 지적해 왔다. 직관적으로 우리 사회의 각종 불평등에 대한 지표, 환경 오염의 정도에 대한 지표가 존재하지 않는다고 가정해 보자. 그러한 사회에서 살게 된다면 우리는 우리가 불평등한 사회에서 살고 있는지의 여부도, 오염된 환경 안에서 살고 있는지조차도 알 수 없을 것이다.

더 나아가, 이러한 대상을 측정하고 자료화해 우리가 '데이터'라고 부르는 형태로 가공하여 저장하는 것은 그 자체로 사회적인 혁신이라고 볼 수 있다. 근대 사회학의 거장 중 하나로 꼽히는 W. E. B. 두 보이스(1868∼1963)는 1889년 『필라델피아의 흑인들』이라는 기념비적인 책에서 도시의 빈곤 분포, 평균 수명 분포를 인종과 구역에 따라 조사하고 기록했다. 인종이 ‘불평등’을 야기하는 독립변수가 될 수 있다고 가정하고 이에 대한 자료를 조사하는 행위, 그리고 이러한 자료를 정량화해 기록하고 시각화하는 행위는 그 자체로 사회가 상상한 적이 없는 새로운 ‘앎의 영역’을 개척해 내는 것과 같다. 우리가 당연하게 여기고 있는 수많은 데이터의 존재는 사실 이와 같은 거대한 상상력의 전환을 통해 가능해진 것이다.

그렇다면 각종 사회 조사와 소셜 미디어 데이터가 범람하고 있는 현대사회는 어떨까. 물론 절대적인 데이터의 양 자체는 무궁무진하게 증가하고 있지만, 이것만으로는 이러한 데이터들이 우리 사회를 더욱 진전시키고 있다고 속단할 수는 없다. 왜냐하면 데이터의 측정·생산·가공은 커다란 사회적·경제적 비용을 필요로 하기 마련이며, 따라서 이미 권력과 부를 소유한 사회 집단이 데이터에 대한 주도권을 쥐게 되기 때문이다.

가족 돌봄에 종사하는 청소년과 청년인 ‘영 케어러’는 사회 데이터가 없으면 인식조차 되지 못했을 것이다. 사진=픽사베이

환경 데이터를 왜곡시킨 화학 회사

환경 데이터는 대표적인 예시이다. 미국 루이지애나 주의 중화학공업지대는 오랫동안 환경운동가들 사이에서 ‘죽음의 골목’이라고 불렸다. 이 지역의 공장에서 내뿜는 오염 물질과, 지역 주민들 사이의 높은 암 발병률로부터 기인한 것이다. 듀퐁(Du Pont), 덴카(Denka), 신테크(Shintech)와 같은 다국적 화학 회사들은 이 지역의 환경 오염의 수준이 기준치 이하라고 주장하고 있는 한편, 대부분이 흑인으로 구성된 지역 주민들은 건강 이상을 호소해 왔다.

2021년 조 바이든 대통령이 이 지역에 대한 환경 정의의 구현을 명시적으로 지시하기 전까지, 이 지역의 환경 오염 데이터는 주민의 편에 서기보다는 기업의 영리활동에 손을 들어주는 방향으로 수집됐다. 객관적이고 과학적인 궁극의 환경 데이터 측정 방법이 존재할 것이라는 우리의 상상과 다르게, 데이터는 누가, 어떤 방식으로, 어느 장소를, 얼마나 자주, 그리고 어떤 목적으로 측정하느냐에 따라 달라질 수 있다. 또한 데이터 그 자체에서 그치지 않고 데이터 사이의 상관관계에 대한 분석으로 논의를 확장한다면 권력의 영향력은 더더욱 커진다. 환경 오염의 정도와 지역 주민들 사이의 병리 현상을 ‘인과적’인 현상으로 볼 것인지 아닌지는 과학의 영역뿐 아니라 사회적·정치적 판단의 영역이 되기도 한다.

자연과학적 데이터가 아닌 사회에 대한 데이터는 어떨까. 우리 모두가 ‘사회’의 현 상태를 상상할 수 있는 것은 이미 존재하는 데이터의 덕이 크다. 데이터가 존재하지 않는 사회 현상은 우리 상상의 대상조차 되지 않거나, 혹은 상상하더라도 근거 없는 가설이 되고 만다.

조금 더 구체적인 상황을 상상해 보자. 사회 데이터가 없다면 시민들은 자신이 비판하고자 하는 사회 현상의 근거를 찾을 수 없게 될 것이며, 정책 연구자들과 정치인들은 효과적인 해결책을 만들어내지도 못할 것이다. 예를 들어, 지난해 한 해 동안 전국의 다양한 지자체들은 ‘영 케어러’를 조사하고 지원하기 위한 다양한 조례들을 마련한 바 있다. 영 케어러는 가족 돌봄에 종사하는 청소년과 청년을 뜻하는데, 이러한 범주의 인구가 존재할 수 있다는 발견 자체는 최근에서야 이루어졌다. 왜냐하면 한국 사회에서 ‘효자·효녀’들은 언제나 있어 왔지만 이들을 ‘영 케어러’라고 지칭하고, 사회적 지원과 관심히 필요한 집단이라는 인식은 이루어진 적이 없기 때문이다.

데이터 없으면 자신을 제대로 인식 못해

데이터가 존재하지 않으면 우리의 인식의 범주도 달라진다. 영 케어러 당사자조차 자신들이 영 케어러라는 점을 알지 못하며, 사회의 도움을 받아야 한다는 생각조차 하지 못하는 것이다. 데이터의 부재, 인식의 부재, 더 나아가 정책의 부재는 모두 연계된 사회 현상이라고 볼 수 있다. 데이터 과학자 김재연의 신간 『우리에게는 다른 데이터가 필요하다』(세종서적)에 따르면, 데이터 홍수의 시대일수록, 시민들이 자신들의 권리와 이익을 위해 공공의 데이터를 손쉽게 활용할 수 있도록 적극적인 전략을 모색해야만 한다. 아이러니하게도 시민들이 자신의 삶을 개선하기 위해 사회에 대한 데이터를 활용하고자 한다면 너무나 많은 장벽들이 존재하기 때문이다.

‘시빅 데이터 사이언티스트’라고 불리는 직군의 전문가들은 공공 데이터를 구축하고 시민과 데이터를 연결하기 위한 다양한 연구를 수행하고 있다. ‘시빅 사이언스(civic science)’도 있다. 시민이 참여하여 만드는 과학을 뜻하는 ‘시민과학(citizen science)’의 관점과는 달리, ‘시빅 사이언스’는 시민에게 유용한 과학을 뜻한다. 시민들이 과학적 데이터를 활용해 자신들의 삶의 질을 개선하고, 공통의 문제를 해결할 수 있도록 해야 한다는 것이다. 이는 사회 운동 차원을 넘어 과학 운동의 영역이기도 하다.

시민들이 과학과 데이터를 유용하게 활용할 수 있도록 하기 위해서는 과학에 대한 근본적인 결정권을 시민들이 갖고 있다는 것을 과학자와 과학 행정가가 모두 이해해야 한다. 여기서 과학은 자연과학과 사회과학을 망라해야 함은 물론이다.

전준
카이스트 디지털인문사회과학부 조교수

전준 다른기사 보기