공부하고 기록하는, 경제학과 출신 개발자의 노트

일상 속 생각

정부부처의 공공데이터 활용 - 2018 공공빅데이터 성과공유대회

inspirit941 2019. 2. 2. 13:15
반응형


19.01.29
행정안전부 주최 ‘2018 공공빅데이터 성과공유대회가 2019년 1월 29을지로입구 페럼타워에서 열렸습니다행사 며칠 전 메일로 참여 신청이 가능하길래정부 입장에서 공공데이터를 어떻게 활용했는지 알 수 있을 것 같아 신청했습니다몇 년 전 갔었던 공공데이터 활용경진대회는 공공데이터를 민간에서 어떻게 활용했는지였고이번에는 공공데이터를 정부가 어떻게 활용했는지를 확인하고 싶어서였습니다.


2부에 있는 주요 추진계획은 간단히 말해 올해도 공공데이터 공개 많이 하겠다였고정부기관에서 데이터 분석을 시행한 사례 중 모범이 될 만한 것을 표준화하는 작업에 주안점을 두고 있다고 했습니다표준화한 사례를 각 부처에 공유해서데이터 분석을 하려는 정부 기관들이 참고할 수 있도록 하겠단 의미였죠그 외에도 각 부처가 데이터 분석을 할 때 도움이 될 인력을 수급하기 위해올 여름에 청년 인재들을 두 달 정도 교육한 다음 필요한 부처에 공급하겠다는 계획도 들었습니다.





제가 생각한 우수발표
<국립재난안전연구원 – 팀장 발표
빅데이터 기반 맞춤형 지진 대응체계 과학화
 
포항에서 지진이 발생했을 때 국민들이 어떻게 반응했는지
어떤 점이 취약점이었는지

어떤 개선이 필요한지를 데이터로 들여다본 사례입니다


포항시청의 ‘지진 관련 대피시설 및 구호현황 데이터’, 
행정안전부의 ‘지진피해 목록’, 
공공데이터포털의 ‘건축물대장 / 통계청 인구 / 공공 및 교통시설’, 
기상청 데이터 및 통신사의 ‘유동인구 데이터’

를 활용했다고 합니다.


지진 발생 후 시민들의 이동패턴

1. 주거지역


장량동  지진 발생 후 약 14,000명이 동네를 떠났으며, 인구 복구까지 대략 12일이 걸렸다고 합니다.




홍해읍 – 지진 발생 직후 생활인구가 약 1,700명 감소했으며평소의 인구유동보다 인근 지역으로의 유출이 많았습니다.





지진 진원지에서 가까운 두 개의 행정구는,
지진 발생 후 시간이 지날수록 시민들이 도시 외곽으로 빠져나가는 모습이 관측되었습니다.



2. 상업시설





전통시장  인구 감소폭은 평소보다 크게 나타나지만, 그래프의 개형은 변하지 않았다고 합니다. 학교나 백화점 같은 집객지역에 비해 지진발생 시 시민들의 움직임 변화가 적다는 점을 근거로 들어 지진 발생 후 대피가 이루어지지 않을 가능성이 있는 지역으로 해석했습니다.



교통 병목구간 분석



통신사 데이터를 바탕으로 시간대별 교통패턴을 분석포항IC로 많이 몰렸다는 결과를 표시했습니다. 불안에 빠진 시민들이 포항시 외곽으로 벗어나려 했던 경향 파악은 굳이 데이터를 분석해야만 얻어낼 수 있는 결론은 아니라고 생각하지만데이터 시각화 측면에서는 나름 의미를 찾을 수 있을지도 모르겠습니다.


지진 피해지역 현황분석 및 문제점 파악


지진 진원지를 중심으로건축물대장 데이터와 GIS통합건물 데이터를 취합해 내진설계가 필요한 건물지진 위험반경 내에 대피소 구호소 건물이 포함되어 있었는지를 파악했다고 합니다.




통신사 데이터에 기반한 생활인구가 통계청 기반 인구통계 보다 많게 집계되는데, 구호소와 대피소는 통계청 데이터를 기준으로 배치되어 있었습니다. 따라서 비상시 구호소와 대피소의 수용한계를 넘어설 수 있다는 결론을 도출했습니다. 






또한 행정구역 기준으로 대피소 구호소가 설치되어 있기 때문에 활용도가 떨어진다는 점을 지적하고대안으로 생활인구 기반 시설 영향권을 설정하고해당 영향권에 맞게 대피소의 규모와 위치를 선정해 피해를 최소화하는 방안을 제시했습니다.




정부 입장에서 실무에 반영할 수 있는 데이터 기반 의사결정의 모범사례라는 생각이 들었습니다통신사 데이터를 통해 생활인구와 생활권역을 파악하고재난 대비를 위한 시설물이 비상시에 제 역할을 할 수 있을지 다각도로 고민한 흔적이 보였기 때문입니다특히 행정동 단위로 설정된 현재 구호소 입지에 개선이 필요하다는 것을 데이터로 입증하는 과정이 흥미로웠습니다이 날 있었던 발표 중 유의미한 분석을 실제로 진행한 몇 안 되는 사례 중 하나로 꼽고 싶습니다.




제가 생각한 낙제 발표

<안전보건공단 – 차장 발표

산업재해 원인 및 산재 미보고 재정손실 분석 


산업재해가 자주 일어나는 업종이 무엇인지
산업재해 사망률에 영향을 미치는 요인에는 어떤 것들이 있는지를 분석한 결과라고 합니다.



분석에 사용했다고 주장하는 데이터입니다공단 내부 데이터 외에도 국가 통계경제지표환수정보(건강보험공단), 기상청 데이터까지 이것저것 많이 끌어왔습니다.


분석 방법입니다발표자가 통계학에 무지했는지 길게 설명을 안 하고 넘어갔지만산업재해로 인한 사고사망만인률 발생원인 규명을 위한 분석은 다중회귀분석 하나만 쓴 것으로 보입니다산업재해 미보고 미신청 사업장 파악에는 어떤 모델을 썼는지 밝히지 않았습니다.






지리한 통계수치를 늘어놓습니다물론 데이터 분석이 아니라 탐색만으로도 의미를 찾아낼 수는 있지만예상과 크게 다르지 않은 탐색 결과는 그다지 흥미롭지 않습니다단적으로안전보험공단 사람들이나 제조업 현장근로자 / 기업이 높은 곳에서 작업하는 비계작업이 위험하고이동식크레인에서 발생하는 사고가 부상보다 사망빈도가 높다는 걸 몰랐을까요. 이 통계수치를 비판하는 이유는, 뒤에 설명할 사고사망만인율 예측변수와는 별 상관 없는 통계치를 들이밀었기 때문입니다.




사고사망만인율 영향분석이라고 설명하는 걸 보니통계학과 2학년 정도면 해낼 수 있는 작업이라는 느낌이었습니다온갖 부처에서 끌어모은 데이터 변수를 선별하지 않고 선형회귀분석 프로그램에 몽땅 넣고 돌린 뒤, coefficient가 양수인 것 음수인 것 중에 p-value 높은 것 몇 개 끌어와 설명한 듯한 느낌을 지울 수 없었습니다.

특히 '영향 요인'이라고 나열한 것들을 보니다중공선성을 띠는 변수들을 제대로 제거는 했는지 의심스러웠습니다예컨대 20대 경제활동참가율이 사고사망만인율을 감소시키는 요인이라고 했는데, 20대 경제활동참가율은 경제활동인구 노동가능인구 * 100’ 으로 만들어지는 거시적인 값입니다. 20대가 경제활동을 어느 직업군에서 하는지는 전혀 다루지 않는 값이죠예컨대 IT기업에 취직하는 20대가 많아져 경제활동인구가 늘어났다면이 사실이 건설업의 사고사망만인율을 감소시키는 동력이 될 수 있을까요경제활동참가율은 수많은 변수와 상관관계가 있을 수 있는 변수이기에회귀식에 그냥 집어넣을 경우 분석에 쓰인 다른 변수와의 상관관계가 높게 나올 가능성이 있는 변수입니다
20대 경제활동참가율건설업 취업자 수제조업 정체 및 부진을 합쳐서 단지 청년 취업자의 고학력사무직종 취업이 증가하여 사고사망만인율 감소에 영향을 미치는 것으로 해석이라고 결론을 내리더군요청년 취업자가 전부 고학력자라는 가정사무직종 취업이 증가했다는 가정은 저 세 가지 변수로만으로 설명할 수 있는 게 아닙니다제 눈에는 어쨌든 유의한 변수라고 하니까 어떻게든 끼워맞춰서 해석했다로밖에 보이지 않았고납득할 수 없는 설명이었습니다.



산재 미신청 미보고 사업장 분석에서도 고민의 흔적은 전혀 없었습니다

산재 미보고 패턴으로

‘사업장 규모가 작고,
비정규직 / 외국인 / 신입사원 등 사회적 약자가 많으며, 
교통수단(오토바이나 자동차 등) 또는 폭력에 의해 발생하고,
배달원이나 퀵서비스 등 특수 직종’


네 가지 특징이 두드러질수록 산재 미보고 가능성이 상승한다고 분석했습니다굳이 데이터 분석까지 해가며 찾아야 할 특징인지는 모르겠으나어쨌든 문제점을 파악한 건 긍정적이라고 하겠습니다.
문제는그래서 재정손실이 얼마인지’ 추정치만 계산하고 발표를 마쳤다는 점입니다. ‘영세사업장이고비정규직 형태로 고용해야 하며위험에 노출되어 있는 사람들이  산업재해 신청을 하지 않았는지왜 보고하지 않는지 고민한 흔적이 전혀 없습니다재정 손실의 규모를 측정한 다음 무엇을 주장하고 싶었던 걸까요대학교 통계학 학사 실습과제도 아니고 정부기관에서 내놓은 분석 결과에 결론이 없습니다그 많은 데이터를 가지고 분석했다고 하면서진짜 원인이 무엇이며 어떻게 해결하는 것이 좋은지 말하지 못한다면 분석이 무슨 의미가 있을까요실망스러웠습니다.



5개 발표 내용을 다 정리하고 비판하기에는 너무 내용이 길어질 것 같아 나머지를 간단히 정리하자면



중소기업 도산 위기 감지를 위한 실업 예방’ – 차장 발표
도산위기라는 정의를 명확히 설정하고상관관계 분석과 영향도 테스트를 바탕으로 선정된 유효 변수를 XGBoost 모델에 적용하는 등 가장 통계적으로 완성도 높은 분석을 수행하였음도산위기에 있는 중소기업을 돕는 이유로 실업률을 높이지 않기 위해서라는 점이 아쉬웠음자칫하면 좀비기업이 정부 지원으로 연명하는 사태가 발생할 수 있다고 생각했기 때문.





농업 면세유류 불법유통 감독업무 효율화’ – 주무관 발표: 
지상과제로 이상치 확인을 선정하고다양한 모델과 다양한 데이터셋을 활용해 유류 구매기록에 이상징후(특정 날짜에 대량구매탱크용량 대비 면세류 보유량이 많은 사업장 등)를 보이는 사업장을 파악하려는 시도법망을 피하려는 시도는 변화무쌍하기에 가장 쉽지 않은 영역이지만어떻게든 이상징후를 보이는 사업장을 찾아내 우선적으로 감독하기 위해 데이터를 활용하는 사례.
 




빅데이터 기반 쌀 생산 예측 및 소비패턴 분석’ 
– 농림부 소속이 아닌분석을 담당한 사업단 대표 발표: 
소비패턴 분석은 발표에 존재하지도 않았고, ‘생산 예측’ 정확도 99%라는 해괴한 수치를 자랑스럽게 발표. Train / Test Set 예측값이 아니라통계청 데이터와의 일치도를 정확도로 표기통계청의 데이터가 정확하지 않다는 점을 비판하면서, 정작 본인이 만든 예측모델의 정확도를 판단할 기준값으로 통계청 데이터를 사용하는 모순된 모습을 보임회귀분석 사용.




5개 과제의 발표에 할당된 총 시간이 1시간이었습니다. 따라서 구체적인 방법론을 설명하는 자리는 아니었고, ‘어떤 데이터를 써서’, ‘어떤 문제를 해결했는가를 개략적으로 발표하는 수준이었습니다.
 

행사 안에서는 빅데이터라는 단어의 의미를 공유하고 있는 듯 했지만, ‘빅데이터라는 단어의 의미를 적용할 수 있는 발표사례는 없었습니다. 통계학과 학부생이 배우는 수준의 회귀분석과 해석이 대부분이고, 그마저도 부서 간 완성도가 크게 달랐습니다. 좋게 생각한다면 어려운 방법 없이도, 통계를 활용해 정부 부처에서 현장에 적용할 수 있는 해결책을 찾을 수 있다라고 볼 수 있고, 나쁘게 본다면 빅데이터라는 분야에 대한 정부 부처의 이해도는 아직도 높지 않다고 생각할 수 있을 것 같았습니다.



반응형