공공데이터 포털 자료를 쉽게 가공하는 분석 도구 활용 가이드

공공데이터 포털 자료를 쉽게 가공하는 분석 도구 활용 가이드 관련 이미지
안녕하세요, 10년 차 생활 블로거 김창수입니다. 요즘 부업이나 자기계발로 데이터 분석 공부하시는 분들 정말 많으시죠? 저도 처음에는 엑셀 수치 하나 바꾸는 것도 벌벌 떨던 시절이 있었는데, 이제는 국가에서 제공하는 방대한 데이터를 활용해 나만의 지도를 만들거나 트렌드를 분석하는 재미에 푹 빠져 살고 있답니다.
우리가 내는 세금으로 만들어진 이 귀한 공공데이터는 사실 보물창고나 다름없거든요. 하지만 막상 사이트에 접속해보면 xml이니 json이니 하는 생소한 용어들 때문에 창을 닫게 되는 경우가 허다하더라고요. 그래서 오늘은 제가 수많은 시행착오 끝에 터득한, 코딩 몰라도 가능한 쉬운 분석 도구 활용법을 공유해드리려고 해요.
목차
공공데이터 포털의 정체와 데이터 종류
공공데이터 포털은 대한민국 정부에서 운영하는 데이터 통합 창구라고 보시면 됩니다. 기상청의 날씨 정보부터 국토교통부의 아파트 실거래가, 그리고 우리 동네 도서관 위치까지 없는 게 없거든요. 기계 판독이 가능한 형태로 제공되기 때문에 우리가 조금만 가공하면 아주 멋진 보고서나 앱을 만들 수도 있답니다.
데이터는 크게 두 가지 방식으로 제공되더라고요. 하나는 엑셀처럼 바로 내려받는 파일 데이터이고, 다른 하나는 실시간으로 정보를 받아오는 Open API 방식입니다. 초보자분들은 일단 파일 데이터를 내려받아 연습해보는 게 훨씬 수월하실 거예요. 저도 처음에는 무턱대고 API에 도전했다가 외계어 같은 코드 보고 일주일 동안 노트북을 안 켰던 기억이 나네요.
초보자를 위한 분석 도구 전격 비교
데이터를 분석할 때 어떤 도구를 써야 할지 고민되시죠? 제가 직접 써본 도구들을 바탕으로 장단점을 정리해봤습니다. 본인의 숙련도에 맞춰서 선택하시면 좋을 것 같아요.
| 분석 도구 | 주요 특징 | 난이도 | 추천 대상 |
|---|---|---|---|
| MS 엑셀 | 파워쿼리 활용 시 강력함 | 하(下) | 일반 직장인, 대학생 |
| 구글 스프레드시트 | IMPORTXML 함수로 웹 크롤링 | 중하(中下) | 협업이 필요한 팀 프로젝트 |
| 파이썬(Python) | Pandas 라이브러리 활용 | 상(上) | 대용량 데이터 분석가 |
| 태블로(Tableau) | 시각화가 매우 뛰어남 | 중(中) | 비주얼 보고서 작성자 |
개인적으로는 MS 엑셀의 파워쿼리 기능을 가장 추천드려요. 코딩을 한 줄도 몰라도 버튼 몇 번으로 데이터를 깔끔하게 정제할 수 있거든요. 파이썬은 데이터 양이 수만 건을 넘어갈 때 배우셔도 늦지 않더라고요.
창수의 눈물 젖은 API 호출 실패담
이건 정말 창피한 이야기지만, 여러분은 저 같은 실수 하지 마시라고 공개합니다. 제가 처음으로 공공데이터 API를 이용해 '전국 캠핑장 현황'을 불러오려고 했을 때였어요. 분명히 인증키를 발급받았는데 계속 SERVICE_KEY_IS_NOT_REGISTERED_ERROR라는 오류 메시지만 뜨는 거예요.
고객센터에 전화까지 하려다가 알고 보니 두 가지 실수를 했더라고요. 첫째는 인증키가 활성화될 때까지의 동기화 시간(보통 1~2시간)을 기다리지 않았던 것이고, 둘째는 URL에 인증키를 넣을 때 인코딩된 키를 넣어야 하는데 그냥 복사해서 붙여넣었던 거죠.
엑셀과 구글 시트로 끝내는 실전 가공법
복잡한 프로그래밍 언어 없이도 데이터를 요리하는 방법은 무궁무진합니다. 가장 먼저 해야 할 일은 포털에서 원하는 데이터를 CSV 형식으로 받는 거예요. CSV는 메모장에서도 열리는 아주 가벼운 파일 형식이거든요. 이걸 엑셀에서 열 때 가끔 한글이 깨지는 경우가 있는데, 그럴 때는 데이터 탭의 '텍스트/CSV에서' 기능을 이용해 UTF-8 형식을 선택하면 마법처럼 한글이 돌아옵니다.
구글 스프레드시트를 활용하는 것도 아주 똑똑한 방법이에요. IMPORTHTML이나 IMPORTXML 함수를 쓰면 웹페이지에 있는 표 데이터를 실시간으로 긁어올 수 있거든요. 예를 들어 실시간 대기오염 정보를 제공하는 페이지 주소를 입력하면, 시트가 열릴 때마다 최신 정보로 자동 업데이트되는 나만의 대시보드를 만들 수 있답니다.
자주 묻는 질문
Q. 공공데이터를 상업적인 목적으로 사용해도 되나요?
A. 대부분의 공공데이터는 공공누리 제1유형으로 개방되어 있어 상업적 이용이 가능합니다. 다만, 데이터마다 라이선스 조건이 다를 수 있으니 상세 페이지의 저작권 표시를 꼭 확인해야 합니다.
Q. API 인증키를 발급받았는데 작동을 안 해요.
A. 시스템 동기화에 시간이 걸릴 수 있습니다. 짧게는 30분에서 길게는 하루 정도 소요되기도 하니 여유를 갖고 기다려보세요.
Q. JSON과 XML의 차이가 무엇인가요?
A. 둘 다 데이터를 전달하는 형식이지만, JSON이 더 가볍고 가독성이 좋아 최근에는 더 많이 쓰이는 추세입니다.
Q. 엑셀에서 CSV 파일을 열었는데 글자가 다 깨져요.
A. 인코딩 방식의 차이 때문입니다. 엑셀의 '데이터' 탭에서 '텍스트/CSV에서'를 선택한 뒤 원본 파일을 65001: 유니코드(UTF-8)로 설정해 불러오세요.
Q. 원하는 데이터가 포털에 없으면 어떻게 하나요?
A. 포털 내 공공데이터 제공 신청 메뉴를 통해 정식으로 개방을 요청할 수 있습니다. 기관 검토 후 개방 여부가 결정됩니다.
Q. 대용량 데이터를 처리하기에 가장 좋은 도구는요?
A. 엑셀은 행 제한이 있어 100만 건 이상은 처리가 힘듭니다. 이럴 때는 파이썬의 Pandas나 SQL을 활용하는 것이 가장 효율적입니다.
Q. API 호출 횟수에 제한이 있나요?
A. 네, 보통 하루 1,000회에서 10,000회 정도로 제한이 걸려 있습니다. 더 많은 호출이 필요하면 별도의 증액 신청을 해야 합니다.
Q. 시각화 도구 중 무료로 쓸만한 게 있을까요?
A. 구글에서 제공하는 룩커 스튜디오(Looker Studio)를 추천합니다. 구글 시트와 연동이 쉽고 아주 세련된 차트를 무료로 만들 수 있습니다.
공공데이터 활용은 생각보다 높은 장벽이 아니라는 점을 꼭 말씀드리고 싶었어요. 처음에는 단순한 엑셀 파일 하나 분석하는 것으로 시작해도 충분하거든요. 그러다 보면 어느새 데이터를 통해 세상을 바라보는 새로운 시각이 생기게 될 거예요. 여러분의 데이터 분석 도전을 제가 진심으로 응원하겠습니다.
작성자: 김창수
10년 차 생활밀착형 블로거. 복잡한 IT 기술과 데이터를 일상 언어로 풀어서 설명하는 것을 좋아합니다. 실패를 두려워하지 않는 삽질의 아이콘입니다.
본 포스팅은 정보 제공을 목적으로 하며, 공공데이터 포털의 정책 변화에 따라 실제 내용과 다를 수 있습니다.
댓글
댓글 쓰기