데이터 자동화 방법론
리치로드는 매년 공개되는 공직자 재산 관보를 어떻게 분석하고 시각화하는지 공개합니다.
1. 관보 PDF 수집 및 OCR
정부 공직자윤리위원회에서 제공하는 재산공개 내역은 대부분 PDF 형태의 관보로 제공됩니다. 이를 자동화하기 위해 다음과 같은 파이프라인을 구축할 수 있습니다.
- 주기적 크롤링: 대한민국 전자관보 사이트를 모니터링하여 '재산공개' 키워드가 포함된 문서를 자동 수집.
- 텍스트 변환: PyPDF2 또는 pdfplumber를 사용해 PDF 내 표 데이터를 텍스트로 전환합니다. 이미지 형태의 경우 Tesseract OCR을 활용합니다.
2. 데이터 파싱 및 정제 (Parsing & Cleansing)
관보 데이터는 비정형 텍스트거나 병합된 셀이 많아 정규표현식(Regex)을 이용한 정제가 필수적입니다.
- 항목 분류: 정규표현식을 통해 자산 종류(토지, 건물, 예금, 증권, 채무)를 자동 라벨링합니다.
- 지오코딩(Geocoding): 부동산 주소 텍스트("서울특별시 강남구 압구정동...")를 카카오맵 로컬 API를 통해 위경도(Latitude, Longitude) 좌표로 변환하여 GIS 렌더링을 준비합니다.
3. 데이터베이스 적재 및 관계 매핑
정제된 데이터는 RDBMS(e.g., PostgreSQL) 컬럼에 맞추어 적재됩니다.
Table Official: id, name, position, agencyTable Asset: id, official_id, type, amount, yearTable RealEstate: id, asset_id, address, lat, lng, area4. 실시간 추출 API 연동 테스트 (MVP)
위 방법론(Regex 파싱 모델)이 적용된 로직을 웹상에서 바로 테스트해 볼 수 있습니다. 실제 관보 데이터 구조 시뮬레이션 모델을 파싱하여 리치로드 DB가 읽을 수 있는 JSON 포맷으로 추출합니다.