- Dacon
- 주요 일정
- 주요 데이터
- 평가 기준
- 인사이트
- 2021년 7월 26일 1차 미팅
- 2021년 7월 28일 2차 미팅
- 대외 결과물 제출 방법
- 2021년 8월 9일 3차 미팅
- 협업 도구
- Business Understanding
- Data Understanding
- Data Preparation
- 운행 기록 데이터
- Trip 단위 위험운전 행동 통계데이터
- 1초 단위 위험운정 행동 데이터
- Modeling
- 2021년 8월 17일 4차 미팅
- Evaluation
- Deployment
Dacon
주요 일정
2021.07.09 : 대회 시작
2021.07.26 : 제1차 참가주체 선정 미팅
2021.08.24 : 팀 병합 마감
2021.08.31 : 대회 종료
2021.09.07 : 1차 평가 종료
2021.09.15 : 2차 평가 종료
주요 데이터
데이터 종류
국토교통 데이터
전국 사업용 차량 데이터
고속도로 데이터 : 하이패스, 소통, 교통량, 공사, 교통소통
코레일
수송실적, 승하차 인원
항공기
운항정보, 수송실적, 소요시간/거리
온실가스
항공통계
부동산
실거래가, 주택 가격
전출입 현황
주거실태
소비심리
평가 기준
평가 기준
데이터 (15점) -> 분석 기법 (20점), 시각화 (20점)
분석 결과와 활용 (20점)
인사이트
2021년 7월 26일 1차 미팅
임창현
화학 : 온실가스
상업용 항공기의 탄소 배출량은 전체 배출량의 2.5%
CORSIA (국제항공 탄소 상쇄/감축 제도)
비행기(244g/km)와 자동차(240g/km)의 탄소 배출량이 비슷 by 유럽환경청
철도 : 저탄소 녹색 교통 수단으로 각광
교통량
지도에 시각화
지능형 교통 시스템
자율주행
해피바이러스
산사랑
국토 교통
지역별 신규 업체 정보 수집
지도에 교통량 시각화
지도에 물류 흐름 시각화
자율주행 보조 서비스 구축
모빌리티 구독 서비스
교통 정보와 관광 정보 연계
부동산 정보
부동산 가상 투어 정보 제공
표준화된 정보를 담당자가 방문하여 등록
사진과 동영상 포함
부동산 전자계약 시스템
확정 일자 자동 부여
부동산 거래 자동 신고
대출 등 우대
수수료 절감
데이터 유통 플랫폼
수상한 부동산 거래 탐지
교통량과 부동산 가격 관계
부동산 중개
적정 주택 가격 산출 by AI
종속 변수
국토교통부 실거래가 정보 : 매매, 전월세
공동주택 공시 가격
개별/표준 공시 지가
독립 변수
인구 현황
시군구별 전출입 지역 현황
건축물 통계, 건축 허가/착공 현황
미분양 주택 현황
유동 현황
지역별 도로 현황
유동 인구 내역
소통 정보 및 교통량 통계
사업용 차량의 운행 기록
교통 데이터
코레일 전철력 시간대별 이용 인원
국토교통부 자동차 등록 현황
항공기 운항 정보, 전국 공항 수송 실적
GIS 건물 정보
부동산 컨설팅
부동산 공유
부동산 경매/공매
부동산 관리
부동산 임대 관리 : 분양과 임대 대행
리모델링 (인테리어)
부동산 정보 공유 플랫폼
부동산 정책 컨설팅 : 세무
부동산 수익 증권(DABS, Digital Asset Backed Securities) 거래
자산 유동화 증권 : 매도시 15.4% 소득세, 매매시 0.2% 매매수수료
3개월마다 임대배당수익
REITs : 부동산 임대소득, 개발 이득, 매매 차익을 투자자에게 배당
해외 부동산
2021년 7월 28일 2차 미팅
교통 관련 추가 검토
운행 기록 데이터 등
회의 내용
권한 신청은 하였으나 아직 데이터를 받아 보지 못함
데이터를 받으면 추가 검토할 예정
적정 주택 가격 산출 추가 검토
회의 내용
주택 가격에 영향을 주는 요인이 많아 주어진 데이터로는 한정적임
추가로 1~2개의 데이터를 선정해 수집한 후 분석하는 것은 가능하나 유의미한 결과를 도출할 수 있을지는 현재로서는 알 수 없음
데이터를 수집한 후 시각화하여 추가 검토할 예정
주택 시장 영향 요인 by 국토연구원
거시경제와 유동성
주택 수급
수요
인구 및 가구의 변화, 소득의 변화, 멸실량
지역 경제 여건 : 이자율, 거시 경제 여건, 지역 기업의 성과
외국인
공급
인구 추계 대비 공급물량, 멸실
공동주택 분양률, 청약률, 입주율, 미분양 등 인근지역 사업결과
거래 규모와 거래 가격
입지 요건, 개발 및 투자 이슈
정책
신도시
지역
지역 경제 여건
지역 산업 성과
일자리, 주민소득, 지역내 총생산
지역 개발 사업
산업단지, 뉴타운, 기업도시, 혁신도시 조성
도로, 항망, KTX, 공항 등 SOC
문화체육시설, 도서관, 공공시설, 상업시설, 교육시설 등 편의 시설
쓰레기매립장, 오폐수처리장, 교도소, 소각장, 화장터 매립장 등 혐오시설
인구와 가구의 특성
인구수, 가구수, 전입/전출 인구수, 상주 인구수
주거 환경적 특성
교통편리성
문화와 교육 여건
주택의 노후도
심리
주택 가격 결정 요인
물리적 특성
총세대수, 주택면적, 해당 층, 방 수, 세대수, 난방형태
단지 최고층수, 세대당 주차수, 시공사 브랜드
임대주택 비율, 재건축 특성(용적율, 준공년수)
주변 지역 특성
버스노선수, 편의시설수, 공원수, 대형할인매장수
유흥가, 전통시장 유무
도심, 지하철, 공원, 강, 산, 공업지역(기피시설 등)과의 거리 접근성
교육 특성
학교수, 인문계고 학생비율, 학원수, 고학력 비율, 명문대진학율
특목고 진학 현황, 방과후 교실수, 평균수능점수
경관 특성
하천 및 산지의 조망 여부
국가
국내총생산, 회사채 수익률
국가 및 광역
지역내 총생산, 인구, 순인구 유입, 주택공급실적, 미분양율
경제성장율, 건설성장율, 건설수주액, 건설기성액
분석
최소자승법, 공간시차모형, 공간오차모형, 지리적 가중회귀모형
좌표 평활 지리적 가법모형, 연속 변수 평활한 지리적 가법 모형
높은 가격
학군(서울), 교육 특구(지방)
큰 평균 평형, 큰 단지규모, 높은 층수
가까운 지하철역 입구, 하천 경계, 백화점, 학교/도서관, 공원/유적지, 구청, 공항, 은행
상위 30위권 내의 시공사가 건설
낮은 가격
개별 난방
먼 종합병원, 여관, 사회복지시설, 축사, 공동묘지, 소음시설
이전 시상 데이터 확인
데이터 마이닝을 통한 합리적 주거지 선정 방안 제시
보호 종료 청소년을 위한 ...
대외 결과물 제출 방법
PPT 파일
ipynb (쥬피터 노트북 파일) 파일
Python 파일(~.py)을 ~.ipynb 파일로 변환 가능
R 파일(~.Rmd)을 ~.ipynb 파일로 변환 가능
쥬피터 노트북에서 tensorflow 등을 사용 가능
기본적으로 Python에서 되는 것은 모두 된다고 생각하면 됨
쥬피터 노트북에서 R Language 실행 가능
R language and r-essentials packages 설치 필요
2021년 8월 9일 3차 미팅
2차 회의 결과를 추가로 검토한 후 2021년 8월 9일 오후 6시에 다시 협의 한다.
데이터셋을 검토한 후 다시 미팅
위 2가지 의견외에 추가 아이디어가 있으면 제시
데이터
위험운전행동 데이터 <- 운행 기록 데이터
모델
위험이 발생할 때 지역과 시간 그리고 운전 패턴 파악 (최종 결정함)
그룹, 분류 등 검토 중
데이터
국토교통부 실거래가 정보
Excel로 계약 일자를 기준으로 Excel로 다운로드
시군구, 번지, 본번, 부번, 단지명, 전용면적
계약년월, 계약일, 거래금액, 층, 건축년도, 도로명
도로명 주소로 좌표(위경도) 구하기
도로명 주소 개발자센터에서 제공하는 좌표제공API를 사용하여 좌표(ITRF2000 - GRS80(기준타원체))를 구한다.
단독 건물인 경우 건물중심 좌표
집합 건물인 경우 주출입구 좌표
proj4j 오픈소스를 사용하여 위도/경도로 변환 한다.
위경도로 주소간 거리를 계산 한다.
분석과 시각화
적정 주택 가격 산출
다양한 종류의 독립 변수를 개발하여야 하므로 시간이 오래 걸림
수상한 부동산 거래 탐지 <- 국토교통부 실거래가 정보
STR (Suspicious Transaction Report, 의심거래보고제도)
지도에서 실거래가 제공
2020년 9월 29일 법정 전월세 전환율 : 2.5%
전월세 전환율 : 한국은행 기준 금리 + 월차임전환시 산정율의 합
보증금 * 2.5% = 12 * 월세
보증금 = 12 * 월세 / 2.5%
월세 = 보증금 * 2.5% / 12
매매 가격과 전월세 가격간의 Gap 표시
협업 도구
두레이 : 25명까지 무료
메신저
메일, 캘린더, 개인 드라이브, 주소록
프로젝트 (드라이브, 위키)
메시지 (할일, 번역), 화상회의
근태 관리, 전자결제, 조직도
커스텀 앱 개발, Open API
사내 시스템 연동, 확장 서비스 (GitHub, 구글 드라이브, 캘린더 연동)
메신저
게시판, 캘린더, 주소록, 할일, 설문
프로젝트 (캘린더, To-Do, 스토리지)
메신저, 화상회의
토픽별 대화방
Business Understanding
선택: 위험이 발생할 때 지역과 시간 그리고 운전 패턴 파악
보류: 수상한 부동산 거래 탐지
Data Understanding
국토교통부: 데이터 통합채널 : 9,710 데이터셋
전월세 실거래가 자료
공동주택 공시 가격
표준 단독주택 공시 가격
개별 단독주택 공시 가격
표준지 공시 지가
개별 공시 지가
주택보증 통계 정보
분양 이력 정보
주택 금융 정보
사업용 차량의 운행기록 데이터
사업용 차량의 위험운전행동 데이터
교통 데이터 거래소 : 274 데이터셋
5분 단위 소통정보 및 교통량 통계
유동인구 내역
기상융합 교통 정보
LH 등 유관기관 데이터(기관별 홈페이지)
교육
회원 가입 후 교육 통계 신청
학교별/지역별 공시정보 > 졸업생의 진로 현황
전문대 진학률이 중요함
Data Preparation
운행 기록 데이터
Key
자동차 등록 번호
정보발생일시 : YYMMDDhhmmssss
운행 기록 : 1초, 5초, 10초, 30초 수집간격 중 선택
일일주행거리 (KM)
누적운행거리 (KM)
정보발생일시 (년월일시분초ss)
운행속도 (KM)
RPM
브레이크 신호
시작 GPS (X좌표)
시작 GPS (Y좌표)
GPS 방위각
가속도 Vx
가속도 Vy
운행지역코드
차대번호, 자동차 등록 번호
정보발생일시 : YYMMDDhhmmssss
GPS X, GPS Y : 정수로 표시. 소수점 아래 6자리
방위각 : 0 ~ 360
가속도 (m/sec2) Vx : - 100.0 ~ 100.0
가속도 (m/sec2) Vy : -100.0 ~ 100.0
통신상태 코드
00 - 운행기록장치 정상
11 - 위치추적장치(GPS수신기) 이상
12 - 속도센서 이상
13 - RPM 센서 이상
14 - 브레이크 신호감지 센서 이상
21 - 센서 입력부 장치 이상
31 - 데이터 출력부 장치 이상
32 - 통신 장치 이상
41 - 운행거리 산정 이상
99 - 전원 공급 이상
운행지역 코드
운수회사 지역 코드 (운수회사 소재지 코드)
운수회사 코드, 사업자 등록번호
DTG 모델 (운행기록장치 모델명)
자동차 유형
11 - 시내버스, 12 - 농어촌버스, 13 - 마을버스, 14 - 시외버스
15 - 고속버스, 16 - 전세버스, 17 - 특수여객자동차, 21 - 일반택시
22 - 개인택스, 31 - 일반화물자동차, 32 - 개별화물자동차
41 - 비사업용자동차
일일주행거리 (km) : 0 ~ 9999
누적주행거리 (km) : 0 ~ 9999999
차량속도 (km/h) : 0 ~ 255
분당 엔진회전수 (RPM) : 0 ~ 9999
브레이크 신호 : 0. off, 1. on
연료 코드, 연식, 배기량
Trip 단위 위험운전 행동 통계데이터
운행일자
운수회사 코드
자동차 등록번호
사업자 등록번호
차대번호
자동차 유형코드
DTG 모델명
자료제출일시
접수번호
수집파일코드
시동 on 일시, 시동 off 일시
시작 GPS X 좌표, 시작 GPS Y 좌표
종료 GPS X 좌표, 종료 GPS Y 좌표
Trip 운행 거리, 누적 운행 거리
평균 운행 속도, 최고 속도
Trip 운행 시간, 장기 운행 유무
운행중 정지 건수, 운행중 정지 시간, 운행중 정비 비율, 운행중 주행 시간
재동 건수, 재동 시간
최고 RPM, 평균 RPM, 2000RPM 초과 시간, 2500RPM 초과 시간
공회전 건수, 공회전 시간
과속유무
20KM 초과 건수와 초과 시간
25KM 초과 건수와 초과 시간
30KM 초과 건수와 초과 시간
35KM 초과 건수와 초과 시간
40KM 초과 건수와 초과 시간
45KM 초과 건수와 초과 시간
50KM 초과 건수와 초과 시간
55KM 초과 건수와 초과 시간
60KM 초과 건수와 초과 시간
장기과속유무, 장기과속시간
급가속 건수, 급출발 건수, 금박속 건수, 급정지 건수
급좌회전 건수, 급우회전 건수, 급유턴 건수
급앞지르기 건수, 급진로변경 건수
중립기어 건수, 중립기어 시간, 운수회사 소재지 코드
1초 단위 위험운정 행동 데이터
Key
자동차 등록 번호
운행일자, 운행시분초
운수회사 코드
자동차 등록번호
운수회사 소재지 코드
운행일자, 운행시분초
GPS X, GPS Y
운전자코드
운행속도
과속유무
20KM 초과 여부와 초과 시간
40KM 초과 여부와 초과 시간
60KM 초과 여부와 초과 시간
장기과속유무, 장기과속시간
급가속 유무, 급출발 유무, 급감속 유무, 급정지 유무
급좌회전 유무, 급우회전 유무, 급유턴 유무
급앞지르기 유무, 급진로변경 유무
Modeling
주제 : 위험이 발생할 때 지역과 시간 그리고 운전 패턴 파악
데이터 : 위험운전행동 데이터 <- 운행 기록 데이터
분석 모델 : 그룹, 분류 등 검토 예정
위험운전행동 통계
연비 통계
위험운전 행동 분석
사고지점 중첩 분석
자동차 운행 정보 통계
위험운전 행동 통계
2021년 8월 17일 4차 미팅
데이터 포맷 공유 <- 임창현 부장
각자 분석 모델 제안 후 협의
임창현
해피바이러스
산사랑
위험 지역과 요일/시간
위험운전행동 데이터에서 통계 처리
위험 운전 알림 : 이상 탐지
종속 변수 : 위험 운전에서 자체 정의
초과 속도 * 시간
RNN (Recurrent Neural Networks, 재귀신경망)
DeepAR : Amazon Sagemaker에서 제공
자기 회귀 순환 네트워크를 사용한 확률적 예측
HTM (Hierarchical Temporal Memory) : 예측 기반 이상 탐지 방법