목록데이터분석 (2)
원광성
0. 서론 지난 시간 우리는 열심히 작업한 끝에 노벨피아의 데이터를 얻을 수 있었습니다. 노벨피아 부수기 #1 (데이터 스크래핑) 0. 서론 웹소설 플랫폼 노벨피아를 즐겨보는 주인장. 어느 날 어떤 장르/제목등의 소설이 잘 나가는지에 관해 탐구해 보기로 결심하게 되는데... 1. 이론 노벨피아에서 어떤 장르가 잘 나가는지, distantstar.tistory.com 지난 시간에 만든 파일(2024-03-19 데이터) 그리고 저는 약 1년 6개월 전인 2022-10-13일 데이터 또한 가지고 있습니다. 옛날 데이터(2022-10-13 데이터) 이 데이터를 가지고 잘 통계내고 시각화 하여 노벨피아에 관해 살펴봅시다. 사용할 도구는 저번시간과 같이 파이썬과 여러 라이브러리를 사용할 것입니다. 1. 노벨피아 해..
0. 서론 웹소설 플랫폼 노벨피아를 즐겨보는 주인장. 어느 날 어떤 장르/제목등의 소설이 잘 나가는지에 관해 탐구해 보기로 결심하게 되는데... 1. 이론 노벨피아에서 어떤 장르가 잘 나가는지, 얼마나 많은 작가들이 연중을 때리고 탈주를 쳤는지 등을 알아보려 합니다. 노벨피아에는 현재 약 6,000여개의 소설이 있습니다. 여려 분들이 약 6,000여 개의 소설을 모두 손으로 통계낼 의지가 없다면 데이터 스크래핑이라는것을 해야 합니다. 노벨피아와 같은 보통의 회사는 자기네들의 고유의 데이터를 가져가서 재사용하는 걸 싫어합니다. 스크래핑 봇은 공개된 웹사이트를 돌아다니며 원하는 데이터를 가져올 수 있습니다. 데이터 스크래핑은 다음과 같은 단계를 거칩니다. 1. 먼저, 스크래퍼 봇이라고 하는, 정보를 빼내오는..