원광성
노벨피아 부수기 #2 (데이터 분석) 본문
0. 서론
지난 시간 우리는 열심히 작업한 끝에 노벨피아의 데이터를 얻을 수 있었습니다.
지난 시간에 만든 파일(2024-03-19 데이터)
그리고 저는 약 1년 6개월 전인 2022-10-13일 데이터 또한 가지고 있습니다.
옛날 데이터(2022-10-13 데이터)
이 데이터를 가지고 잘 통계내고 시각화 하여 노벨피아에 관해 살펴봅시다.
사용할 도구는 저번시간과 같이 파이썬과 여러 라이브러리를 사용할 것입니다.
1. 노벨피아 해체하기
1.1 기본적인 자료
가장 먼저 데이터를 불러오면서 총 소설의 수, 총 회차의 수, 총 조회수를 조회해 봅시다.
데이터를 살펴보면 소설과 총 회차의 수는 2배 정도 증가했지만 총 조회수는 2.5배가량 증가한 것을 알 수 있습니다.
1.2 순위-조회수 시각화
상위 10%를 제외한 작품들을 제외한 90%는 조회수가 100만도 못 넘는 매우 경쟁이 심한 시장임을 알 수 있습니다.
하지만 상위 1%는 매우 많은 조회수를 가지고 있는 걸 알 수 있습니다.
1.3 연재중-완결-연중 비율
얼마나 많은 작가들이 PLUS를 달고도 탈주를 쳤는지 알아봅시다.
과거에는 완결이 가장 많았고 연재 중, 연재 중단의 비율이 거의 1:1에 가까웠습니다.
하지만 현재에는 작가들이 각성을 했는지 연재중 비율이 거의 50%까지 늘어났고 연중이 5% 가까이 줄었습니다.
1.4 어떤 장르가 가장 잘 나가는가?
다음은 TOP500 작품 중 주요 태그 10개의 비율을 알아봅시다.
노벨피아는 1차 태그에 10여 개의 태그만을 달수 있습니다.
하지만 제가 알고 있는 1차 태그가 10개뿐이고 저기에 해당 안 되는 작품은 2~3개뿐이니저기에 없는 작품은 가볍게 무시합시다.
특징이라 할만한 건 판타지 + 현판을 더해서 60% 이상이 된다는 것입니다.
지난 1년간 TOP500 작품 중 5%가 '현대' 작품이 '현대 판타지'로 이동했습니다.
물론 1대 1로 이동하지는 않았을 것이지만 제가 즐겨보는 '현대'가 줄어들어서 슬프네요..
글자가 겹쳐서 안 보이는 건 어차피 안보는 장르이니 상관없습니다.
1.5 1차 태그별 박스플롯
가장 큰 변화는 최대 조회수가 2배 정도 뻥튀기 되고 박스플롯 또한 대체적으로 2배 증가한 것을 알 수 있습니다.
22년에 가장 높은 평균을 가지고 24년에 2번째 평균을 가지는 장르는 무협입니다.
아마 조회수 1위 작품인 "천하제일인의 소꿉친구"가 멱살 잡고 평균을 끌어올리고 있는 거 같습니다.
1.6 2~10차 태그 개수
TOP500 작품의 2~10차 태그의 개수입니다.
2022-10-13 데이터
'#하렘' 의 개수 = 194
'#TS' 의 개수 = 153
'#아카데미' 의 개수 = 141
'#착각' 의 개수 = 124
'#현대' 의 개수 = 115
'#일상' 의 개수 = 107
'#판타지' 의 개수 = 104
'#빙의' 의 개수 = 100
'#집착' 의 개수 = 98
'#라이트노벨' 의 개수 = 97
'#먼치킨' 의 개수 = 84
'#후회' 의 개수 = 81
'#순애' 의 개수 = 70
'#중세' 의 개수 = 64
'#인터넷방송' 의 개수 = 62
'#피폐' 의 개수 = 50
'#코미디' 의 개수 = 47
'#얀데레' 의 개수 = 45
'#전생' 의 개수 = 42
'#성장' 의 개수 = 41
'#로맨스' 의 개수 = 39
'#게임' 의 개수 = 36
'#헌터' 의 개수 = 33
'#회귀' 의 개수 = 33
'#약피폐' 의 개수 = 32
'#이세계' 의 개수 = 25
'#남성향' 의 개수 = 24
'#남녀역전' 의 개수 = 19
'#백합' 의 개수 = 18
'#힐링' 의 개수 = 18
'#환생' 의 개수 = 15
'#현대판타지' 의 개수 = 13
'#퓨전' 의 개수 = 12
'#드라마' 의 개수 = 12
'#써줘용' 의 개수 = 12
'#인외' 의 개수 = 12
'#히어로' 의 개수 = 12
'#용사' 의 개수 = 12
'#역키잡' 의 개수 = 11
'#귀환' 의 개수 = 11
'#아포칼립스' 의 개수 = 10
'#전쟁' 의 개수 = 10
'#빌런' 의 개수 = 10
'#노맨스' 의 개수 = 10
'#추방' 의 개수 = 9
'#러브코미디' 의 개수 = 9
'#소꿉친구' 의 개수 = 9
'#육아' 의 개수 = 9
'#복수' 의 개수 = 9
'#롤' 의 개수 = 8
'#모험' 의 개수 = 8
'#기타' 의 개수 = 7
'#액션' 의 개수 = 7
'#삼국지' 의 개수 = 7
'#로맨스판타지' 의 개수 = 7
'#방송' 의 개수 = 7
'#마법소녀' 의 개수 = 7
'#가상현실' 의 개수 = 7
'#구원' 의 개수 = 7
'#상태창' 의 개수 = 7
'#SF' 의 개수 = 6
'#무협' 의 개수 = 6
'#다크판타지' 의 개수 = 6
'#여주인공' 의 개수 = 6
'#성녀' 의 개수 = 6
'#성좌' 의 개수 = 6
'#유열' 의 개수 = 6
'#약백합' 의 개수 = 6
'#용사파티' 의 개수 = 5
'#악역영애' 의 개수 = 5
'#요리' 의 개수 = 5
'#프로게이머' 의 개수 = 5
'#츤데레' 의 개수 = 5
'#먹방' 의 개수 = 5
'#몬스터' 의 개수 = 5
'#전투' 의 개수 = 5
'#공모전' 의 개수 = 4
'#네크로맨서' 의 개수 = 4
'#연희' 의 개수 = 4
'#대체역사' 의 개수 = 4
'#천마' 의 개수 = 4
'#이능력' 의 개수 = 4
'#초능력' 의 개수 = 4
'#영지' 의 개수 = 4
'#병약' 의 개수 = 4
'#망나니' 의 개수 = 4
'#학원물' 의 개수 = 4
'#시스템' 의 개수 = 4
'#성장형먼치킨' 의 개수 = 4
'#근세' 의 개수 = 3
'#이종족' 의 개수 = 3
'#어반' 의 개수 = 3
'#항해' 의 개수 = 3
'#버튜버' 의 개수 = 3
'#해적' 의 개수 = 3
'#언데드' 의 개수 = 3
'#아이돌' 의 개수 = 3
'#수인' 의 개수 = 3
'#GL' 의 개수 = 3
'#육성' 의 개수 = 3
2024-03-19 데이터
'#하렘' 의 개수 = 235
'#착각' 의 개수 = 150
'#아카데미' 의 개수 = 144
'#집착' 의 개수 = 143
'#일상' 의 개수 = 124
'#먼치킨' 의 개수 = 118
'#빙의' 의 개수 = 117
'#TS' 의 개수 = 111
'#라이트노벨' 의 개수 = 107
'#현대' 의 개수 = 104
'#판타지' 의 개수 = 89
'#순애' 의 개수 = 68
'#인터넷방송' 의 개수 = 67
'#후회' 의 개수 = 65
'#성장' 의 개수 = 57
'#중세' 의 개수 = 55
'#전생' 의 개수 = 46
'#코미디' 의 개수 = 46
'#게임' 의 개수 = 42
'#피폐' 의 개수 = 42
'#얀데레' 의 개수 = 37
'#로맨스' 의 개수 = 35
'#회귀' 의 개수 = 35
'#힐링' 의 개수 = 24
'#약피폐' 의 개수 = 23
'#헌터' 의 개수 = 22
'#남녀역전' 의 개수 = 19
'#현대판타지' 의 개수 = 18
'#환생' 의 개수 = 18
'#이세계' 의 개수 = 17
'#역키잡' 의 개수 = 15
'#상태창' 의 개수 = 14
'#구원' 의 개수 = 14
'#남성향' 의 개수 = 13
'#백합' 의 개수 = 13
'#인외' 의 개수 = 13
'#천재' 의 개수 = 12
'#귀환' 의 개수 = 12
'#아포칼립스' 의 개수 = 11
'#노맨스' 의 개수 = 11
'#퓨전' 의 개수 = 10
'#용사' 의 개수 = 10
'#버튜버' 의 개수 = 10
'#캣파이트' 의 개수 = 10
'#러브코미디' 의 개수 = 10
'#히어로' 의 개수 = 9
'#드라마' 의 개수 = 9
'#요리' 의 개수 = 9
'#써줘용' 의 개수 = 9
'#가상현실' 의 개수 = 9
'#육아' 의 개수 = 9
'#SF' 의 개수 = 8
'#유쾌' 의 개수 = 8
'#전쟁' 의 개수 = 8
'#성장형먼치킨' 의 개수 = 8
'#경영' 의 개수 = 8
'#무협' 의 개수 = 7
'#액션' 의 개수 = 7
'#모험' 의 개수 = 7
'#방송' 의 개수 = 7
'#전투' 의 개수 = 7
'#성좌' 의 개수 = 6
'#로맨스판타지' 의 개수 = 6
'#영지' 의 개수 = 6
'#소꿉친구' 의 개수 = 6
'#육성' 의 개수 = 6
'#빌런' 의 개수 = 6
'#복수' 의 개수 = 6
'#기타' 의 개수 = 5
'#던전' 의 개수 = 5
'#삼국지' 의 개수 = 5
'#피카레스크' 의 개수 = 5
'#추방' 의 개수 = 5
'#커뮤니티' 의 개수 = 5
'#갤러리' 의 개수 = 5
'#다크판타지' 의 개수 = 5
'#느린전개' 의 개수 = 5
'#사이버펑크' 의 개수 = 4
'#어반' 의 개수 = 4
'#게임빙의' 의 개수 = 4
'#이종족' 의 개수 = 4
'#악역영애' 의 개수 = 4
'#교수' 의 개수 = 4
'#대체역사' 의 개수 = 4
'#프로게이머' 의 개수 = 4
'#먹방' 의 개수 = 4
'#드래곤' 의 개수 = 4
'#정치' 의 개수 = 4
'#꽁냥꽁냥' 의 개수 = 4
'#나데나데' 의 개수 = 4
'#시스템' 의 개수 = 4
'#츤데레' 의 개수 = 4
'#용사파티' 의 개수 = 3
'#축구' 의 개수 = 3
'#롤' 의 개수 = 3
'#스승' 의 개수 = 3
'#소드마스터' 의 개수 = 3
'#엘프' 의 개수 = 3
'#대장장이' 의 개수 = 3
'#성녀' 의 개수 = 3
특징적인 점은 22년도에 2위를 하던 'TS'는 24년도에 8위로 떨어졌고, '먼치킨'태그는 2년간 50% 정도 증가하였습니다.
22년도에 1위였던 '하렘'의 비중은 점점 늘어 24년 TOP500에서 거의 절반인 235 작품이 '하렘'태그를 달고 있습니다.
한 가지 거시기한 점은 22년도 '수인'태그의 개수는 24년도 '성녀'태그의 개수와 같다는 점입니다.
1.7 제목 단어 빈도수 측정
마지막으로 제목의 단어 빈도수를 측정해 보겠습니다.
대상은 위와 같이 TOP500을 기준으로 하였습니다.
띄어쓰기를 기준으로 분리하였고 '.,?'등의 마침표는 전부 제거하고 10개 이상인 것들로만 가져왔습니다.
2022-10-13 데이터
'되었다' 의 개수 = 78
'아카데미' 의 개수 = 40
'속' 의 개수 = 26
'용사' 의 개수 = 16
'[TS]' 의 개수 = 13
'내게' 의 개수 = 11
'아카데미의' 의 개수 = 11
'빙의했다' 의 개수 = 10
'게임' 의 개수 = 10
'내가' 의 개수 = 10
'집착한다' 의 개수 = 10
2024-03-19 데이터
'되었다' 의 개수 = 102
'아카데미' 의 개수 = 47
'속' 의 개수 = 27
'용사' 의 개수 = 12
'게임' 의 개수 = 12
'집착한다' 의 개수 = 12
'내게' 의 개수 = 11
'아카데미의' 의 개수 = 11
위의 단어들 중 상위 5개 만을 조합하여 제목을 만들어 보면..
[TS] 아카데미 속 용사(가) 되었다.
아카데미 게임 속 용사(가) 되었다.
2. 결론
지금까지 우리는 저번시간에 추출한 데이터를 바탕으로 통계를 작성하고 시각화를 해보았습니다.
비록 노벨피아가 60%의 소설이 (현대)판타지이고 인기작의 절반은 '하렘'에다 제목들도 단어를 보고 유추할 수 있을 정도로 정형화되어 있지만, 노벨피아 많이 아껴주세요.
'소프트웨어' 카테고리의 다른 글
노벨피아 부수기 #1 (데이터 스크래핑) (0) | 2024.03.20 |
---|---|
전장의 신 시뮬레이터(cmd 게임) (2) | 2024.02.27 |
탄도방정식과 이차함수, 학교폭파에 관하여 (2) | 2024.02.20 |