本
文
摘
要
E绅士我也用了3年了,但是E绅士的用户都知道,E绅士并没有什么按收藏排序之类的功能,导致平时就只能翻来翻去刷些老物。所以我萌生了写一个E绅士爬虫,获取E绅士所有本子数据的想法。
我自学python已经一年了,期间写过不少玩具程序,玩具爬虫也写过几个,这次对E绅士的爬虫差不多算是这一年里写过最大的python程序了(虽然回头去看程序一点也不python)。
P.S:这个文章已经是一年前的了,2017年一年间,E绅士的中文用户数量有了极大的增长,在写这篇文章的时候,E绅士的中文本有个500收藏就已经的是社保本了,现在没个1000收藏都是不怎么符合大众口味的本子,2000收藏才差不多叫社保本,换而言之就是说,这个文章的时效性已经过了,各位随便看看就好。(不过几年前的老本子还是遵循500收藏算社保的规律,因为老本子的,尤其是非知名作者的老本子的访问量实在是低的抠脚)
什么是E绅士?
不,我不是来开车的,我也不是来安利E绅士的,我接下来要讲的所有东西都没不会提到E绅士具体是什么,当然E绅士的地址也是打了码的,要是有摸到E绅士去的人一定和我无关。
E绅士的第一个本子的上传时间是2007-03-20 02:41,到现在已经马上要十年了,十年来,E绅士的本子数量从0增长到了48W(由于我懒,所以没有补上新增的1W本数据)。虽然跟正统互联网公司动辄几千万上亿条的数据比起来,47W条数据简直不值一提,但这是我的世界观里,了解各国死宅最有效的办法了。
你问我了解各国死宅有什么用?没啥用,我也不卖飞机杯,我也不卖小薄本,兴趣使然罢了。
下面正题
注意:我的数学分析能力大概是停留在大二的概率学的前几节课,所以什么回归、协同过滤之类的一律没有。仅仅只是罗列数据,各位看个高兴即可。
(更新:鉴于评论区里有不少说我没统计EX绅士所以lolicon等标签不够高的,这里说明一下,虽然标题是E绅士大数据分析,但数据是包含EX绅士的,EX绅士也是E绅士的一部分嘛)
这些问题确实是我思考过的问题。我依然记得我在萌二期也认为劳模是亚丝娜,后来改口说劳模是明日香,但这次的大数据却结结实实的打了我的脸。
1. 逛E绅士的都是哪些国家的人?
E绅士上的语种TAG共有35个:日语、英语、中文、韩语、西班牙语、俄罗斯语、法语、葡萄牙语、泰语、意大利语、德语、越南语、波兰语、匈牙利语、印度尼西亚语、荷兰语、捷克语、乌克兰语、芬兰语、 *** 语、土耳其语、他加禄语、希腊语、瑞典语、罗马尼亚语、阿尔巴尼亚语、世界语、孟加拉语、克罗地亚、丹麦语、爱沙尼亚语、挪威语、加泰罗尼亚语、拉丁语、斯洛伐克语。
再算上一个无语种TAG(N/A,一般在某些无法确定国家归属的杂图包中出现),占比为20%,一共36个TAG。其中日语最多,20W本,接近E绅士所有本子数量的一半;再次是英语,占比为15%。
之后就是中文(占比7%)、韩语(占比5%)等,从左侧的面积图可以看出,E绅士本子的语种分布两级分化及其明显,后面的许多语种都只有十本左右甚至只有一两本。
在把本子数乘上收藏数加权处理后,英语开始异军突起。
结论:英语国家,或者说欧美人仍然是E绅士主力用户(虽然国人确实越来越多)。另外E绅士确实是以日系ACG为主的同人站,而非那个绿绿的WESTERN。
2. 谁是劳模?
如图所示,劳模是红白,但最受欢迎的角色并不是,而是——提督???
反正当时一行SQL语句敲下去之后我是一脸懵逼的:Teitoku?这什么鬼?拼了几下没拼出来(舰C前年夏活已脱坑),输到百度后:
W*****B,这什么鬼?两秒后,我反应过来确实没毛病。舰C的本子这几年处于上升期,而这几年E绅士的用户也处于上升期,两者叠加的结果就是舰C的总收藏数最多,相应的,“提督”这个角色标签的收藏数上升也是极快。
车万现在在数量上还能压过舰C也只是吃老本了,近几届COMIC的统计结果都是舰C本要多于车万本
结论:车万大法已过气,舰C强无敌。劳模就是你,提督。
3.E绅士收藏分布
与语种分布一样,仍然是长尾效应及其严重,后方的高收藏值的分布全是个位数甚至0,虽然最高的收藏到达了8231次(现在已经8331次了),但绝大部分本子仍然是300收藏以下。
单独抽取某种语种的收藏分布依然是这样。
结论:死宅们众口难调
4.用户活跃偏向
由于E绅士仍然是以日系ACG作为主导,所以角色、画师、原作的TAG大部分仍然是日本的罗马音TAG。而杂项TAG、女性TAG、男性TAG则不受这种影响(倒不如说遍地欧美俚语黑话)。
英语语种贡献的项TAG、女性TAG、男性TAG占各项总和的比例基本相同,而到了角色、画师、原作的TAG时,占比立刻下降。而中文则是各项稳定的10%占比。
结论:欧美死宅里偏日本ACG文化的程度不如我国死宅严重。
5.各国死宅对本子的偏好
我统计了杂项TAG里在中、日、英三国语种收藏里出现的频率乘收藏加权值,每种语言取最高的前20个(杂项TAG有3W多个),其中大部分是相同的,但各国死宅还是有各国死宅的口味,所以也有不相同的部分。
翻译我就不翻了,真会被爆破的,不说知乎人均英语水平如何,起码基础的搜索的能力应该是有的。
结论:没有,说结论就必然要翻译TAG,所以没有。
6.各国死宅对女角色属性的偏好
仍然是没有中文,因为女角色属性这边是更加的和谐词乱舞,不过倒是可以提几个不那么和谐的。
中日英三语系的死宅都对 *** 和长筒袜表现出了极大的兴趣(顺便:我站贫乳),在三个语系里都是分别排第一第二;中日死宅对萝莉的执念在欧美之上。(之后的作品收藏排行也体现了这点);另外中文TAG里有一个连 *** ,其他两个语系的前20里没有这个TAG。
再多的分析没了,本来也是仁者见仁智者见智的东西(死宅讲个鬼的仁智),而且我怕被爆破。
结论:......
7.各国死宅对男角色属性的偏好
查男性TAG时我的眼睛受到了巨额的污染,所以....我不做任何解释,你们可以自己去搜搜试试,对了shotacon是正太的意思。
结论:呕~~~
8.那些受人热爱的画师们
显然的,各国死宅对画师的分歧体现了他们的不同的兴趣。
.(由于统计方法的问题,那些以在商业杂志上投稿为生的画师会很占便宜,COMIC一年两次,杂志一月或几月一次,另外还有概率被单独发出来,导致重复计算收藏数)
日语类目下的前几个其实我都没听过,一直到水龙敬我才开始认识名字,另外水龙敬吊打全场,是唯一一个三个榜都上了的,另外,被收藏次数最多的画师也是他。
英语类目下的有好几个偏写实的或重口的画师:水龙敬、师走の翁、朝凪等。另外水龙敬拿第一毫不意外。从柚木N能上榜来看,欧美死宅的姐控情节也很严重,其实从之前的杂项TAG里就能看出点端倪,以及之后的作品排行也能看出姐控情节。另:柚木N的N是NTR的N!
中文类目下一堆熟悉的名字我就不点评了...我什么都不知道
9. 哪些ACG作品的本子比较多?
东方无疑问的霸榜,烂船也有三磅钉,这么多年三大同人之首的交椅坐下来是不白坐的。
日文本里面出现了彩虹小马我是很意外的,原来小马的毒性已经传到11区了是么....
英语本排行里出现了唯一一个基番(不撕基番定义):Free,要么是欧美女权发展程度高亚洲国家的结果,要么是...欧洲gay比亚洲多...
中文本里出现了请问您今天要来点兔子吗,嗯,一群萝莉控,另外中文舰C的本子马上要超过东方。而日英却仍然差的远。从侧面反映出最近几年我国ACG事业的蓬勃发展,大量加入的新人自然而然的开始跳最新的坑,超过过气车万指日可待。某不可描述的视频站和一众资本的推波助澜对这几年“二次元”文化产业的发展来说功不可没。
10. 哪些ACG作品的本子比较受欢迎?
在收藏榜上,车万过气的本质彻底暴露无疑,只剩下欧美还没被爆了,也只是几届COMIC的时间问题了。
日语榜上,英雄联盟和守望先锋能上榜让我略感意外,因为这是个收藏总和榜,短时间把收藏数冲这么高是非常难的。另外碧蓝幻想的战力略强,最近经常看到碧蓝本(超好用就是了)。
欧美的妹控们把俺妹推到了榜单上,另外EVA在欧美的人气似乎也没有传说中那么高,除非是那种完全没法画本的动画,不然本子数量和质量基本就是和人气挂钩的,显然EVA的本子数量并没有吊打其他作品十条街。
至于中文榜的SAO、甘城、食戟之灵、请问您今天要来点兔子吗?嗯,没毛病,很复合我对中国死宅的认识,顺便甘城的本子超好用。
11.谁才是真正的劳模?
其实这个问题已经有结论了,论被收藏数:是提督(对,就是你),论本子数量,也排不上明日香、亚丝娜什么的,红白的巫女——博丽灵梦才是真·劳模。
由于东方本长达十年的数量制霸,导致三个榜单上都是东方人物占很大一部分,不过相对的,在东方已经开始走下坡路的现在,东方人物所占比例月底就证明这个语种的用户群体在E绅士上活跃的时间越晚。
高坂京介、结城梨斗、碇真嗣这几位出现在劳模榜上也不奇怪(男劳模没毛病)
12. 谁的本子最受欢迎
看了前面几页的反正应该知道了,肯定又是提督没跑了,然后第二是制作人,嗯,没毛病。
日文榜单:舰C、车万、初代邪教、过气偶像、冷饭1、冷饭2...
英文榜单:舰C、车万、火影、垃圾君、冷饭1、妹控系列..
中文榜单:舰C、现代邪教、初代邪教...
各位别对号入座...
13. 那个瞎狗眼的WESTERN分区嘛时候完?
从数量、收藏、评分的占比上来看,WESTERN系列的比例一直不高,加上近几年第三世界的人民开始涌入E绅士,是不是WESTERN吃枣药丸呢?
并不!
右边的表是WESTERN的数量、收藏、评分的增长率和E绅士本子的本底增长率的比较。WESTERN系列的数量、收藏、评分的增长率一直高于E绅士本子的本地增长率,并且在最近还出现了大的抬头趋势,也就是说,这个系列不仅没有药丸,似乎还会发展的更好。
反正可以屏蔽,不看就是了。
最重要的问题:E绅士上还有些啥好用的本子?
但是这个车我不开,这是(伪)大数据文章,并不是开车,所以没有。
里面只有几篇去年的文章所以我也不引流。总之就是不引流。
准确的来讲是不会在知乎发列表就是了。
这个爬虫的项目地址:E-HentaiCrawler-Github
(已重构完毕)
2017年10月8日更新 :由于项目中的一个重要依赖的变化,以及EH使用了新的反爬技术,这个项目已经不能直接运行了
——————————更新——————————
关于车万的非H本的比例:
有人觉得车万这么高是因为非红字本多,但是我们都懂,摸到E绅士上的人有几个会好好看非红字本的?
那么车万的红字本和非红字本的比例到底是怎样的?
车万红字本数量:13515
车万Non-h本数量:9020
数量上似乎勉强五五开(其实 *** 开)
但是各位应该都懂自己上E绅士的初衷是什么,那么上E绅士好好看非红字本的有多少呢?
车万红字本总收藏次数、评分总次数:1251853、588636
车万Non-h本总收藏次数、评分总次数:99108、182634
(以上数据截止3月9日,对,我重构项目之后把新增的1W多本又爬了一遍)
所以结论你们应该清楚了。