我从某知名网站获取了大量视频标题,然后通过关键词统计频率,得到了一些有意思的数据,我想可以从中一窥国人的 xp 情况。
文章地址: https://hsingko.github.io/post/2022/11/24/ml-in-china/
对于文末唐卡图的问题:
1
LZSZ 2022-11-24 12:21:46 +08:00 2
大大的 X 狗引起不适
|
2
eason1874 2022-11-24 12:29:02 +08:00
我的印象跟这数据差不多
真实性无从考究,同一个视频隔一段时间又会被换一个标题重新发出来,前年是同事,去年是同学,今年又成了小女友。不过,研究受众偏好,真实性也不重要,角色扮演本身就是为了满足受众偏好,对受众来说角色就是真的 |
3
hover 2022-11-24 12:30:23 +08:00 via Android
期待再分析下老外们的 xp
|
4
Frankcox 2022-11-24 12:36:52 +08:00 1
guro 爱好者路过
|
5
hsfzxjy 2022-11-24 12:40:23 +08:00 via Android
“眼镜”还是小众
|
6
Alexonx 2022-11-24 12:43:12 +08:00
好奇下这是啥网站...俺也想试试
|
7
ArianX 2022-11-24 13:03:24 +08:00
妙啊
|
8
sleeepyy 2022-11-24 13:04:39 +08:00
只是统计关键词出现的频率吗?是否应该将对应的视频的播放量也考虑进去呢
|
9
KevinDo2 2022-11-24 13:05:06 +08:00
标题党过多,甚至还有非本人图片挪用作封面,p 站内容剪辑直接发布。
|
10
GeruzoniAnsasu 2022-11-24 13:08:41 +08:00
有点意思,期待一手各地区 /国家的对比数据
|
11
JustSong 2022-11-24 13:10:29 +08:00 via Android
图表很漂亮,请问用什么画的呀
|
12
LxExExl 2022-11-24 13:10:37 +08:00 2
楼主的博客很有意思,我觉得是时候弄一个 rss 订阅了。v 站上有意思的个人站还是挺多的, 得追踪一下。
|
13
cnrting 2022-11-24 13:11:04 +08:00 via iPhone
求最后一张原图
|
14
vigack OP @sleeepyy 本来是想做加权的,但是原始播放量数据似乎有问题,越早期的视频热度显示越离谱,不同时间跨度的热度感觉不是线性增加的。
我想越靠近现在的标题的选择本身就已经反映了某种固定的偏好,关键词是有限的,后来的视频上传者们已经找到了某种“热度关键词”,所以不做加权应该就已经能反映问题了。 |
15
vigack OP @JustSong
- 图表用的是 google sheets ,可以自己配置一些美化选项 - 词云用的 python 的 wordcloud 包 - 最后的唐卡图用的是平均色度算法,可以参考这篇文章: https://towardsdatascience.com/how-to-create-a-photo-mosaic-in-python-45c94f6e8308 |
17
ninickck 2022-11-24 13:22:52 +08:00
瑞斯拜!
|
18
kqij 2022-11-24 13:24:09 +08:00
身高和露面,想问下这两个数据是怎样来的?其他还能理解,是不是收集标题,提取关键词,再分析词频?
|
20
HugoChao 2022-11-24 13:27:29 +08:00
好文共赏
|
21
vigack OP @kqij
我的思路是这样的: - 视频上传者往往会将露脸作为卖点放在标题中,所以词频占总数比能反应真实情况 - 身高数据也是通过分析标题得来的,但是这里有个问题,并不是所有上传者都会将其放在标题中;所以最后统计出的数据只能反应“本身对身高敏感的观众和上传者”对身高的偏好 |
22
nu11ptr 2022-11-24 13:45:23 +08:00 3
最后一张人皮唐卡让我笑出声 要下地狱了
|
23
WOLFRAZOR 2022-11-24 13:52:49 +08:00
这都能研究,太厉害了
|
24
Williamwang 2022-11-24 13:53:01 +08:00
好奇,是 91 吗
|
25
quan01994 2022-11-24 13:53:44 +08:00
emmm,看来我的 XP 还是小众啊。
|
26
Felldeadbird 2022-11-24 14:06:59 +08:00
牛逼,这都可以进行数据分析。
|
27
retrocode 2022-11-24 14:16:02 +08:00
果然嗨丝才是王道啊, 占比那么高
|
28
zhangshine 2022-11-24 14:19:32 +08:00
不应该是视频发布者的 XP 吗?
|
29
vigack OP @zhangshine
视频发布者的动机是为了获得热度与关注,因此标题选择上会尽可能地“标题党”;如果将视频浏览者的注意力当作市场,那么“视频上传标题-热度”这一反馈机制就如同供需关系一样会达到平衡,这个时候标题实际上已经表现的是“消费者”的喜好了。 |
30
wanacry 2022-11-24 14:30:26 +08:00 via iPhone
xp 是什么
|
32
walking50w 2022-11-24 14:41:09 +08:00
@vigack 上传者没有获取反馈的途径, 高浏览量绝对是封面(主要)+内容,绝不可能标题。 所以这个反馈只是上传者的意向。很少能反应观看者。
|
34
lamesbond 2022-11-24 14:44:33 +08:00
黑丝高跟😍😍😍
|
35
vigack OP @silasamiseaf94
我一向不怎么喜欢绝对化的判断,所以用词不会非常笃定;在我看来上传者和浏览者是有很大重叠部分,有时候观众也会主动参与到制作过程中,所以我所谓的“浏览者”也笼统地包含了上传者。 其次,上传者是有反馈渠道的,那就是视频播放数、留言评论等等;封面图片确实是吸睛的重点,这一点确实没有在分析中提到,但是你可以发现,那些有吸引力的封面往往会在标题中进行表现,比如着装描述、身材描述等等。 最后,浏览者想要的仅仅是千篇一律的往复运动吗?在我看来,他们对“故事”或者说“情节”的需求也很大,而这一点是封面和视频本身无法表现的,只有文字才能做得到。这一点你可以通过观察同样视频是如何通过不同的描述、不同的情节来获得不同的热度中看到。 |
36
dzdh 2022-11-24 14:53:00 +08:00
我要最后一张图的高清大图
|
37
vigack OP @dzdh
😃你想多了,在生成图片的原理不是简单的拼贴(不然就成了哈勃望远镜了),而是通过模糊像素化得到基础颜色,然后再放置到原图(唐卡)中的恰当位置。文章中的图片并没有经过压缩,就是程序生成的原本内容。 原始封面图共 533MB ,放在一起的时候,里面的内容与其说是能让人愉快,不如说更像是法医鉴定图谱,你不会想要看它们的。 |
38
marc2017 2022-11-24 15:05:21 +08:00
我想要是抓取 gay porn 的话,最大的关键词绝对是 [直男] 。哈哈哈
|
40
lambdaq 2022-11-24 15:14:44 +08:00
那个年龄,应该是默认年龄分类吧。。
|
41
AshenOneOrz 2022-11-24 15:20:37 +08:00
原来是老哥的博客,文章写的真不错
|
42
Tanf 2022-11-24 15:23:33 +08:00
有意思
|
43
zek 2022-11-24 15:25:13 +08:00
你分析的是哪个网站
|
45
shanyuhai123 2022-11-24 15:28:31 +08:00
感觉是最近的关键词,去年的还不是这样 :doge:
|
46
vigack OP @shanyuhai123 时间到 9 年前为止还是挺均匀的,基本都有 3k+ 左右的数据,但是今年的数据量有 5W+,因此在关键词上可能覆盖了之前的特征。
不过我觉得这和视频“标签化”的趋势有关,之前视频不太多的时候选择也不多,因此不需要怎么弄就有一定的热度;而现在可能拍片的人多了,迎合了短视频的潮流,更喜欢在标题中用直观引起情感反应的词。 现在想想分析视频长度变化趋势也是个有意思的主题,不过抓数据的时候忘了这个字段了.... |
47
daweii 2022-11-24 15:49:46 +08:00 via iPhone
有意思。
楼主可以考虑把数据放出下载吗。 我也想分析一下。 |
48
ThomasKim 2022-11-24 15:54:02 +08:00
数据肯定是没啥问题的,光看黑丝跟高跟,再对比下抖音跟 B 站尬舞,就一目了然,只是这部分产业在国内没有相对宽松的创作环境,所以远没有达到上限,要是哪天跟日本的厂商一样有各种分门别类,到时候再统计,估计会比较精彩。
|
49
xinyu98 2022-11-24 15:55:40 +08:00
有没有女性向的
|
50
jdhao 2022-11-24 16:02:00 +08:00 via Android
可视化工具用的哪个
|
51
hushs 2022-11-24 16:15:20 +08:00
有没有考虑做个小工具,我想看一下自己的数据。
|
52
hoky 2022-11-24 16:29:12 +08:00
有意思的尝试。
|
53
redtree 2022-11-24 16:33:57 +08:00
不错不错
|
54
gwbw 2022-11-24 16:39:51 +08:00
针对 "关键词的集合是我拍脑瓜想出来的,因此可能遗漏了" 问题,可以考虑用现成的分词工具提取关键词,比如 python 的 jieba 分词
|
57
woscaizi 2022-11-24 16:55:13 +08:00
|
60
vigack OP |
61
libaokai 2022-11-24 17:33:06 +08:00
6
|
62
renhou 2022-11-24 17:38:19 +08:00
已硬,已收藏,好人一生平安
|
63
adoyle 2022-11-24 17:51:32 +08:00
从数据分析来研究女性主义,你是懂研究的。
> 我们常常提到物化女性这个概念,但常常是泛泛而谈,没有具体到现实的内涵,这里通过分析自制成人视频者的偏好,可以塑造出某些男性性幻想对象的轮廓。 立意就很好。 看了你的博客其他文章,文笔不错。关注了。 |
64
Asimov01 2022-11-24 17:55:47 +08:00
有趣有趣,已关注 OP 博客
|
65
liangtao927190 2022-11-24 18:04:23 +08:00
有意思,感谢老哥
|
66
advicebullet 2022-11-24 18:12:56 +08:00 1
[露脸] 真实夫妻 18 岁 XX 师范大学在读 170 高挑长腿黑丝 直叫老公不要停 1 分 20 秒手势验证
根据画像写的标题,找人去拍一个。 |
67
Sivan 2022-11-24 18:19:49 +08:00 1
@advicebullet 你是懂 SEO 的
|
68
chanlk 2022-11-24 18:20:29 +08:00
唐卡来张高清大图啊 ( ̄▽ ̄)/
|
69
Vtwoguest 2022-11-24 19:35:32 +08:00
市场营销做好了,我来解决片源,谁来解决推荐算法,再提供 rss 订阅,来跟我做大做强
|
70
jiujiutang 2022-11-24 19:57:28 +08:00
最后的图片高清大图吗
|
71
222aa 2022-11-24 20:50:43 +08:00
老哥看了你的博客,你用的是什么系统哇?看着很舒服哦
|
72
gerorim 2022-11-24 21:04:45 +08:00
老哥原来的点云图没有删掉,还是 CDN 有缓存?
原来的点云符合期望(指的是概率上的数学期望) https://hsingko.github.io/post/2022/11/24/ml-in-china/images/2022-11-24_11-56-02_wordcloud.png |
73
vigack OP @gerorim 感谢提醒,忘了 hugo 生成内容的时候默认不会进行删除。
确实原来的图更能反应真实情况,不过过滤掉那些直白的描述并不会对其他方面的关键词造成影响。 |
75
neofacenew 2022-11-24 22:26:16 +08:00
@vigack 想问下用的是什么中文字体?
|
76
vigack OP |
77
CRight 2022-11-25 00:14:02 +08:00 via iPhone
词云替换后了就不真实了,
|
79
Mrxx 2022-11-25 08:51:06 +08:00
窥一斑而知全豹纹内衣
|
81
daimiaopeng 2022-11-25 09:21:20 +08:00
@advicebullet 你是懂大数据的
|
82
2NUT 2022-11-25 10:48:59 +08:00
社科专业 再深入 扩充下 其实可以作为毕业论文了
|
83
abirdcanfly 2022-11-25 10:54:33 +08:00
大佬的视角偏颇太大! 这大概只是男性用户的数据, 并非国人, 请注意中国并非只有男人, 女人也有 xy; 本人也是男性, 只是指出不同观点, 并无冒犯之意
|
85
vigack OP @abirdcanfly
因为“国男”已经成了带有情绪化的词了,所以这里我用的是“国人”,不过这篇分析确实特指男性。 另外在中文圈,就我所知,还从来没见过女性向的视频;分析女性 xp 也是个很有趣的主题,可惜我目前并没有发现什么值得研究的数据来源。 |
86
8XIQz5SCHX1U6c7s 2022-11-25 11:58:07 +08:00
好活👍
|
87
NESeeker 2022-11-25 12:03:01 +08:00 via Android
操千曲而后晓声
观千剑而后识器 楼主好活,当代《文心雕龙》 |
88
hanbing135 2022-11-25 12:22:43 +08:00 via iPhone
感觉 lz 可以进行视频内容检测做深度分析
|
89
mmdsun 2022-11-25 13:18:12 +08:00 via iPhone
furry 控路过。
这让我想起前段时间我的圈内都再转 涂满你 xp 的小瓶子的调查卡片。 |