spider_news_cctv
2002 年至今的所有新闻联播内容,总计 4W 多
https://github.com/hailong0707/spider_news_cctv
spider_news_all
证券日报,证券时报,证券日报网,南华早报,中国经营网,经济观察报,财经网,证券时报网,中证网,华尔街见闻 相关模块的整站爬取。证券日报,证券时报数据量可观,近 70W.
https://github.com/hailong0707/spider_news_all
spider_news_gov
中国发展改革委员会 内容爬取已经文档下载,包含对 Word 文档的内容解析。
https://github.com/hailong0707/spider_news_gov
spider_news_finance
SinaFinance, FTChinese, CFI 三个财经类网站的数据爬取
https://github.com/hailong0707/spider_news_finance
提供工具的参考学习,数据的用途等其他相关风险,自负。
1
yuprince 2015-09-04 10:58:44 +08:00
这工具写的挺好玩。
|
2
Moker 2015-09-04 11:17:36 +08:00
最近在爬微信。。。
|
4
pangtianyu 2015-09-04 14:33:19 +08:00
好多人都是爬妹子 终于有个不一样的
|
5
ljbha007 2015-09-04 14:37:46 +08:00
做数据分析? 机器学习 然后炒股?
|
6
regent 2015-09-04 15:46:25 +08:00
做新闻研究的可以用哦
|
8
hailong0707 OP @pangtianyu 我也想爬妹子,做成 RESTful API ,写 Android 客户端 :)
|
9
hailong0707 OP @ljbha007 确实是数据分析,通过历年的新闻数据,结合实际,总结相关新闻预测的准确性
|
10
ariestiger 2015-09-05 23:45:09 +08:00
有点意思, 最近也在抓上市公司的专利数据和司法裁判数据。
|
11
JQ 2015-09-06 09:02:31 +08:00
.pyc 文件就不要上传了吧
|
12
lj2546855 2015-09-06 17:30:21 +08:00 via Android
还得加点东西,比如说全球股市,PMI,CPI,公司财务报表,纳斯达克,证监会公告,隔夜拆借利率,汇率,克强指数,日经,恒生,黄金期货价格,成交量,算上天气、节日等影响因素,可以做出一个股票预测软件 o
|