丁香园是中国领先的医疗领域连接者以及数字化领域专业服务供应商。 为中国医生提供在线交流平台、优质的医学信息数据库和高效便捷工具是丁香园创立至今不变的理念。深耕 16 年,平台汇聚了国内医学、药学和生命科学的专业工作者超过 550 万,其中专业医生会员超过 200 万名,占中国医生总人数近七成。
1.参与分布式爬虫和数据采集系统的架构设计和开发;
2.参与智能抽取框架和智能数据处理框架的设计和开发;
3.负责网络数据抓取规划和数据链路规划、高效且稳定爬取指定网站的数据;
4.设计爬虫策略和防屏蔽规则,优化网页抓取的效率和质量;
5.利用机器学习策略优化现有数据清洗,数据提取,结构化,入库等过程;
6.深度思考并参与业务等数据瓶颈,并有效解决;
1.本科以上学历,计算机或统计相关专业,两年以上相关工作经验,有爬虫和反爬虫,国内外网站爬取经验。
2.熟悉 linux 平台开发,精通 Python,熟悉常用的爬虫框架和工具,熟练 git 使用;有 web 开发经验的优先。
3.熟悉 MongoDB、Redis、Mysql,掌握 celery,了解 HBase、KAFKA 等;熟练掌握 celery 的优先。
4.熟悉 HTTP 协议,熟悉正则表达式、XPath、CSS 选择器等,了解常用验证码识别技术,有智能抽取经验的优先。
5.能独立解决实际开发过程碰到的各类疑难杂症,有机器学习处理非结构化到结构话项目经验的优先。
6.熟悉分布式开发,有大规模分布式开发和部署经验优先。
7.有大数据数据清洗和储存经验的优先。
8.有设计舆情监控系统经验的优先,有 nlp 经验的优先。
内推简历发送至邮箱: [email protected] 我的微信:weceshi123
另有 java 坑可帮忙推荐