V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Kopei
V2EX  ›  问与答

初来 V2EX 贵地,特来请教一个项目方案,请大神指点一二!

  •  
  •   Kopei · 2014-10-26 11:20:36 +08:00 · 2058 次点击
    这是一个创建于 3475 天前的主题,其中的信息可能已经有所发展或是发生改变。
    需求很简单:
    1. 科学上网
    2. 每周或每日定期向一千个以内的特定网站爬取感兴趣的信息,包括文本,图片,pdf等保存在数据库中。
    3. 数据库要易于排序、比较等简单快速操作。
    4. 其他没想到的小功能。

    预算:2w以内

    实施语言:python(scrapy)

    本人背景:
    请大神考虑本人的技术局限,略懂python,但对于数据库、云平台一概不知(简单弄过SAE微信平台不知道算不算)。先谢下!
    22 条回复    2014-10-26 15:46:26 +08:00
    icedx
        1
    icedx  
       2014-10-26 11:39:55 +08:00
    你想请教啥...
    Kopei
        2
    Kopei  
    OP
       2014-10-26 11:41:06 +08:00
    @icedx 怎么实施好啊?
    icedx
        3
    icedx  
       2014-10-26 11:45:18 +08:00
    @Kopei
    首先要一台国外的云主机
    Python 部分不用我吧
    数据库建议Redis MySql 也行
    icedx
        4
    icedx  
       2014-10-26 11:48:35 +08:00   ❤️ 1
    @icedx
    Python 部分不用我说吧
    你这就是一简单地爬虫 不因为它爬的是什么而特殊
    Phoinikas
        5
    Phoinikas  
       2014-10-26 11:54:25 +08:00   ❤️ 1
    记得有个pdf叫《自己动手写网络爬虫》,他是用java作例子介绍的,你可以自己用python按照同样的思路写一个。图省事的话可以直接找个开源的爬虫程序
    loading
        6
    loading  
       2014-10-26 12:08:42 +08:00
    哇,悬赏 2w !!!!!


    应该有人会帮你的,但是大家都不会直接告诉你,谁知道你看了回复赚了百八十亿,不认账,不给那 2w 的咨询费怎么办!
    ccdjh
        7
    ccdjh  
       2014-10-26 12:09:05 +08:00 via Android
    爬虫用正则哈,爬取任务放到队列。确认那个爬虫出错再修改。你的2万是什么意思呢!存储成本还是运行成本?
    zjgood
        8
    zjgood  
       2014-10-26 12:10:47 +08:00 via Android
    @loading 不是悬赏吧。。。我觉得是预算。。
    loading
        9
    loading  
       2014-10-26 12:11:34 +08:00
    @zjgood 您太认真。
    aheadlead
        10
    aheadlead  
       2014-10-26 12:16:42 +08:00
    “其他没想到的小功能。”
    可以吐槽吗...
    Kopei
        11
    Kopei  
    OP
       2014-10-26 12:17:30 +08:00
    @loading 不是,2w是用来租服务器啥的预算,当然包括人力成本。
    Kopei
        12
    Kopei  
    OP
       2014-10-26 12:18:33 +08:00
    @ccdjh 不是悬赏。。存储加运行吧。。
    Kopei
        13
    Kopei  
    OP
       2014-10-26 12:19:29 +08:00
    @aheadlead 可以的,有好的建议也可以推荐哦
    loading
        14
    loading  
       2014-10-26 12:22:00 +08:00   ❤️ 1
    1.学习购买和使用国外的vps,学习如何配置vpn,在vps安装一个。

    2.对于你的第二条,装个dedecms,用采集功能都能搞定。。。。

    3.第二条软件带有数据库。

    4.去学一下php,很快搞定。

    请个大学生,3k解决所有问题!

    用2k来支撑后续的费用。

    剩下1.5w,给我。
    Kopei
        15
    Kopei  
    OP
       2014-10-26 12:48:04 +08:00
    @loading 用python做是已经定下来的。。
    greatdk
        16
    greatdk  
       2014-10-26 12:50:22 +08:00
    这些功能好实现,但是要做成产品,还需要做不少工作。

    你可以考虑雇佣我哟 https://jinshuju.net/f/3NPhAJ
    loading
        17
    loading  
       2014-10-26 12:51:32 +08:00
    去学Flask,反正你这些我现在已经能做出了了,自己去学吧!

    去了解vps,别管什么云了。

    btw:别找我。
    kslr
        18
    kslr  
       2014-10-26 12:55:19 +08:00
    一个小玩具,还需要什么项目方案。
    Kopei
        19
    Kopei  
    OP
       2014-10-26 13:48:18 +08:00
    @kslr 的确是小东西,不过从小做起麻,更需要大神们的指点啊!
    kslr
        20
    kslr  
       2014-10-26 14:55:23 +08:00
    @Kopei 我的意思是scrapy已经帮你完成了大部分,没有任何的难点,你只要基础好,琢磨下就能解决。
    chinvo
        21
    chinvo  
       2014-10-26 14:55:32 +08:00
    为什么非要用 python 呢
    yakczh
        22
    yakczh  
       2014-10-26 15:46:26 +08:00
    真有钱
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   836 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 22:40 · PVG 06:40 · LAX 15:40 · JFK 18:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.