V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
aidai524
V2EX  ›  分享创造

撸了个网站,采集的 Next, Product Hunt, Mindstore 数据。经常访问这三个站的朋友可以进来看看。

  •  
  •   aidai524 ·
    aidai524 · 2015-01-30 11:47:09 +08:00 · 5926 次点击
    这是一个创建于 3589 天前的主题,其中的信息可能已经有所发展或是发生改变。
    [产品集] www.chanpinji.net ,自己经常访问Next,Product Hunt,Mindstore这三个站看一些新的项目或者产品,切换嫌麻烦。就自己撸了个,数据采集于这三个站,每6小时采集一次。

    前后花了三天时间,主要就是花在采集上面了。代码用的laravel框架。数据存储用的leancloud,因为官方没php的sdk,顺便参考parse弄了个sdk,[avos-php-sdk] https://github.com/aidai524/avos-php-sdk 。省得自己写rest调用了。
    37 条回复    2015-03-11 10:17:40 +08:00
    niko
        1
    niko  
       2015-01-30 11:55:23 +08:00
    貌似速度有些慢?
    aidai524
        2
    aidai524  
    OP
       2015-01-30 12:00:38 +08:00
    @niko 服务器用的digitalocean,之前买的cn域名备案了好久一直都没下的来。放弃备案了,直接买了个net域名放国外了。
    aidai524
        3
    aidai524  
    OP
       2015-01-30 13:06:32 +08:00
    @niko 换了个网测试了下,果然很慢,一个字体下载了20多秒,关键我静态文件都托管在七牛的,数据也在国内,好不科学的样子,有空研究下。
    markkitty
        4
    markkitty  
       2015-01-30 13:15:27 +08:00
    数据加载太慢了,加载昨日数据http://www.chanpinji.net/api/fetch-data?date=2015-01-29&from=,用了28.02秒
    aidai524
        5
    aidai524  
    OP
       2015-01-30 13:20:36 +08:00
    @markkitty 看来要换parse了。dg对于leancloud来说太不友好了。
    Teresa20133
        6
    Teresa20133  
       2015-01-30 13:37:41 +08:00 via iPhone   ❤️ 1
    直接看PH和NEXT就好了,Mindstore全是抄的NEXT和PH…
    Ricky123
        7
    Ricky123  
       2015-01-30 13:38:09 +08:00
    已收藏,加个网站icon吧
    klam
        8
    klam  
       2015-01-30 15:19:43 +08:00
    我仅代表 中华人民共和国最高人民法院 全国人大常委会办公厅 中国人民政协全国委员会 中华人民共和国最高人民检察院 国务院部委 中华人民共和国外交部 中华人民共和国公安部 中华人民共和国水利部 中华人民共和国文化部 中华人民共和国科学技术部 中华人民共和国劳动和社会保障部 中华人民共和国建设部 中华人民共和国国家民族事务委员会 中华人民共和国交通部 中华人民共和国铁道部 中华人民共和国信息产业部 中华人民共和国农业部 中华人民共和国民政部 中华人民共和国教育部 中华人民共和国国家发展和改革委员会 中华人民共和国人事部 国防科学技术工业委员会 中华人民共和国商务部 中华人民共和国司法部 中华人民共和国财政部 中华人民共和国国土资源部 中华人民共和国卫生部 国家人口和计划生育委员会 中国人民银行 中华人民共和国审计署 国务院直属机构 中华人民共和国国家新闻出版署 中华人民共和国海关总署 国家质量监督检验检疫总局 中华人民共和国国家旅游局 中华人民共和国国家统计局 中华人民共和国国家体育总局 中国民用航空总局 中华人民共和国国家环境保护总局 其他国家机构及社会团体 对你的网站表示强烈的赞赏!
    aidai524
        9
    aidai524  
    OP
       2015-01-30 15:21:50 +08:00
    @Teresa20133 根据采集的数据来看,从标题上来识别,好像Mindstore和另外两个重复的还真不多。跟next只有极小部分的重复
    zr529130510
        10
    zr529130510  
       2015-01-30 16:39:23 +08:00
    哎呦,界面做的很好啊,请问你之前是做设计师的吗
    aidai524
        11
    aidai524  
    OP
       2015-01-30 16:41:41 +08:00
    @zr529130510 不是设计师。就是参考那三个站的配色随便弄的。
    Shazoo
        12
    Shazoo  
       2015-01-30 18:13:08 +08:00
    挺好的。我搜藏了。不过速度太慢了。
    aidai524
        13
    aidai524  
    OP
       2015-01-30 18:23:19 +08:00
    @Shazoo 速度今天就优化,之前在国内的服务器上跑,都是毫秒级别的。可惜域名备案一直下不来。后面重新备案。
    djyde
        14
    djyde  
       2015-01-30 19:23:15 +08:00
    Teresa20133
        15
    Teresa20133  
       2015-01-30 19:27:21 +08:00 via iPhone
    @aidai524 我一直在关注他们,以前的时候 Mindstore 是直接 copy NEXT 连介绍都不改…
    aidai524
        16
    aidai524  
    OP
       2015-01-31 20:16:22 +08:00
    @djyde 不错。
    aidai524
        17
    aidai524  
    OP
       2015-01-31 23:57:37 +08:00
    @Shazoo 数据库换到parse了,我这边测试,打开的时间正常了。你再看看。
    GeekGao
        18
    GeekGao  
       2015-02-02 13:12:05 +08:00
    输出个RSS好嘛
    aidai524
        19
    aidai524  
    OP
       2015-02-02 13:22:20 +08:00
    @GeekGao 好,马上就加。
    GeekGao
        20
    GeekGao  
       2015-02-02 13:45:48 +08:00
    @aidai524 抓取频率 提高点吧 6小时太长了,1-3小时似乎更合理
    aidai524
        21
    aidai524  
    OP
       2015-02-02 15:34:26 +08:00
    @GeekGao RSS已经加好了。
    aidai524
        22
    aidai524  
    OP
       2015-02-02 15:42:45 +08:00
    @GeekGao 设置成白天1小时,夜里3小时。
    GeekGao
        23
    GeekGao  
       2015-02-02 16:07:10 +08:00
    @aidai524 rss没输出链接啊 ,有bug!
    GeekGao
        24
    GeekGao  
       2015-02-02 16:07:42 +08:00
    @aidai524 频率ok~ 修下rss的bug吧
    aidai524
        25
    aidai524  
    OP
       2015-02-02 16:17:30 +08:00
    @GeekGao 再看下?
    GeekGao
        26
    GeekGao  
       2015-02-02 16:31:45 +08:00
    @aidai524 ok了 ^_^
    GeekGao
        27
    GeekGao  
       2015-02-02 16:46:58 +08:00
    偶还要提个建议哦,RSS能不能在标题里输出描述产品描述,比如:
    邀请码分享:方便发放和领取邀请码的网站
    aidai524
        28
    aidai524  
    OP
       2015-02-02 17:53:23 +08:00
    @GeekGao 描述不是已经有了?这样重复了,看的不累嘛? ^_^
    GeekGao
        29
    GeekGao  
       2015-02-02 18:05:09 +08:00
    @aidai524 可能是我用的rss阅读器的关系 ,没有显示。。。
    aidai524
        30
    aidai524  
    OP
       2015-02-02 18:08:36 +08:00
    @GeekGao 啥阅读器?我来调试看看。
    GeekGao
        31
    GeekGao  
       2015-02-02 18:10:36 +08:00
    @aidai524 Thunderbird
    GeekGao
        32
    GeekGao  
       2015-02-02 18:11:27 +08:00
    @aidai524 它主题和内容是分开显示的
    aidai524
        33
    aidai524  
    OP
       2015-02-02 18:43:59 +08:00
    @GeekGao 刚才测试了。是不可以,这个是当成邮件去处理的,描述只能在点开的正文里面。但是如果描述加标题里面,这标题就太长了。其他阅读器我也试了,都正常的。建议换阅读器啊。哈哈。不然其他的rss源也只能看到标题。
    GeekGao
        34
    GeekGao  
       2015-02-02 19:24:58 +08:00
    @aidai524 ok 我换个rss阅读器 ,谢谢啦
    questionlin
        35
    questionlin  
       2015-02-21 15:20:46 +08:00
    撸主,你的网站挂了,实在撑不下去的话,能不能把源代码开源出来,我来接班吧
    aidai524
        36
    aidai524  
    OP
       2015-03-11 09:59:46 +08:00
    @questionlin 好的,没问题,主要是因为抓数据频繁被封。丢出来让大家玩玩吧。
    aidai524
        37
    aidai524  
    OP
       2015-03-11 10:17:40 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3110 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 14:32 · PVG 22:32 · LAX 06:32 · JFK 09:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.