推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
iewgnaw
V2EX  ›  Python

昨夜刚撸完一个微信公众号爬虫的网站,欢迎提出意见

  •  3
     
  •   iewgnaw · Jan 22, 2015 · 38032 views
    This topic created in 4131 days ago, the information mentioned may be changed or developed.

    http://weiread.pw/

    每天定时抓取公众号文章,提供订阅阅读,另外还可以生成kindle杂志定时推送。

    css和js现学现用的,写的比较渣;欢迎提出使用意见

    Supplement 1  ·  Jan 22, 2015
    抱歉,才发现微博登录还要提交审核,否则除了自己的账号其他的无法登录。
    我晚上回去再提交审核一下吧
    85 replies    2017-12-12 15:58:43 +08:00
    tjxiter
        1
    tjxiter  
       Jan 22, 2015
    做个网站,一个月多少钱啊?
    yanwen
        2
    yanwen  
       Jan 22, 2015
    不错。。赞一个。。
    typcn
        3
    typcn  
       Jan 22, 2015
    Error code: DNS_PROBE_FINISHED_NXDOMAIN
    lzxgh621
        4
    lzxgh621  
       Jan 22, 2015
    图片全挂,要不缓存一下,成本太高。。。
    crabhit
        5
    crabhit  
       Jan 22, 2015
    这数据是怎么爬下来的
    iewgnaw
        6
    iewgnaw  
    OP
       Jan 22, 2015
    @tjxiter 什么一个月多少钱?
    likid
        7
    likid  
       Jan 22, 2015   ❤️ 1
    点击订阅没反映。

    另,搜索可以用 搜狗的微信搜索。
    其实可以不用放自己服务器上,只需要做一个简单的转换,把搜狗搜索的内容扒过来即可。也不需要定时抓取。
    iewgnaw
        8
    iewgnaw  
    OP
       Jan 22, 2015
    @typcn 可能是pw后缀的域名 有的地方不能解析吧,当时没考虑这个问题
    Hiufan
        9
    Hiufan  
       Jan 22, 2015
    用python写的?
    likid
        10
    likid  
       Jan 22, 2015   ❤️ 2
    给我接口,帮你鲁一个 iOS 的 App
    iewgnaw
        11
    iewgnaw  
    OP
       Jan 22, 2015
    @likid 登录之后才能订阅的。点击订阅不是跳转到登录界面?
    内容是根据搜狗抓取来的,不爬图片服务器压力也不大的
    xmy2232867
        12
    xmy2232867  
       Jan 22, 2015
    搞个这个要用到哪些技术啊?
    xianglong1025
        13
    xianglong1025  
       Jan 22, 2015
    请问楼主,数据是怎么抓取的?
    iewgnaw
        14
    iewgnaw  
    OP
       Jan 22, 2015
    @lzxgh621 你那边看不到图片?部分放qiniu上的,其他都是外链微信的
    iewgnaw
        15
    iewgnaw  
    OP
       Jan 22, 2015
    @Hiufan 是的,django框架
    dddd
        16
    dddd  
       Jan 22, 2015
    以前看到过一个传送门……
    http://chuansong.me/

    …………
    likid
        17
    likid  
       Jan 22, 2015
    @iewgnaw 没有跳到登录界面。
    likid
        18
    likid  
       Jan 22, 2015
    @iewgnaw 刚才试了一下,又可以了
    iewgnaw
        19
    iewgnaw  
    OP
       Jan 22, 2015
    @dddd 是的,开始我也是用传送门的;我一开始的目的是为了抓取推送到kindle的,后来还是顺带用django写了阅读功能
    jaytags
        20
    jaytags  
       Jan 22, 2015
    @iewgnaw
    lz速度还不错哦。 主机哪里买的呢?
    qiniu 的存储怎么变成这样的clouddn.com域名呢?
    iewgnaw
        21
    iewgnaw  
    OP
       Jan 22, 2015
    @xmy2232867
    django 框架, python主要用request bs4 gevent


    @wuxianglong
    搜狗有微信搜索功能,可以抓取url, 再抓取内容
    lizhijun
        22
    lizhijun  
       Jan 22, 2015
    lz可以看看这个 界面好看多了

    http://wx.91toutiao.com/
    veau
        23
    veau  
       Jan 22, 2015
    @iewgnaw ,sogou的微信搜索,抓取频率高了不是会被干么。
    kiritoalex
        24
    kiritoalex  
       Jan 22, 2015   ❤️ 1
    不错,做得挺赞的!
    unixbeta
        26
    unixbeta  
       Jan 22, 2015 via Android
    来源吧
    linsk
        27
    linsk  
       Jan 22, 2015
    @jaytags leancloud
    iewgnaw
        28
    iewgnaw  
    OP
       Jan 22, 2015
    @jaytags 两个办瓦工的vps, 凑合还可以用
    我用qiniu 默认给的域名,好像是可以自定义
    alexkh
        29
    alexkh  
       Jan 22, 2015
    win8,感觉文章字体有点虚
    iewgnaw
        30
    iewgnaw  
    OP
       Jan 22, 2015
    @veau 开始也碰到过这个问题,后来实现一个代理池,基本解决了被干的问题。
    不过请求频率低一点,尽量伪造真实的浏览器行为能减少被干的可能
    declanVox
        31
    declanVox  
       Jan 22, 2015
    能帮抓下人人公众平台的这个账号(历史就是重口味)吗?我想把他变成RSS订阅(人人公众号在PC端不让看,只能上移动端)

    链接如下
    http://public.renren.com/blog/630002445/944051120
    puyo
        32
    puyo  
       Jan 22, 2015
    puyo
        33
    puyo  
       Jan 22, 2015
    可以定于很赞啊,但是“weibo login failed”
    wormcy
        34
    wormcy  
       Jan 22, 2015
    同好奇 数据是从哪爬的
    Jning
        35
    Jning  
       Jan 22, 2015
    不错,赞
    exceloo
        36
    exceloo  
       Jan 22, 2015
    搜狗又是怎么抓的,好奇
    tearsinchina
        37
    tearsinchina  
       Jan 22, 2015
    请问有提交的地方吗?
    iewgnaw
        38
    iewgnaw  
    OP
       Jan 22, 2015
    @puyo MD微博登录还要新浪审核?好像是这个问题,之前一直用自己的账号登录,没有问题。哎,晚上回去再弄一下吧。可以订阅阅读,推送到kindle


    @tearsinchina 左下角有个“添加公众号”的按钮;添加之后,并不会立即抓取文章列表
    shajiquan
        39
    shajiquan  
       Jan 22, 2015
    看起来很酷。但是用微博登录后显示:weibo login failed。
    zhoupengfei
        40
    zhoupengfei  
       Jan 22, 2015
    @exceloo 搜狗微信不是一家吗
    Crossin
        41
    Crossin  
       Jan 22, 2015
    楼主是如何找到新文章的?一直没找到这个来源
    BloodyGhoul
        42
    BloodyGhoul  
       Jan 22, 2015 via Android
    可以提交自己想要的公众号么?
    jon
        43
    jon  
       Jan 22, 2015
    不错做这个要会什么,学多久?
    endosome
        44
    endosome  
       Jan 22, 2015
    可以给出rss 链接么?
    zangbob
        45
    zangbob  
       Jan 22, 2015   ❤️ 1
    楼主已经说了,不能微博登录,所以没法测试添加rss。。。

    希望楼主能继续努力,超越那个chuansongme。。。。那个烂网站太恶心了
    wanghanlin
        46
    wanghanlin  
       Jan 22, 2015
    babyname
        47
    babyname  
       Jan 22, 2015
    搜狗是腾讯给的API
    第三方抓,抓取某个公众号的文章,通过历史消息页面。
    Lucups
        48
    Lucups  
       Jan 22, 2015
    @lzxgh621 不是全挂,我开始也以为是的,要滚动一下页面,才会加载图片。。。bug @iewgnaw
    ericls
        49
    ericls  
       Jan 22, 2015
    真羡慕你们这些会设计界面的!!
    iewgnaw
        50
    iewgnaw  
    OP
       Jan 22, 2015
    @Crossin 查看搜狗微信搜索的请求地址啊
    @BloodyGhoul 可以添加的,走下角有个按钮的。但不是立即抓取所有内容。

    @jon 会前端的话很快的吧,我主要是不会前端,现学现做的,真是吐血啊

    @Lucups 哪个页面滚动才加载图片的?文章的阅读页面是等图片到达可视区才加载的,其他的都是直接加载的

    @ericls 现学现做,再抄抄别人的界面
    Alecio
        51
    Alecio  
       Jan 22, 2015
    天。。这几天我也正在做一个类似的东西,没想到LZ已经做好了。。
    后台转mobi格式用的是calibre还是Kindlegen?
    maye696
        52
    maye696  
       Jan 22, 2015
    这个好东西,能订阅feedly就太好了
    vivisidea
        53
    vivisidea  
       Jan 22, 2015
    不错啊,但这样会有版权问题么。。
    Lucups
        54
    Lucups  
       Jan 22, 2015
    @iewgnaw 不知道是不是你的 jquery.unveil 有问题



    Lucups
        55
    Lucups  
       Jan 22, 2015
    难道是因为我用 21寸屏幕看的原因?
    SuperSquirrel
        56
    SuperSquirrel  
       Jan 22, 2015
    很不错,喜欢这样的界面
    huigeer
        57
    huigeer  
       Jan 22, 2015
    界面不错哦,默默赞一个
    tjxiter
        58
    tjxiter  
       Jan 22, 2015
    @iewgnaw 做网站,买域名一个月多少钱? 不过查了下,你那个域名是免费的
    shiny
        59
    shiny  
    PRO
       Jan 22, 2015
    @iewgnaw 搜狗抓取有频率限制,你有没有做突破限制的处理?
    hanyun
        60
    hanyun  
       Jan 22, 2015
    不错噢!之前有看过传送门~ @shiny 同问搜狗的抓取频率限制怎么处理?
    iewgnaw
        61
    iewgnaw  
    OP
       Jan 22, 2015
    @Alecio 这么巧啊。用的kindlegen的,calibre有命令行的方式?
    @vivisidea 细究的话肯定有的,但这种网站不会有什么大的影响,应该没人追究吧
    @Lucups 应该是那个js有些问题。我再改改看
    iewgnaw
        62
    iewgnaw  
    OP
       Jan 22, 2015
    @tjxiter 不是免费的,一年也就几十块

    @shiny
    @hanyun
    实现了一个代理池的功能,保证每次请求都是代理池中的ip
    ljcarsenal
        63
    ljcarsenal  
       Jan 22, 2015
    大家都热衷爬微信的文章,哈哈。。。一个月之前做了个 http://www.fxbiao.net/ ,不过界面不是我写的
    fuermosi777
        64
    fuermosi777  
       Jan 23, 2015   ❤️ 2
    可以看看我做的iOS app 也是用python爬的 不过目前公众号只有120多个 https://itunes.apple.com/us/app/xue-sheng-ri-bao-hui-ju-zui/id954164794?mt=8
    flash866
        65
    flash866  
       Jan 23, 2015
    楼主能分享下原理吗?
    Juntle
        66
    Juntle  
       Jan 23, 2015
    很赞哦!
    ATiGr
        67
    ATiGr  
       Jan 23, 2015
    非常好用!期待信息更加完全!感觉比手机看方便太多啊!
    imlewc
        68
    imlewc  
       Jan 23, 2015
    imlewc
        69
    imlewc  
       Jan 23, 2015
    @shiny 何必那么频繁,定时就够了
    imlewc
        70
    imlewc  
       Jan 23, 2015
    @dddd 这个还行 量还是有的
    imlewc
        71
    imlewc  
       Jan 23, 2015
    @vivisidea 在中国是不太用考虑这个问题的
    imlewc
        72
    imlewc  
       Jan 23, 2015
    @fuermosi777 点个赞
    vivisidea
        73
    vivisidea  
       Jan 23, 2015
    @tjxiter pw域名不免费,但相对比较便宜,namecheap上最近注册了一个 lib64.pw 首年才24块RMB,续费好像是 50RMB/year

    估计这类域名对搜索引擎不是很友好,可能内容比较难被收录
    tjxiter
        74
    tjxiter  
       Jan 23, 2015
    @vivisidea 看来一分钱一分货是永恒的真理。

    要是搞个个人博客买什么域名比较好呀?
    ivlucks
        75
    ivlucks  
       Jan 23, 2015
    @yanwen 谢谢
    vivisidea
        76
    vivisidea  
       Jan 23, 2015
    @tjxiter 不造啊。。个人博客写着写着就写不下去了,我还有一个 info 域名收录情况貌似还好

    去google 的 webmaster tool 提交索引请求
    提交 sitemap.xml
    优化页面的 title,keywords

    这些基本的对搜索引擎友好的事情要做

    当然最重要还是文章质量要高
    rico93
        77
    rico93  
       Jan 25, 2015
    kindle的订阅发送时怎么实现的
    dellch
        78
    dellch  
       Jan 25, 2015
    @fuermosi777 请问是原生应用么?
    fuermosi777
        79
    fuermosi777  
       Jan 25, 2015
    @dellch 是的 文章页面用的webview
    Crossin
        80
    Crossin  
       Jan 29, 2015
    @iewgnaw @wanghanlin 嗯,那么问题来了:他这里是通过什么发现文章更新并抓取的呢?
    虽然从实现上来说,有一个地方能给到最新数据已经可以了,但没想通这个问题。官方公开渠道是没找到。
    有想到过,通过微信关注一堆公众号,然后想办法模拟这个微信号的登录,拿到收到的公众号文章列表。
    misctalk
        81
    misctalk  
       Feb 2, 2015
    文章抓取是怎么实现的啊?
    有没有开源实现可以学习?

    谢谢了
    muzixinly
        82
    muzixinly  
       Aug 3, 2015
    @iewgnaw 代理池用的哪个呢?
    wenfan
        83
    wenfan  
       Nov 19, 2015 via iPhone
    我也一直有个项目 需要找到 key 和 pass_ticket , pass_ticket 已经基本解决了,还需要 key ! 如果有人会解决 可以有偿!!! wechat 微信: 23511839.......跪求
    haoning747
        84
    haoning747  
       Mar 7, 2016
    微信我算是放弃了,直接爬不可以,用斯库林模拟点击也不可以,所以,大家还不不要再搞了,我还是玩我的网盘吧: http://www.quzhuanpan.com
    wjx1993
        85
    wjx1993  
       Dec 12, 2017 via Android
    @likid 搜狗的微信公众号文章是有时效的吧!
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2624 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 207ms · UTC 00:44 · PVG 08:44 · LAX 17:44 · JFK 20:44
    ♥ Do have faith in what you're doing.