V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zippera
V2EX  ›  程序员

有没有可能自动抓取网上文章并自动在自己的网站发布?

  •  
  •   zippera ·
    zippera · 2013-06-23 10:25:09 +08:00 · 11846 次点击
    这是一个创建于 4164 天前的主题,其中的信息可能已经有所发展或是发生改变。
    比如网站做好并设置好之后,每天自动到九点、startupnews类似的网站上抓取十篇文章附带评论,然后自动发布到自己的网站,全程无人监守。

    能否实现?有没有已经实现的?
    freed
        1
    freed  
       2013-06-23 10:26:46 +08:00
    XX小偷? 这类小偷程序应该可以吧..
    shiweifu
        2
    shiweifu  
       2013-06-23 10:28:59 +08:00
    写个爬虫不就行了
    twamix
        3
    twamix  
       2013-06-23 11:01:58 +08:00
    火车头 AND ET2
    jjplay
        4
    jjplay  
       2013-06-23 11:32:53 +08:00
    http://www.demo2.org/ 高端反向代理采集
    zippera
        5
    zippera  
    OP
       2013-06-23 14:19:27 +08:00
    @freed Could you name one please ?
    zippera
        6
    zippera  
    OP
       2013-06-23 14:20:26 +08:00
    @jjplay 感谢,能否撰文介绍一下相关知识或原理,或者推荐几篇相关文章?
    zippera
        7
    zippera  
    OP
       2013-06-23 14:21:09 +08:00
    @twamix 多谢,我了解下
    xieren58
        8
    xieren58  
       2013-06-23 14:21:18 +08:00
    http://www.17qingsong.com/ 全自动,无人值守
    zippera
        9
    zippera  
    OP
       2013-06-23 14:25:16 +08:00
    @xieren58 感谢,能否撰文介绍一下相关知识或原理,或者推荐几篇相关文章?
    yaotian
        10
    yaotian  
       2013-06-23 14:38:59 +08:00
    刚搞得,连域名都没有。 10秒抓一次。
    http://zhengyaotian.com:9999
    huip
        11
    huip  
       2013-06-23 14:51:31 +08:00
    这个应该很容易实现吧,把抓取的数据存储到数据库,然后在写一个中间件就可以了。
    zippera
        12
    zippera  
    OP
       2013-06-23 14:56:52 +08:00
    @yaotian
    @huip 有没有更详细的介绍?我也想做
    lyklykkkkkkk
        13
    lyklykkkkkkk  
       2013-06-23 15:04:23 +08:00
    许多据说『月入几万』的垃圾站就是这么干的,收集文章+挂广告
    xieren58
        14
    xieren58  
       2013-06-23 15:24:05 +08:00
    @lyklykkkkkkk 对呀,我的那小站,每个月也能赚点~学那么多,不能变现,那也是白学~谁让生在天朝呢。一套房子压死很多程序猿了~
    yaotian
        15
    yaotian  
       2013-06-23 15:40:48 +08:00
    @xieren58 你那站靠广告?收入每月多少?
    xieren58
        16
    xieren58  
       2013-06-23 15:42:25 +08:00
    @yaotian 没多少,ip平时一般有3k,百度有10几块一天,加上有淘宝,亚马逊,一号店那些,一个月至少几百,上千,没啥问题~
    akira
        17
    akira  
       2013-06-23 17:31:37 +08:00
    肯定可以啊。。。不然你以为各种垃圾站怎么来的,还有各种采集软件,都是谁买的
    yaotian
        18
    yaotian  
       2013-06-23 18:19:22 +08:00
    @xieren58 不错呀。 网站复制50个,那么收入可以不用上班了
    yaotian
        19
    yaotian  
       2013-06-23 18:28:10 +08:00
    上面介绍的那个临时的站大家就别访问了, 和域名连上了 http://sche.mobi/
    xieren58
        20
    xieren58  
       2013-06-23 18:35:37 +08:00
    @yaotian 我也想~
    yaotian
        21
    yaotian  
       2013-06-23 18:41:38 +08:00
    @xieren58 你那站3k ip, 应该不会占太多资源,一个linode可以复制好几个呢,加油
    xieren58
        22
    xieren58  
       2013-06-23 18:46:52 +08:00
    @yaotian 买不起vps,放在免费的heroku呢,大家都没想到吧~我就投入一个域名钱而已~
    huazhouji
        23
    huazhouji  
       2013-06-23 18:55:21 +08:00 via iPhone
    垃圾站不是很容易被搜索引擎降权之类的吗?需要采集后做什么处理吗?还是采集的渠道有讲究?望赐教〜〜
    efi
        24
    efi  
       2013-06-23 19:20:04 +08:00
    有没有可能自动抓取网上邮箱并自动向邮箱发送广告?
    lovejoy
        25
    lovejoy  
       2013-06-23 19:20:16 +08:00
    最讨厌这种网站,尤其是有些完全是关键字没有内容的网站
    zippera
        26
    zippera  
    OP
       2013-06-23 20:25:37 +08:00
    @efi 这个有,所以很多人把邮箱做成图片。
    yaotian
        27
    yaotian  
       2013-06-23 22:59:33 +08:00
    @xieren58 真没看出来,不错。 我们建友情链接吧? 目前 http://sche.mobi 已经搞得相对满意了。
    timothyye
        28
    timothyye  
       2013-06-23 23:00:43 +08:00
    这类的程序很多的
    quake0day
        29
    quake0day  
       2013-06-24 00:25:24 +08:00
    这个自己写都不难,Python基础的urllib,urllib2库就能搞定。至于定时,用Crontab控制就行了。
    zlwens
        30
    zlwens  
       2013-06-24 00:44:12 +08:00
    原来拉圾站是这么有搞头啊
    PrideChung
        31
    PrideChung  
       2013-06-24 00:51:02 +08:00
    建议你不要做这种无耻的行为。
    xieren58
        32
    xieren58  
       2013-06-24 01:12:52 +08:00
    @yaotian 友情链接已经搞好,我的网站叫17轻松,你改改名字~
    tarsier
        33
    tarsier  
       2013-06-24 01:25:46 +08:00 via Android
    不是我自视清高,我觉得在这里讨论垃圾站采集站复制别人内容来赚钱的行为不好。
    xiiing
        34
    xiiing  
       2013-06-24 07:36:36 +08:00
    网上原创文章并不多,很多门户网站也是转来转去的。转的时候加上来源是不是好一些?
    zippera
        35
    zippera  
    OP
       2013-06-24 08:01:54 +08:00 via Android
    @PrideChung 想到这个问题时纯粹是从技术角度出发的,也想练练手。看到大家讨论才意识到有些垃圾站是这么来的。但是,美味阅读这样的网站不也是采集来的吗?
    zippera
        36
    zippera  
    OP
       2013-06-24 08:02:40 +08:00 via Android
    @xiiing 从道德法律角度都是必要的
    zippera
        37
    zippera  
    OP
       2013-06-24 08:03:40 +08:00 via Android
    @timothyye 能否举例几个?
    zippera
        38
    zippera  
    OP
       2013-06-24 08:04:18 +08:00 via Android
    @quake0day 好,我了解下,谢谢
    timothyye
        39
    timothyye  
       2013-06-24 10:27:56 +08:00
    @zippera google关键词 “自动 采集 程序”
    yaotian
        40
    yaotian  
       2013-06-24 10:52:26 +08:00
    @xieren58 已改。

    我仔细的看了你的站,有些细节做的很不错,能运行在免费主机上,相当了不起。

    鼓励你给大家开一帖,讨论站长运营。比如如何让你不降级,让搜索引擎更多收录,等等
    xieren58
        41
    xieren58  
       2013-06-24 10:55:07 +08:00
    @yaotian 我也是菜鸟,以前只是写代码,刚开始做站长不久,没啥经验呢~
    PrideChung
        42
    PrideChung  
       2013-06-24 13:08:39 +08:00 via iPhone
    @zippera 美味爱读的网摘是ugc,并非自动采集。不过我觉得这样还是有问题,因为无论网站还是用户都没有得到原文作者的授权。
    按照著作权法,全文转载是需要经过作者首肯的,即使保留了署名也需要作者同意。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1722 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 16:50 · PVG 00:50 · LAX 08:50 · JFK 11:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.