V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
LastingTime
V2EX  ›  程序员

为什么爬一些简单的福利站总能引起巨大关注量?

  •  2
     
  •   LastingTime · 2017-11-06 10:14:44 +08:00 · 11360 次点击
    这是一个创建于 2334 天前的主题,其中的信息可能已经有所发展或是发生改变。
    没有贬低的意思, 只是好奇一从些简单的公开的网站上爬下来些妹子图、福利图等
    然后发在 V2EX 就这么受欢迎和关注..
    尤其是程序员版块, 这不是稍微会点 HTTP 相关技能就能做到的事情吗?
    73 条回复    2022-12-21 13:05:17 +08:00
    Immortal
        1
    Immortal  
       2017-11-06 10:17:01 +08:00   ❤️ 4
    这和技术没啥关系
    rocksolid
        2
    rocksolid  
       2017-11-06 10:17:21 +08:00   ❤️ 2
    talk is cheap, show me the code
    Devmingwang
        3
    Devmingwang  
       2017-11-06 10:17:51 +08:00 via Android
    色心的驱使。
    ssshooter
        4
    ssshooter  
       2017-11-06 10:18:11 +08:00
    切,男人.jpg
    holajamc
        5
    holajamc  
       2017-11-06 10:18:48 +08:00
    我写了一个汤不热的爬虫= =根据 following 和 follower 继续抓取,写的太菜没发
    Luckyray
        6
    Luckyray  
       2017-11-06 10:20:01 +08:00
    技术不是一切
    zrj766
        7
    zrj766  
       2017-11-06 10:21:58 +08:00 via Android
    都喜欢看漂亮妹子,滑稽
    shuaige
        8
    shuaige  
       2017-11-06 10:23:44 +08:00 via Android
    1、这和技术没关系
    2、性是第一生产力
    likuku
        9
    likuku  
       2017-11-06 10:25:57 +08:00
    建议楼主作个爬各种漂亮汉子图的爬虫站...反响也不会差
    XiaoFaye
        10
    XiaoFaye  
       2017-11-06 10:28:29 +08:00 via Android
    食色性也,几千年前的人都知道,楼主没理由不知道啊!
    LastingTime
        11
    LastingTime  
    OP
       2017-11-06 10:29:08 +08:00
    @shuaige
    @Immortal
    @Devmingwang
    @Luckyray
    然而即使拿到源码或拿到那几个 G 的图片, 真的会一张张翻吗?
    我觉得跟之前裸贷的接近 10 个 G 下载下来随便看几张就全删了会是同一个结果吧..
    mooncakejs
        12
    mooncakejs  
       2017-11-06 10:29:29 +08:00   ❤️ 1
    楼主要是知道互联网超过一半以上流量是色情相关,会不会惊讶
    LastingTime
        13
    LastingTime  
    OP
       2017-11-06 10:31:54 +08:00
    @mooncakejs
    并不惊讶, 但是跟这个问题 性质好像不太一样. 毕竟咱们这波人是自己可以根据自己的喜好定制抓取..
    另外你应该想表达,人为流量的一半以上是色情吧, 互联网 9.7 成流量是机器干的..
    tscat
        14
    tscat  
       2017-11-06 10:39:54 +08:00
    互联网上,大部分社交软件,发家的时候往往伴随着 色 这个字眼。
    马化腾还在 qq 上假装少妇和人聊天呢,什么微信摇一摇,陌陌。
    然后直播,除了游戏,还有很大一部分还是色流。
    testcount
        15
    testcount  
       2017-11-06 10:44:39 +08:00 via Android   ❤️ 1
    想多了,关注这种东西的大多数都是刚开始学编程的小娃娃,而且觉得“这个东西对我好像有点用,照着抄一下,成就感爆棚”。V 站大多数编程老鸟根本不会点开链接看的,点开了最多看下实现有啥猫腻。
    LastingTime
        16
    LastingTime  
    OP
       2017-11-06 10:52:03 +08:00
    @testcount 明白人
    stephenyin
        17
    stephenyin  
       2017-11-06 11:54:19 +08:00   ❤️ 1
    程序员就一定会 html 和爬虫么?我不会爬,所以别人爬到我会看的很开心。BTW,看起来 v2 已被前端占领。。。
    HeyWeGo
        18
    HeyWeGo  
       2017-11-06 12:06:14 +08:00
    除了食色性也,君不见,很多人还有收藏的心理,不看放着也挺好~
    gamexg
        19
    gamexg  
       2017-11-06 12:34:42 +08:00 via Android
    @LastingTime 别说翻了,爬虫也只是看一眼加个星标就完事,根本不会下载爬虫。
    LastingTime
        20
    LastingTime  
    OP
       2017-11-06 12:53:21 +08:00
    @stephenyin 哈哈哈 也有道理
    LastingTime
        21
    LastingTime  
    OP
       2017-11-06 12:53:51 +08:00
    @HeyWeGo
    @gamexg
    恩跟 15 楼朋友一个意思
    nuansediao
        22
    nuansediao  
       2017-11-06 13:00:12 +08:00
    曲高和寡~~~你跟我谈流体力学,我也得能接的上话呀。
    coderluan
        23
    coderluan  
       2017-11-06 13:05:00 +08:00   ❤️ 1
    你以为是发爬虫?其实是在发网站!!!

    发个不知名小福利网站才会被点赞,发煎蛋这种烂大街只能被鄙视和吐槽。
    ZYX0819
        24
    ZYX0819  
       2017-11-06 13:12:36 +08:00
    @holajamc 不翻墙的话能看你的内容吗。。可以的话跪求啊
    woscaizi
        25
    woscaizi  
       2017-11-06 13:20:42 +08:00
    其实也没那么受欢迎吧。
    x86
        26
    x86  
       2017-11-06 13:24:48 +08:00
    煎蛋福利图那种叫养眼,色?
    jin5354
        27
    jin5354  
       2017-11-06 13:37:51 +08:00   ❤️ 1
    跟做 vue 高仿美团外卖饿了么 能拿好多 star 是一个道理
    『这个东西我好像能看懂,照着抄一下,成就感爆棚』
    stzz
        28
    stzz  
       2017-11-06 13:45:48 +08:00
    @LastingTime 不要代表所有人,10 个 G 的图片我就都看了
    没错,我这种人就是这些图片的目标群体~
    holajamc
        29
    holajamc  
       2017-11-06 13:46:58 +08:00
    @ZYX0819 前置条件是有一个前端= =我不会
    akira
        30
    akira  
       2017-11-06 14:02:03 +08:00
    整天讨论代码很无聊的。。
    ylsc633
        31
    ylsc633  
       2017-11-06 14:32:38 +08:00
    以前入行时候, 随手爬了一下 达盖尔.. 到现在还有人找我要那一段代码呢.....

    可能是市场需要吧..

    最近几个公众号推送几个直播给我...

    全是 肉色表演..

    一个房间同时观看的有好几千... 而且这些软件,隔个两三天就换证书(ios),几乎每天就会更新一次,且 一个星期左右就会换 logo 和名字... 然后一个月后,app 就会停了... 换新的!

    还是市场需要....
    8355
        32
    8355  
       2017-11-06 14:40:43 +08:00
    大家都是写代码 为什么工资有高低?
    linuxchild
        33
    linuxchild  
       2017-11-06 14:43:10 +08:00
    @ylsc633 老司机不开个车?
    linuxchild
        34
    linuxchild  
       2017-11-06 14:43:26 +08:00
    楼主只看见了技术,没看见人性。
    oldmenplus
        35
    oldmenplus  
       2017-11-06 15:03:12 +08:00 via Android
    程序员。。。( ´Д`)=3
    chenhaifeng
        36
    chenhaifeng  
       2017-11-06 15:06:20 +08:00   ❤️ 1
    这就是为什么做的比抨击的厉害的原因。
    wangfei324017
        37
    wangfei324017  
       2017-11-06 15:10:42 +08:00
    Python 爬虫确实太牛了,GitHub 上发现个爬某位 tumblr 博主的全部视频照片代码,买了搬瓦工 vps 做中转,一个月 1T 流量都被我用光了……
    helica
        38
    helica  
       2017-11-06 15:12:23 +08:00 via iPhone
    (当人们发现手机可以看黄片)
    yuhr123
        39
    yuhr123  
       2017-11-06 15:15:53 +08:00
    性是科技发展的主要驱动力 原话不是这么说的,但就是这意思。
    LastingTime
        40
    LastingTime  
    OP
       2017-11-06 15:30:49 +08:00
    @stzz 好的吧...
    LastingTime
        41
    LastingTime  
    OP
       2017-11-06 15:32:02 +08:00
    @coderluan 我就是看到那个爬煎蛋的, 技术也不难, 网站也没墙, 关注的人还不少, 所以很奇怪
    LastingTime
        42
    LastingTime  
    OP
       2017-11-06 15:32:44 +08:00
    @jin5354 懂你意思
    Sain
        43
    Sain  
       2017-11-06 15:33:22 +08:00
    @ylsc633 求公众号
    LastingTime
        44
    LastingTime  
    OP
       2017-11-06 15:34:48 +08:00
    @ylsc633 确实, 能生存说明有需求有市场, 有对应的受众, 倒是我想多了
    LastingTime
        45
    LastingTime  
    OP
       2017-11-06 15:35:56 +08:00
    @chenhaifeng 没明白, 什么意思?
    pq
        46
    pq  
       2017-11-06 15:40:49 +08:00
    @LastingTime 可能多数人懒得自己动手吧,你自己东扒一点西抓一把多费事,这下人家给你一下子给了你一箩筐现成的,肯定就吸引人了。

    比如你弄个 app,将各种福利直播整合到一起,肯定有市场(不过,这种玩意现在已经有很多了,不过还没有免费的)。。。:D
    surv2ex
        47
    surv2ex  
       2017-11-06 15:57:57 +08:00
    好色之心,人皆有之
    coderluan
        48
    coderluan  
       2017-11-06 16:01:04 +08:00
    @LastingTime #41 那个没受欢迎啊,大多数吐槽和鄙视的
    tdstevelx333
        49
    tdstevelx333  
       2017-11-06 16:03:41 +08:00 via Android
    @wangfei324017 能请教下那个代码的地址?
    hanxiaoqiang
        50
    hanxiaoqiang  
       2017-11-06 16:05:56 +08:00 via iPhone
    话说,从哪里开始爬的呢?
    Tunar
        51
    Tunar  
       2017-11-06 16:44:43 +08:00
    看妹子而已
    rswl
        52
    rswl  
       2017-11-06 17:58:13 +08:00
    跟技术无关 两个同标题的帖子一个封面有小姐姐一个没有你猜哪个点击率高
    zcc0810
        53
    zcc0810  
       2017-11-06 18:11:21 +08:00
    心之所向,性之所往
    woshinide300yuan
        54
    woshinide300yuan  
       2017-11-06 18:16:51 +08:00
    哈哈~ 纯属凑热闹嘛。毕竟其他领域可能还涉及到有没有兴趣的问题。福利谁会没兴趣哦~~~~~~
    stcasshern
        55
    stcasshern  
       2017-11-06 18:18:23 +08:00
    开个不好笑的玩笑,露珠有点像进入贤者时间了哈哈。
    ii4Rookie
        56
    ii4Rookie  
       2017-11-06 18:52:59 +08:00
    这种东西一个人看是没意思的,要一起分享 大家才会觉得有意思
    momocraft
        57
    momocraft  
       2017-11-06 18:54:26 +08:00
    门槛低。更复杂的事,哪怕更有价值,这些人未必看得懂。
    c4fun
        58
    c4fun  
       2017-11-06 19:16:09 +08:00
    都是来看网址的
    sola97
        59
    sola97  
       2017-11-06 20:47:46 +08:00 via Android
    @holajamc 我按照这个规则,爬了 tumblr 的上万个视频,精品要百里挑一,人工筛选吃不消,最后就按标题挑了一些来看然后就没兴致了
    idblife
        60
    idblife  
       2017-11-06 21:41:44 +08:00
    让我来上个网址吧
    爬虫保证不了质量啊

    https://qingbuyaohaixiu.com/
    ryd994
        61
    ryd994  
       2017-11-07 02:08:28 +08:00 via Android
    重点在福利而不在简单
    你要有能力爬复杂的福利站,一样有流量
    zjlin1984
        62
    zjlin1984  
       2017-11-07 08:24:15 +08:00
    @ryd994 这个见解比较好。
    fish19901010
        63
    fish19901010  
       2017-11-07 09:25:26 +08:00
    重点在福利不在简单+1,我相信就算人工保存下来过来发帖,一样能够很高人气。。。关键在于分享的快乐,以及聚众看片的那种感觉。
    holajamc
        64
    holajamc  
       2017-11-07 09:34:51 +08:00
    @sola97 嗯我也没有细细看过,不如抽出来关键帧去阿里鉴别一下?
    yuxuan
        65
    yuxuan  
       2017-11-07 09:55:11 +08:00
    最大的乐趣还是 “卧槽 我在办公室直接打开了 XXX 就在我旁边”😂
    jijiwaiwai
        66
    jijiwaiwai  
       2017-11-07 10:55:04 +08:00
    #encoding=utf8
    import re
    import os
    import urllib
    import requests
    import download_progress
    from pyquery import PyQuery

    httplib = requests.Session()
    # httplib.proxies = {
    # "http": "127.0.0.1:1080",
    # "https": "127.0.0.1:1080",
    # }
    httplib.proxies = None

    BASE_URL = "http://www.91porn.com"
    # BASE_URL = "http://email.91dizhi.at.gmail.com.7h4.space"
    HOST = BASE_URL.replace("http://", "")
    headers = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    "Accept-Encoding": "gzip, deflate, sdch",
    "Accept-Language": "zh-CN,zh;q=0.8,en;q=0.6,ja;q=0.4",
    "Cache-Control": "max-age=0",
    "Connection": "keep-alive",
    "Upgrade-Insecure-Requests": "1",
    "Cookie": "__cfduid=db012482c270fa1f5ded2903a6e23bc7c1489314005; CLIPSHARE=mkfverli1mp659s49rklg7s4c6; watch_times=1; evercookie_cache=undefined; evercookie_etag=undefined; show_msg=3; 91username=dfdsdfdgfgdfgf; DUID=51a2l
    wwqvsbLKLuC8GzQhovCxkJIoz3nOTQ3cXXjR4w31%2FFE; USERNAME=18f7vcdO6LmTdVWCgMCD1L0IVQqGLjL0BWT%2FxBYxbXDXzFxQRSnfKsKTVg; user_level=1; EMAILVERIFIED=no; level=1; __utma=69831812.144777271.1489314006.1489314006.1489322790.2; __utmb=69
    831812.0.10.1489322790; __utmc=69831812; __utmz=69831812.1489314006.1.1.utmcsr=91dizhi.space|utmccn=(referral)|utmcmd=referral|utmcct=/; AJSTAT_ok_pages=8; AJSTAT_ok_times=2",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36"
    }

    def get_vids_v1():
    url = "%s/v.php?category=top&viewtype=basic" %BASE_URL
    data = httplib.get(url, headers=headers).content
    DOM = PyQuery(data)
    a_list = DOM("div.listchannel a")
    urls = []
    for i in range(len(a_list)):
    href = a_list.eq(i).attr("href")
    if "viewkey" in href:
    urls.append(href)
    # print href

    urls = list(set(urls))
    # print "\n".join(urls)
    return urls

    def get_vids():
    url = "%s/index.php" %BASE_URL
    data = httplib.get(url, headers=headers).content
    DOM = PyQuery(data)
    a_list = DOM("div#tab-featured a")
    urls = []
    for i in range(len(a_list)):
    href = a_list.eq(i).attr("href")
    if "viewkey" in href:
    urls.append(href)
    # print href

    urls = list(set(urls))
    # print "\n".join(urls)
    return urls

    def get_video_url_v1(url):
    data = httplib.get(url, headers=headers, timeout=10).content
    data = data.replace("\n", "")
    data = data.replace(" ", "")
    # print data
    """
    <title> xxxx-Chinese homemade video</title>
    so.addVariable('file','201812');
    so.addVariable('max_vid','202377');
    so.addVariable('seccode' , '842fa039535238905a93ccb961e21183');
    """
    # print re.findall("so.addVariable.+?so.write", data)

    title = re.findall("<title>(.+?)-(.+?)</title>", data)[0]
    VID = re.findall("so.addVariable\('file','(\d+)'\);", data)[0]
    max_vid = re.findall("so.addVariable\('max_vid','(\d+)'\);", data)[0]
    seccode = re.findall("so.addVariable\('seccode','(.+?)'\);", data)[0]

    getfile_url = "%s/getfile.php?VID=%s&mp4=0&seccode=%s&max_vid=%s" %(BASE_URL, VID, seccode, max_vid)
    # print getfile_url
    """
    file=http%3A%2F%2F192.240.120.2%2Fmp43%2F202132.mp4%3Fst%3DeGVzsftsOLn7pxPgdeV-dg%26e%3D1489306723&domainUrl=http://91porn.ro.lt&imgUrl=http://img.file.am/91porn/>
    """
    headers["Referer"] = url
    headers["X-Requested-With"] = "ShockwaveFlash/23.0.0.207"
    headers["Accept"] = "*/*"
    headers["Host"] = "*/*"
    headers["Connection"] = "keep-alive"

    data = httplib.get(getfile_url, headers=headers, timeout=10).content
    # print data.strip()
    video_url = data.split("&domainUrl=")[0].split("file=")[-1]
    video_url = urllib.unquote(video_url)
    # print video_url
    print VID, title, video_url
    return VID, video_url

    def get_video_url(url):
    data = httplib.get(url, headers=headers, timeout=10).content
    data = data.replace("\n", "")
    data = data.replace("\r", "")
    video_url = re.findall('<source src="(.+?)"', data)[0]
    title = re.findall('<div id="viewvideo-title">(.+?)</div>', data)[0]
    # print video_url
    print title.decode("utf8")
    print video_url
    return title, video_url


    def download_video(video_url, file_name):
    if os.path.exists(file_name):
    return True

    conn = urllib.urlopen(video_url)
    data = download_progress.chunk_read(conn, report_hook=download_progress.chunk_report)
    f = open(file_name, "wb")
    f.write(data)
    f.close()



    urls = get_vids()
    for url in urls:
    print "=" * 60
    print url
    try:
    title, video_url = get_video_url(url)
    title = title.replace("/", "-")
    title = title.replace("?", "-")
    title = title.replace(":", "-")
    title = title.replace("\\", "-")
    title = title.replace("(", "")
    title = title.replace(")", "")
    title = title.replace("&", "-")
    title = title.replace(" ", "-")
    title = title.replace("\"", "")
    title = title.replace("'", "")

    file_name = "downloads/%s.mp4" %(title)
    # file_name = "%s.mp4" %(url.split("viewkey=")[-1].split("&")[0])
    # print video_url
    download_video(video_url, file_name)

    os.system("echo 11111 >> %s" %file_name)

    except Exception as e:
    # print e
    pass
    ic3z
        67
    ic3z  
       2017-11-07 11:01:55 +08:00 via Android
    为什么讨论爬福利站的帖子的帖子也能引起巨大关注量
    sola97
        68
    sola97  
       2017-11-07 12:27:51 +08:00
    @holajamc #64 阿里要是能鉴别是欧美的还是亚洲的就好了哈哈
    holajamc
        69
    holajamc  
       2017-11-07 14:22:41 +08:00
    @sola97 我觉得根据音频嗯说不定可以(滑稽.png
    LastingTime
        70
    LastingTime  
    OP
       2017-11-08 11:50:49 +08:00
    @holajamc six six six
    holajamc
        71
    holajamc  
       2017-11-08 12:29:51 +08:00
    @LastingTime 设想是这样的根据音频识别文字然后 testrank 算出来关键文本最后 ngram 推测语言 2333
    wangfei324017
        72
    wangfei324017  
       2017-12-05 10:27:22 +08:00
    5ipapa
        73
    5ipapa  
       2022-12-21 13:05:17 +08:00
    嘟嘟嘟 发车了
    t.9217lu.com/t8k2c8
    收藏不迷路
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   974 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 20:20 · PVG 04:20 · LAX 13:20 · JFK 16:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.