V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
zhangyueru
V2EX  ›  分享创造

没事撸了一个百度网盘资源站

  •  
  •   zhangyueru · 2016-09-08 15:26:42 +08:00 · 14696 次点击
    这是一个创建于 2999 天前的主题,其中的信息可能已经有所发展或是发生改变。
    第 1 条附言  ·  2016-09-08 16:16:54 +08:00
    目前索引了 600 多万的数据,每天以十万多的数据增长。帮助大家帮助自己
    第 2 条附言  ·  2016-09-12 18:00:42 +08:00
    修改若干个 bug
    第 3 条附言  ·  2016-09-20 23:18:29 +08:00
    第 4 条附言  ·  2016-09-28 19:49:02 +08:00
    号外号外!!!

    @@@目前已经采集 25890798 个资源
    #### 微给力给悟空遥控器 APP 中的百度云提供数据支持
    #### 有合作需求的 Q 229----889-----141
    96 条回复    2016-09-28 19:44:23 +08:00
    imn1
        1
    imn1  
       2016-09-08 15:41:13 +08:00
    只搜文件?应该目录也可搜,一些剧集是整个文件夹分享的
    zhangyueru
        2
    zhangyueru  
    OP
       2016-09-08 15:47:04 +08:00
    目前是 文件, 之后完善一下
    zhangyueru
        3
    zhangyueru  
    OP
       2016-09-08 15:50:29 +08:00
    有问题 基友们 欢迎拍砖
    pie
        4
    pie  
       2016-09-08 15:52:27 +08:00
    举例:
    搜《 dycc5 》,三个结果,进去文件夹,都已经没了。度妹下手真快。
    ---------------
    老兄自己做的啊?
    zhangyueru
        5
    zhangyueru  
    OP
       2016-09-08 15:55:34 +08:00
    是的。 现在百度抓版权很猛的 两三天就失效
    helloworld2010
        6
    helloworld2010  
       2016-09-08 16:17:56 +08:00
    buckyRRRR
        7
    buckyRRRR  
       2016-09-08 16:17:59 +08:00 via iPhone
    能过滤掉失效的资源吗
    helloworld2010
        8
    helloworld2010  
       2016-09-08 16:19:25 +08:00
    请问下,是调用百度 sdk 的接口吗?要付费么?
    sigone
        9
    sigone  
       2016-09-08 16:21:44 +08:00 via Android
    移动版不给力,楼主优化一下移动版
    xp0729
        10
    xp0729  
       2016-09-08 16:21:58 +08:00
    有好多都失效了,还想问一下那种加密的也能搜到吗
    zhangyueru
        11
    zhangyueru  
    OP
       2016-09-08 16:35:44 +08:00
    @buckyRRRR 下个版本会考虑
    zhangyueru
        12
    zhangyueru  
    OP
       2016-09-08 16:36:00 +08:00
    @xp0729 加密的搜索不到
    zhangyueru
        13
    zhangyueru  
    OP
       2016-09-08 16:36:39 +08:00
    @sigone 移动版会出来,主要看一下大家的需求大吗
    zhangyueru
        14
    zhangyueru  
    OP
       2016-09-08 16:37:05 +08:00
    @helloworld2010 不是 sdk 爬的
    yunji3344
        15
    yunji3344  
       2016-09-08 16:50:17 +08:00
    http://www.7tdy.cc 推荐一个
    justina25
        16
    justina25  
       2016-09-08 17:10:21 +08:00
    赞楼主。。想了解下怎么实现的。
    scola
        17
    scola  
       2016-09-08 17:14:24 +08:00 via Android
    赞👍
    CuminLo
        18
    CuminLo  
       2016-09-08 17:16:06 +08:00
    确实不错。
    思考一下楼主咋用的。
    zhangyueru
        19
    zhangyueru  
    OP
       2016-09-08 17:47:08 +08:00
    目前 程序太乱 抽机会分享一下
    fyibmsd
        20
    fyibmsd  
       2016-09-08 18:16:32 +08:00
    开源吗
    Baymaxbowen
        21
    Baymaxbowen  
       2016-09-08 18:30:54 +08:00 via Android
    帮楼主分享给身边的老司机了,很赞,
    RangerWolf
        22
    RangerWolf  
       2016-09-08 18:55:19 +08:00
    有 github 吗? 赞一个
    55555
        23
    55555  
       2016-09-08 18:55:19 +08:00
    已分享
    itfanr
        24
    itfanr  
       2016-09-08 18:57:58 +08:00
    好东西!
    zhangyueru
        25
    zhangyueru  
    OP
       2016-09-08 21:05:50 +08:00
    @Baymaxbowen @55555 感谢分享 谢谢
    darluc
        26
    darluc  
       2016-09-08 21:07:48 +08:00
    👍
    designer
        27
    designer  
       2016-09-08 21:14:40 +08:00
    很棒支持一下。
    zhangyueru
        28
    zhangyueru  
    OP
       2016-09-08 21:19:00 +08:00
    @designer 谢谢
    Cannikin
        29
    Cannikin  
       2016-09-08 21:25:59 +08:00
    很棒!支持~
    got
        30
    got  
       2016-09-08 21:26:48 +08:00
    收藏了
    zhangyueru
        31
    zhangyueru  
    OP
       2016-09-08 21:29:02 +08:00
    @Cannikin @got 谢谢 帮忙多宣传一下
    Midnight
        32
    Midnight  
       2016-09-08 21:43:23 +08:00
    好东西,收藏了
    mingyun
        33
    mingyun  
       2016-09-08 22:04:40 +08:00
    好东西,我一搜周星驰就有星爷电影全集
    Donald5VE
        34
    Donald5VE  
       2016-09-08 22:34:18 +08:00 via iPad
    赞!
    zhangyueru
        35
    zhangyueru  
    OP
       2016-09-08 23:16:40 +08:00
    elevenily
        36
    elevenily  
       2016-09-09 08:45:21 +08:00
    好赞啊!!收藏了!!!
    RockShake
        37
    RockShake  
       2016-09-09 09:00:58 +08:00
    增加检查失效资源功能就更棒了
    kobe1941
        38
    kobe1941  
       2016-09-09 09:12:06 +08:00
    楼主好人哇,终于找到新三国的资源了,泪奔。。
    zhangyueru
        39
    zhangyueru  
    OP
       2016-09-09 09:24:23 +08:00
    @elevenily 谢谢支持,大家的支持 是我坚持的动力
    hqdmy
        40
    hqdmy  
       2016-09-09 09:24:47 +08:00
    不行啊
    m list
    Traceback (most recent call last):
    File "/usr/local/bin/tm", line 5, in <module>
    from pkg_resources import load_entry_point
    File "/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/pkg_resources.py", line 2793, in <module>
    working_set.require(__requires__)
    File "/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/pkg_resources.py", line 673, in require
    needed = self.resolve(parse_requirements(requirements))
    File "/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/pkg_resources.py", line 576, in resolve
    raise DistributionNotFound(req)
    pkg_resources.DistributionNotFound: click
    zhangyueru
        41
    zhangyueru  
    OP
       2016-09-09 09:24:54 +08:00
    @RockShake 这个功能已经记下来了
    spreadwing
        42
    spreadwing  
       2016-09-09 09:25:33 +08:00
    Very good !
    hqdmy
        43
    hqdmy  
       2016-09-09 09:25:38 +08:00
    @hqdmy 忽略我,我错了
    zhangyueru
        44
    zhangyueru  
    OP
       2016-09-09 09:25:54 +08:00
    @hqdmy 请具体的描述一下问题 谢谢
    zhangyueru
        45
    zhangyueru  
    OP
       2016-09-09 09:31:38 +08:00
    @hqdmy 好的 任何问题都可以提出来
    talen666
        46
    talen666  
       2016-09-09 09:46:20 +08:00
    发现一个小问题。。直接点击搜索报错参数错误
    zhangyueru
        47
    zhangyueru  
    OP
       2016-09-09 09:56:37 +08:00
    @talen666 谢谢 记下来了。
    glchaos
        48
    glchaos  
       2016-09-09 10:35:57 +08:00
    牛,收藏了,向你学习
    chuhemiao
        49
    chuhemiao  
       2016-09-09 10:36:33 +08:00
    能 rss 吗
    zhangyueru
        50
    zhangyueru  
    OP
       2016-09-09 10:57:16 +08:00
    @chuhemiao 好了 之后再这里公布
    isb
        51
    isb  
       2016-09-09 11:04:04 +08:00
    panc.cc 推荐一下。。
    TheOtherBruce
        52
    TheOtherBruce  
       2016-09-09 11:12:46 +08:00
    好多资源都设了密码
    RockShake
        53
    RockShake  
       2016-09-09 11:21:45 +08:00
    密码搜不到也是枉然。。。
    Satelli
        54
    Satelli  
       2016-09-09 11:23:07 +08:00
    可以增加分享人的搜索方式吗(
    itisthecon
        55
    itisthecon  
       2016-09-09 11:32:52 +08:00
    很给力!速度飞快, 资源也很丰富
    zhangyueru
        56
    zhangyueru  
    OP
       2016-09-09 11:38:33 +08:00
    @Satelli 你为什么有这样的需求?可以说说吗
    zhangyueru
        57
    zhangyueru  
    OP
       2016-09-09 11:38:54 +08:00
    @itisthecon 谢谢
    byron
        58
    byron  
       2016-09-09 11:55:28 +08:00
    建议想办法过滤掉不可用的链接。
    会友好很多
    zhangyueru
        59
    zhangyueru  
    OP
       2016-09-09 11:55:53 +08:00
    @TheOtherBruce @RockShake 密码问题不好解决。 消耗资源太大
    zhangyueru
        60
    zhangyueru  
    OP
       2016-09-09 11:56:13 +08:00
    @byron 好的 谢谢
    Satelli
        61
    Satelli  
       2016-09-09 11:57:34 +08:00
    @zhangyueru 比如一套资源,分享者分成几部分分享的,或者希望看看这个人分享的其他资源的时候,希望能直接以分享者为条件来搜索。现在是手动拷贝 uk 号然后替换到 https://pan.baidu.com/share/home?uk=XXXXXXXXX 里。谢谢 :)
    bjlbeyond
        62
    bjlbeyond  
       2016-09-09 13:28:46 +08:00
    正好用上了
    hanyouchun66
        63
    hanyouchun66  
       2016-09-09 13:32:53 +08:00
    @zhangyueru 请问楼主.网站用的搜索技术是什么?600 多万的数据.很快就能搜到.
    hanyouchun66
        64
    hanyouchun66  
       2016-09-09 13:33:46 +08:00
    @zhangyueru 还是文本框下面的关键词提示.请问这个搜索方法用的是 es 吗?
    Gauin
        65
    Gauin  
       2016-09-09 13:56:11 +08:00
    赞一个!资源不少呢
    zhangyueru
        66
    zhangyueru  
    OP
       2016-09-09 14:13:52 +08:00
    @Satelli 这个可以的,谢谢你的提议
    zhangyueru
        67
    zhangyueru  
    OP
       2016-09-09 14:16:28 +08:00
    下拉框 http://www.vgeili.cn/js/opensug.js 用的是这个 js 百度的源 @hanyouchun66

    搜索用的是 coreseek 全文索引
    dgkae
        68
    dgkae  
       2016-09-09 14:48:53 +08:00
    这个数据怎么爬的?
    zhangyueru
        69
    zhangyueru  
    OP
       2016-09-09 15:12:09 +08:00
    @dgkae 用 scrapy 爬虫框架
    ranwu
        70
    ranwu  
       2016-09-09 15:22:39 +08:00
    用的什么搜索引擎?
    ranwu
        71
    ranwu  
       2016-09-09 15:25:00 +08:00
    额,没看到作者的回复,不好意思。
    ranwu
        72
    ranwu  
       2016-09-09 15:29:02 +08:00
    分页按钮最好有个选中状态,要不然不知道在哪一页。
    zhangyueru
        73
    zhangyueru  
    OP
       2016-09-09 16:15:53 +08:00
    @ranwu 好的, coreseek 搜索
    enlau0912
        74
    enlau0912  
       2016-09-09 17:53:00 +08:00
    這好用 支持樓主
    testisitok
        75
    testisitok  
       2016-09-09 18:25:28 +08:00
    http://www.vgeili.cn/s/w/mathtype

    搜了一下 MathType ,全部死链
    zhangyueru
        76
    zhangyueru  
    OP
       2016-09-09 21:54:43 +08:00
    确实 MathType 这个不好说。 只能靠量补缺这块了
    sydfish
        77
    sydfish  
       2016-09-09 23:35:25 +08:00
    搜索速度不错,但是确实友好度的问题,有点难解决。死链偏多。
    zhangyueru
        78
    zhangyueru  
    OP
       2016-09-10 00:21:43 +08:00
    @sydfish 这个问题已经意识到 。 如果这个网站能帮助大家一点点 我就很高兴了
    sydfish
        79
    sydfish  
       2016-09-10 02:16:32 +08:00
    撸主是做搜索引擎的?
    testisitok
        80
    testisitok  
       2016-09-10 07:25:09 +08:00 via Android
    @zhangyueru 可以采集时逻辑判断一下死链,排除掉。

    已经入库的,在凌晨时分定期排查
    2232588429
        81
    2232588429  
       2016-09-10 07:40:09 +08:00 via iPhone
    感觉和 site 搜索没啥区别啊,进去很多资源都是无效的,如果能判断筛选掉失效资源这个网站才有些优势。
    exuxu
        82
    exuxu  
       2016-09-10 09:29:45 +08:00 via iPhone
    panc.cc 的忠实用户路过
    cheneydog
        83
    cheneydog  
       2016-09-10 09:32:06 +08:00
    分享资源都改名了,所以网盘搜索没啥用。
    aeshfawre
        84
    aeshfawre  
       2016-09-10 10:23:09 +08:00
    楼主威武,顶一个。
    话说楼主,你的采集思路是不是强行遍历呢?
    请点拨下。
    aeshfawre
        85
    aeshfawre  
       2016-09-10 10:24:39 +08:00
    遍历的话就 10 亿个链接,行得通,就问一下,对,还是错。
    xjbeta
        86
    xjbeta  
       2016-09-10 16:42:02 +08:00
    作死即视感。。(虽然 我自己也在作)
    HaoC12
        87
    HaoC12  
       2016-09-10 16:55:04 +08:00
    赞一个
    zhangyueru
        88
    zhangyueru  
    OP
       2016-09-16 21:24:13 +08:00
    告诉大家一个好消息 已采集 1100 多万的数据了
    wanshanju
        89
    wanshanju  
       2016-09-18 11:24:04 +08:00
    赞!
    wanshanju
        90
    wanshanju  
       2016-09-18 11:27:22 +08:00
    建议适配下手机浏览器。
    clandyuki
        91
    clandyuki  
       2016-09-18 17:04:14 +08:00
    @zhangyueru 站点挂了
    zhangyueru
        92
    zhangyueru  
    OP
       2016-09-20 16:43:56 +08:00
    @clandyuki 好了,昨天确实有点不稳定, 服务器空间不是太够了。在升级存储空间
    zhangyueru
        93
    zhangyueru  
    OP
       2016-09-20 23:18:02 +08:00
    @wanshanju 手机端已经弄好 。欢迎使用 http://m.vgeili.cn
    itfanr
        94
    itfanr  
       2016-09-22 16:12:42 +08:00
    我们不生产资源,我们只是百度网盘资源的搬运工!
    aosp
        95
    aosp  
       2016-09-24 19:29:15 +08:00
    楼主可否分享一下百度盘是怎么抓的?我见有时候访问 getsharelist 太频繁,会返回空或 too fast 。谢谢
    zhangyueru
        96
    zhangyueru  
    OP
       2016-09-28 19:44:23 +08:00
    去网上找点代理 ip 。 或者花钱买点
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2997 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 44ms · UTC 13:55 · PVG 21:55 · LAX 05:55 · JFK 08:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.