V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
hackpro
V2EX  ›  问与答

Python 找电子书代码讨论

  •  
  •   hackpro · 2018-04-24 14:16:36 +08:00 · 501 次点击
    这是一个创建于 2208 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近学习 Python 爬虫,打算写个 gen.lib 电子书自动下载的工具

    看了下主要是 requests get 对返回的数据进行么处理

    数据处理主要利用 BeautifulSoup 处理 Tags 或者 regular expression 进行匹配

    提供两个主要参考的帖子:

    https://github.com/pavitrakumar78/Python-telegram-bot-GetPDFbot/blob/master/getPDF.py

    https://github.com/epsil/scripts/blob/master/libgen.py

    核心代码如下 代码一

    soup = bs4.BeautifulSoup(input, "html.parser")
    table = soup.find('table', 'c')
    if not table: return
    trs = table.findAll('tr')
    

    代码二

    import re 
    match = [] 
    for result in results: 
        m = re.search(r'book\/index.php\?md5=[0-9A-Z]*',result) 
            if m != None: match.append(m.group())
    

    请教各位有更优雅的方式定位返回的搜索结果(主要是便捷地确定以下数据),包括

    1. 搜索结果数量 * files found
    2. ID/Author/Title/Year 等 Meta data
    3. Mirrors Link

    另外代码打算对作者名字进行校验 问题是名字有各种各样缩写及次序的问题 请问如何确定两个名字是同一个人

    各位有无好的建议?欢迎大家指教

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2044 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 16:17 · PVG 00:17 · LAX 09:17 · JFK 12:17
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.