Python 找电子书代码讨论

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 2208 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近学习 Python 爬虫，打算写个 gen.lib 电子书自动下载的工具

看了下主要是 requests get 对返回的数据进行么处理

数据处理主要利用 BeautifulSoup 处理 Tags 或者 regular expression 进行匹配

提供两个主要参考的帖子：

https://github.com/pavitrakumar78/Python-telegram-bot-GetPDFbot/blob/master/getPDF.py

https://github.com/epsil/scripts/blob/master/libgen.py

核心代码如下代码一

soup = bs4.BeautifulSoup(input, "html.parser")
table = soup.find('table', 'c')
if not table: return
trs = table.findAll('tr')

代码二

import re 
match = [] 
for result in results: 
    m = re.search(r'book\/index.php\?md5=[0-9A-Z]*',result) 
        if m != None: match.append(m.group())

请教各位有更优雅的方式定位返回的搜索结果（主要是便捷地确定以下数据），包括

搜索结果数量 * files found
ID/Author/Title/Year 等 Meta data
Mirrors Link

另外代码打算对作者名字进行校验问题是名字有各种各样缩写及次序的问题请问如何确定两个名字是同一个人

各位有无好的建议？欢迎大家指教

目前尚无回复

Python 代码 result table