最近学习 Python 爬虫,打算写个 gen.lib 电子书自动下载的工具
看了下主要是 requests get 对返回的数据进行么处理
数据处理主要利用 BeautifulSoup 处理 Tags 或者 regular expression 进行匹配
提供两个主要参考的帖子:
https://github.com/pavitrakumar78/Python-telegram-bot-GetPDFbot/blob/master/getPDF.py
https://github.com/epsil/scripts/blob/master/libgen.py
核心代码如下 代码一
soup = bs4.BeautifulSoup(input, "html.parser")
table = soup.find('table', 'c')
if not table: return
trs = table.findAll('tr')
代码二
import re
match = []
for result in results:
m = re.search(r'book\/index.php\?md5=[0-9A-Z]*',result)
if m != None: match.append(m.group())
请教各位有更优雅的方式定位返回的搜索结果(主要是便捷地确定以下数据),包括
另外代码打算对作者名字进行校验 问题是名字有各种各样缩写及次序的问题 请问如何确定两个名字是同一个人
各位有无好的建议?欢迎大家指教