Python 找电子书代码讨论

2018-04-24 14:16:36 +08:00
 hackpro

最近学习 Python 爬虫,打算写个 gen.lib 电子书自动下载的工具

看了下主要是 requests get 对返回的数据进行么处理

数据处理主要利用 BeautifulSoup 处理 Tags 或者 regular expression 进行匹配

提供两个主要参考的帖子:

https://github.com/pavitrakumar78/Python-telegram-bot-GetPDFbot/blob/master/getPDF.py

https://github.com/epsil/scripts/blob/master/libgen.py

核心代码如下 代码一

soup = bs4.BeautifulSoup(input, "html.parser")
table = soup.find('table', 'c')
if not table: return
trs = table.findAll('tr')

代码二

import re 
match = [] 
for result in results: 
    m = re.search(r'book\/index.php\?md5=[0-9A-Z]*',result) 
        if m != None: match.append(m.group())

请教各位有更优雅的方式定位返回的搜索结果(主要是便捷地确定以下数据),包括

  1. 搜索结果数量 * files found
  2. ID/Author/Title/Year 等 Meta data
  3. Mirrors Link

另外代码打算对作者名字进行校验 问题是名字有各种各样缩写及次序的问题 请问如何确定两个名字是同一个人

各位有无好的建议?欢迎大家指教

505 次点击
所在节点    问与答
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/449429

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX