现在学校的东西,真是不知从何吐槽好

2016-01-13 00:28:20 +08:00
 HanSonJ

在做爬虫的东西打算爬图书馆,用的是 python 的 BeautifulSoup 包,结果发现有个地方无论如何都报错,查看源代码的时候我彻底的醉了

http://i.imgur.com/INbri4b.jpg

PS:非学生写的,但学校的网站真是大部分都是豆腐渣工程

1839 次点击
所在节点    分享发现
15 条回复
binux
2016-01-13 00:35:54 +08:00
我看了看, 好像也没什么问题啊
HanSonJ
2016-01-13 00:37:35 +08:00
@binux tr 包含的两个 td 标签都没有闭合
binux
2016-01-13 00:39:45 +08:00
@HanSonJ html5 新标准可以不闭合啊, 就算标准出来以前, 这种没有歧义的浏览器能正确修正
HanSonJ
2016-01-13 00:40:56 +08:00
@binux 说是这样,就相当于 JavaScript 可以不加;但还是会很多人加上去,觉得这是标准吧,浏览器是会自动修正,但就苦了我这些人了。。。
binux
2016-01-13 00:50:20 +08:00
@HanSonJ 别说 JS 加;是标准, 很多人会来告诉你, 不加才对. 你应该用一个好一点的 html 解析库或者 BeautifulSoup 的 backend, 比如 lxml, html5lib
HanSonJ
2016-01-13 01:01:20 +08:00
@binux 谢了,感觉这才是解决方法的方式,但我已经用了并且加上正则解决了,下次再看这些包
HanSonJ
2016-01-13 01:01:54 +08:00
@binux 对了,我的是 python3 ,这些包还有么?
binux
2016-01-13 01:16:12 +08:00
@HanSonJ 应该有
DuckJK
2016-01-13 08:34:23 +08:00
binux 写的 pyspider 也不错的,你可以去他博客看看。
HanSonJ
2016-01-13 09:06:54 +08:00
@DuckJK 谢了,刚学没用框架,正想找个框架学习
HanSonJ
2016-01-13 09:23:02 +08:00
@DuckJK 不知有没有好的 orm 可以推荐一下呢?
zdkmygod
2016-01-13 09:35:08 +08:00
还用这种 CSS ,估计是很早的系统了。
那时候 XHTML 还没有成为潮流呢,这么写也没什么问题,就像现在的 javascript 不写分号一样。
l0wkey
2016-01-13 10:05:30 +08:00
@HanSonJ py3 的话,可以用 bs4 .
HanSonJ
2016-01-13 10:56:12 +08:00
@l0wkey 对,用的就是 bs4,然后出现上面的问题了
justjavac
2016-01-13 12:43:21 +08:00
反爬虫新技能 get

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/250298

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX