本人学生,教授要我取
www.chowhound.com 的一些数据,输出为xml tree。
我用了一下BeautifulSoup. 里面对<script> tag 的处理好像又问题。
soup = BeautifulSoup (XXX) 时总是:
HTMLParser.HTMLParseError: malformed start tag, at line 49, column 20
google后,
解决办法有如下:
1. BeautifulSoup3.1 不行。要回到BeautifulSoup3.0.7a
#这种方法我不知道如何删除3.1包,然后在装老的3.07包。
#具体来说,问题有分为
a. 我用的easy_install 安装。具体怎么删除,不清楚。。。貌似是easy_install -xmN?
b. 3.0.7a 不能从 easy_install直接获取,我不知道手动下的.py文件放哪。。。
c. 衍生问题:有没有方便的package管理工具(装,删,升)
2. 组合使用html5lib。(这个没问题,得自己看才行)
以上就是遇到的情况。
回到题目,现在有没新的robust screaping tool?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/3694
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.