请大家推荐一个 Screen Screaping 的工具

2010-10-24 14:29:55 +08:00
 ruoran
本人学生,教授要我取 www.chowhound.com 的一些数据,输出为xml tree。
我用了一下BeautifulSoup. 里面对<script> tag 的处理好像又问题。
soup = BeautifulSoup (XXX) 时总是:
HTMLParser.HTMLParseError: malformed start tag, at line 49, column 20

google后,
解决办法有如下:
1. BeautifulSoup3.1 不行。要回到BeautifulSoup3.0.7a
#这种方法我不知道如何删除3.1包,然后在装老的3.07包。
#具体来说,问题有分为
a. 我用的easy_install 安装。具体怎么删除,不清楚。。。貌似是easy_install -xmN?
b. 3.0.7a 不能从 easy_install直接获取,我不知道手动下的.py文件放哪。。。
c. 衍生问题:有没有方便的package管理工具(装,删,升)

2. 组合使用html5lib。(这个没问题,得自己看才行)

以上就是遇到的情况。
回到题目,现在有没新的robust screaping tool?
5169 次点击
所在节点    问与答
4 条回复
ruoran
2010-10-25 00:39:45 +08:00
又请问如何修改已发文字啊?scraping 写错了。难道这就是没人回的原因。。。
napoleonu
2010-10-25 08:29:09 +08:00
napoleonu
2010-10-25 08:30:11 +08:00
可能是因为我PYTHON不够好,处理中文碰到问题
ruoran
2010-10-25 09:01:14 +08:00
@napoleonu 谢谢!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/3694

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX