爬虫思路,这个有趣的网站, 问一下思路怎么来做?

2015-06-17 16:49:44 +08:00
 redhatping
网站: http://www.exporivaschuh.it/catalogue/15ES2/search.html

我需要做的事 找出所有的中国企业,cn, 爬出来他们的公司名字,电话号码,邮箱。

让我吐槽的是,似乎数据时存储在javascript里。


这个怎么分析。。思路怎么来弄,, 求大家给个方案。

我一般都是beautifulsoup。
4077 次点击
所在节点    Python
6 条回复
mutoulbj
2015-06-17 16:57:55 +08:00
只要数据是可以获取到,再javascript里也没关系,自己处理下文本,再从中提取就可以了。
mhycy
2015-06-17 17:01:42 +08:00
分析JS逻辑,最简单直接用正则表达式抓取后重建索引
hiboshi
2015-06-17 17:15:56 +08:00
在js里面就更简单了直接正则匹配js文件
fangjinmin
2015-06-17 17:54:38 +08:00
import urllib2
import re
from bs4 import BeautifulSoup

url="http://www.exporivaschuh.it/catalogue/15ES2/search.html"
soup = BeautifulSoup(urllib2.urlopen(url).read())
script = soup.findAll('script')[0].string
p1 = re.compile('new e \(.*\)')
arrEs = p1.findall(script)
f = open('companysofchina.csv', 'w')
for e in arrEs:
e = e.replace('new e (','').replace(')', '')
arrItems = eval('[' + e + ']')
if arrItems[3] == 'CN':
company = arrItems[0]
tel = arrItems[9]
email = arrItems[10]
f.write(company + ',' + tel + ',' + email + '\n')

f.close()
redhatping
2015-06-17 18:19:36 +08:00
@fangjinmin 没错,搞定。。。 非常感谢 ,
aeshfawre
2016-07-09 06:39:47 +08:00
@redhatping 已发邮件

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/199300

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX