爬虫思路，这个有趣的网站，问一下思路怎么来做？

网站： http://www.exporivaschuh.it/catalogue/15ES2/search.html

我需要做的事找出所有的中国企业，cn, 爬出来他们的公司名字，电话号码，邮箱。

让我吐槽的是，似乎数据时存储在javascript里。

这个怎么分析。。思路怎么来弄，，求大家给个方案。

我一般都是beautifulsoup。

mutoulbj

2015-06-17 16:57:55 +08:00

只要数据是可以获取到，再javascript里也没关系，自己处理下文本，再从中提取就可以了。

mhycy

2015-06-17 17:01:42 +08:00

分析JS逻辑，最简单直接用正则表达式抓取后重建索引

hiboshi

2015-06-17 17:15:56 +08:00

在js里面就更简单了直接正则匹配js文件

fangjinmin

2015-06-17 17:54:38 +08:00

import urllib2
import re
from bs4 import BeautifulSoup

url="http://www.exporivaschuh.it/catalogue/15ES2/search.html"
soup = BeautifulSoup(urllib2.urlopen(url).read())
script = soup.findAll('script')[0].string
p1 = re.compile('new e \(.*\)')
arrEs = p1.findall(script)
f = open('companysofchina.csv', 'w')
for e in arrEs:
e = e.replace('new e (','').replace(')', '')
arrItems = eval('[' + e + ']')
if arrItems[3] == 'CN':
company = arrItems[0]
tel = arrItems[9]
email = arrItems[10]
f.write(company + ',' + tel + ',' + email + '\n')

f.close()

redhatping

2015-06-17 18:19:36 +08:00

@fangjinmin 没错，搞定。。。非常感谢，

aeshfawre

2016-07-09 06:39:47 +08:00

@redhatping 已发邮件

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/199300

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

爬虫思路，这个有趣的网站， 问一下思路怎么来做？

爬虫思路，这个有趣的网站，问一下思路怎么来做？