啦啦啦, 给大家推荐 Zaoshu.io (造数),欢迎大家拍砖~ ; ) 地址是 http://www.zaoshu.io
我们通过一套网页分析的算法,分析出网页中结构化的数据,然后再爬取页面中的数据。
有趣的点: 1.我们完全 base 在云上,省去下载软件的麻烦,也提高了爬取速率 2.我们有智能页面分析的算法,所以用户不需要懂编程和正则,轻点几下就可以爬取数据并导出 Excel 。
你可以通过 zaoshu.io 来做市场的调查分析,来做竞品的监控,也可以做产品反馈的收集。
Feedback: 产品刚刚 Alpha 上线,所以问题不少,欢迎大家来试用~ 欢迎大家留言讨论,也可以邮件 billy#zaoshu.io : )
1
Joway 2016 年 10 月 18 日
貌似废了, 试了三个网站都卡在正在分析界面 - -
ps: 昨天 hackathon 还做了一个差不多的东西 ,想问你们这套算法开源吗? 或者能提供点分析思路吗 ? 我是才用行块正文提取 , 但进一步对正文进行结构化提取还真想不出好的方法 |
2
a570295535 2016 年 10 月 18 日
然而半个小时后。。。
|
3
ewex 2016 年 10 月 18 日 via Android
用的 wosign 证书,表示已拉黑证书的打不开
|
4
binux 2016 年 10 月 18 日
根本没有「分析出网页中结构化的数据」,就是非常基础的通过 DOM class id 的 selector 规则生成,连 group 对其都没做好。
|
5
haocity 2016 年 10 月 18 日
我只想说根本收不到邮件
|
6
prefere 2016 年 10 月 18 日
见了鬼了,我都拉黑了 wosign 了,怎么还能打开。
还要把 startCom 也拉黑了? |
7
kiah 2016 年 10 月 18 日
然而直接打不开了
|
8
prefere 2016 年 10 月 18 日
搞定了,终于打不开了。 dog
|
9
skinfiter 2016 年 10 月 19 日
你们。。。
|
10
0xNone 2016 年 10 月 19 日
Go dead.
|
11
patton 2016 年 10 月 19 日
一直停留这个页面上分析页面上,没有结果出来
|
12
zqiyun 2016 年 10 月 19 日
你们真过分!
|
13
diefishfish 2016 年 10 月 19 日
随便找了个页面测试,创建规则的时候页码输入 100000009 到 114400009 然后发现并没有创建成功,是什么问题咧
|
14
billyellow OP @ewex 我们马上换证书~~
|
15
billyellow OP @prefere 马上换证书~~~
|
16
billyellow OP @Joway 目前我们用得还是比较简单的算法,升级中 哈哈 有兴趣可以私聊
|
17
billyellow OP @binux 可能是我描述没写的精确,目前还不算是分析,算是提取~
|
18
soulmine 2016 年 10 月 20 日
网络异常 请稍后再试
讲道理 你们这注册都不行 怎么留用户 Hhhhh |
19
beidouxun 2016 年 10 月 20 日 via Android
我的网站就用了爬虫,现在正在完善中。为了精确用了正则, xpath ,字符串三种方式。现在也在寻找算法但是现在没有很好的算法,能自动并精确的寻找时间 正文 标题等所需要的内容
|
20
mingyun 2016 年 10 月 21 日
太慢了,卡死不动了
|
21
micookie 2016 年 10 月 22 日
注册邮件直接进了 QQ 邮箱直接标记为垃圾邮件。。
|
22
fhefh 2016 年 10 月 24 日
一直停留在 正在分析 这个 loading 状态在
|
23
ragnaroks 2016 年 10 月 25 日
爬取我自己的网站后,进入列表页,点击"我调好了",然后就没有然后了
|
24
billyellow OP @micookie 邮件这块还在优化中哈
|
25
billyellow OP @diefishfish 目前页码有个上限~
|