抓取页面算不算网站 PV

2014-11-24 14:50:00 +08:00
 akeyz
rt,程序抓取页面算不算网站pv
3518 次点击
所在节点    问与答
21 条回复
ChanneW
2014-11-24 14:53:26 +08:00
感觉应该算的
llhh
2014-11-24 14:55:23 +08:00
看什么程序,看如何统计pv
tabris17
2014-11-24 14:56:15 +08:00
看你如何统计的了,如果你统计代码是用JS做的,而抓取程序没有调用JS的话就不算
akeyz
2014-11-24 15:09:27 +08:00
@ChanneW 首先,感谢回复;其次,我用的是cnzz去统计的,但是没算
akeyz
2014-11-24 15:10:18 +08:00
@llhh 首先,感谢回复,其次,我用的是beautifulsoup去抓的,然后用的是cnzz去统计的,但是貌似不算。
akeyz
2014-11-24 15:11:34 +08:00
@tabris17 首先,感谢回复,其次,用的是cnzz的统计。
coolzjy
2014-11-24 15:17:09 +08:00
@akeyz 可以在同一个回复中at若干用户来避免重复内容
xujif
2014-11-24 15:23:27 +08:00
cnzz之类是通过js统计的,抓取当然不算。服务的统计,抓,算
akeyz
2014-11-24 15:28:26 +08:00
@coolzjy 好吧,不太会玩,受教了。
akeyz
2014-11-24 15:29:56 +08:00
@xujif 也就是说,我抓取的时候要执行js,那样会统计,对吧。
abelyao
2014-11-24 15:30:09 +08:00
抓取页面有两种,一种是纯粹抓取 HTML 代码 (A),另一种是抓了之后模拟浏览器执行 (B)。
统计访问量也有两种,一种是通过 JS 去统计 (C) 例如 CNZZ 就是,另一种是在服务端对请求次数进行统计 (D)。
那么:A+C 不统计,B+C 有统计,A+D 有统计,B+D 也有统计。
A+C 不统计是因为抓了 HTML 代码之后,并没有执行到 JavaScript 的代码。
akeyz
2014-11-24 15:34:41 +08:00
@abelyao 有没有什么可以用的lib,推荐一下,谢谢!
abelyao
2014-11-24 15:35:51 +08:00
@akeyz 干嘛的 lib ?统计还是抓取?
akeyz
2014-11-24 15:41:24 +08:00
@abelyao 就是你上面说的B,抓取并解析
abelyao
2014-11-24 15:43:30 +08:00
@akeyz 哦,针对不同网站,抓取不同的内容吧,还有一些是模拟点击的也是点不同的按钮,所以我一般都是直接用 C# Winform 的浏览器控件写一个…
akeyz
2014-11-24 15:48:24 +08:00
@abelyao 好的,谢谢了
ChanneW
2014-11-24 18:09:37 +08:00
你这是想自己刷统计么?
ChanneW
2014-11-24 19:08:59 +08:00
去看下这货 PyV8
sunine
2014-11-24 19:16:03 +08:00
可以参考一下这篇文章:http://m.blog.csdn.net/blog/lmh12506/7840326
akeyz
2014-11-25 14:38:23 +08:00
@ChanneW 是的,谢谢了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/148891

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX