怎么用 php 每天自动抓取网页数据入库,目标页面需要登录,数据在页面以 table 方式呈现

2015-07-23 22:01:17 +08:00
 kiko
可以不用那么自动,每天打开一下页面去抓取
主要难题是
1、怎么实现自动登录
2、怎么实现把表格里面的每个单元格数据读取到(然后以每行一条记录每单元格一个字段数据插入到mysql中)。-----重点是怎么读取到没单元格的数据,后面的插入我知道是很方便的。


大牛们,请问这个需要用到什么技术呢,有没有好用的框架可以直接套用啊?
非常感谢!
2822 次点击
所在节点    问与答
5 条回复
kslr
2015-07-24 01:11:26 +08:00
太白,没法讲,去看基础吧。
Tink
2015-07-24 01:28:26 +08:00
登陆就模拟登陆呗,表格里取值xpath不行?
em70
2015-07-24 01:30:32 +08:00
1. 登录的原理无非就是GET或者POST一个数据给服务器,成功后返回一个值保存cookie,我们知道这个原理后,模拟登录就行了,网上这种代码和资料一大把.基础的不能再基础的东西.
2.无论如何, 返回总是一个网页,去分析这个网页的HTML代码就能拿到需要的东西.

@kslr 说得对. 应该先去看基础,知道网页是怎么制作的,网络协议是什么东西,还没学会走就开始飞,人都没法跟你交流.
zencoding
2015-07-24 08:46:59 +08:00
curl + xpath
xzem
2015-07-24 09:29:24 +08:00
如楼上几位所言,但我觉得楼主还是直接用火车头这类的采集软件吧,绝对比你研究php来的快,可定制性肯定受限就是了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/207903

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX