本人不才写了一个 WordPress 得采集插件 wp-jpost,这边遇到一些问题烦请大佬指点。
我们抓取得内容现在是通过浏览器的跳转实现的,这样的话好处就是不会导致内存溢出之类的问题。缺点就是速度慢依赖浏览器,所以我们这里想弄一个脚本。如果直接写 php 脚本采集内容一多会内存溢出所以这里不考虑。所以看看能否在 curl 中跟随链接来循环访问页面来实现。
每个采集的 html 中使用了 meta 进行了跳转,如:
<meta content="8; url='http://127.0.0.1/jpost/?jtask=webhtm&jpage=22'" http-equiv="refresh">然后这边需要很多次循环,这边我们如何使用 shell 或者 curl 如何才能循环跟随这个地址去访问页面呢。
如果我们使用 php 再显示 html 中使用 header302,然后 header("Location:网址"); 这样可以使用 curl -L。,但是这样的话可能会导致页面内容无法执行,而直接跳转。
求大佬指点一下。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.