爬了三大门户网站的股票频道,网站已开源

2016-01-18 10:59:11 +08:00
 newghost

http://anynb.com 是开源 ourjs 的一个 DEMO 网站,原来只爬了一些知名的博客,后来发现还是有些人访问的。

现在加入了三大门的网站股票频道新闻,为了避免法律风险只爬了标题和链接,内容指向原文

最新开源代码在 0.1.1 的分支    https://github.com/newghost/ourjs/tree/0.1.1 可能不稳定

稳定简单版的代码可查看默认分支 https://github.com/newghost/ourjs/tree/0.1.x

5345 次点击
所在节点    分享创造
28 条回复
yh7gdiaYW
2016-01-18 14:47:08 +08:00
时间字体太难看了啊
aabbccli
2016-01-18 15:02:26 +08:00
@yh7gdiaYW 同感,整个网站的字体看起来不美丽
figofuture
2016-01-18 15:06:40 +08:00
只是爬爬新闻还好,先马克下。
GhostEX
2016-01-18 15:06:54 +08:00
有意思啊,整站花了多久做出来的?
master13
2016-01-18 15:56:41 +08:00
所以,你认为只要把内容指向原文就能“避免法律风险”吗?
newghost
2016-01-18 15:57:28 +08:00
@yh7gdiaYW
@aabbccli

默认字体是微软雅黑,改成默认的了;  时间是斜的,扶正了
newghost
2016-01-18 15:58:34 +08:00
@master13

如果这都有风险, HackNews 早就关站了吧?
fising
2016-01-18 15:58:38 +08:00
有什么意义吗。
newghost
2016-01-18 16:31:43 +08:00
@GhostEX

这个项目比较久了,花了一个月的时间用 redis 重写了一下……
Andy00
2016-01-18 16:41:18 +08:00
想求教一下题主是如何保证抓取每个页面都能拿到标题?是统一用 h1 标签抓取的吗?
newghost
2016-01-18 16:46:26 +08:00
@fising

说实话,这个网站一个月前上线的,期间0推广,但我发现 Alexa 排名一直在增长,对有些人应该是有意义的
newghost
2016-01-18 16:47:03 +08:00
@Andy00

每个网站的DOM都是不一样的,用的是 css 选择器
Andy00
2016-01-18 17:06:18 +08:00
还是不太懂,求教题主细说一下
我之前的做法都是把整个页面拿下来然后用用正则表达式提取,所以需要去找每个网站的页面 html 代码然后写对应的正则,感觉这种做法效率太低了,求教更高效的做法
onion83
2016-01-18 17:21:12 +08:00
那个进度条对于视频网站才有意义,一般的文字网站我觉得太晃眼了。
newghost
2016-01-18 17:22:50 +08:00
@Andy00

anynb 全部使用 JavaScript(DOM),用 JavaScript 操作DOM再简单不过了。你可以参考以下技术

https://github.com/atom/electron

https://github.com/nwjs/nw.js

http://phantomjs.org/


有空我会整理一篇文章出来……
newghost
2016-01-18 17:24:22 +08:00
@onion83

我就觉得这个效果还稍微绚点……
Andy00
2016-01-18 17:25:42 +08:00
学习了学习了!
我之前都是用 java 写,感觉入了个坑。。。决定转投 js 了
magicdawn
2016-01-18 18:01:34 +08:00
可以直接从 chrome devtools 复制出 selector, 放到 cheerio 的 selector 里...完美
其他语言, BeautifulSoup / CsQuery / goquery 应该也可以, 估计要改改... 这个 node 的 cheerio 真是无敌了
newghost
2016-01-18 20:14:41 +08:00
@magicdawn

网易的 DOM 是动态渲染出来的, cheerio 估计不合适
cheneydog
2016-01-18 20:16:19 +08:00
下一步添加市场情绪分析吧。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/251516

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX