推荐一款轻量级的爬虫软件,希望能给大家工作带来帮助

2017-06-08 17:14:04 +08:00
 bget

神采采集器,软件体积很小、无需安装

1、支持智能采集(不用配规则)、可视化采集配置(不用看源文件)

2、支持导出到 MySQL、SQL Server、Oracle、Excel、Access

3、支持二次开发、调用自己的算法

下载地址(左上角下载):www.sensite.cn/bget

与各位一样,也是一个码农。各位兄弟如果遇到使用问题,或二次开发问题,可留言给我,一起交流学习。

5015 次点击
所在节点    程序员
23 条回复
mikulch
2017-06-09 01:16:55 +08:00
界面太丑了。请个 UI 这么难吗?
还有为啥没 mac 版啊
bget
2017-06-09 03:25:35 +08:00
@mikulch 请不起 UI 啊。。mac 版目前没有的,不会写 iOS 的代码。。你可以装双系统啊? 一个 win7,一个 iOS。。
cctrv
2017-06-09 06:02:28 +08:00
這樣的界面。
Mac 用戶路過。
我寧願自己用 Python 寫一次。
zetary
2017-06-09 08:42:14 +08:00
审美确实硬伤…
ye10010
2017-06-09 10:55:11 +08:00
这界面也不错啊,标准的 win 风格.
问下 LZ 免费版本有什么限制?也支持二开吗?
yjxjn
2017-06-09 11:41:14 +08:00
楼主棒棒哒!

但是这个网址前端。。。感觉是 XP 时代。。。哈哈哈,稍微改点 CSS,会好很多啊。
bget
2017-06-09 12:48:59 +08:00
@ye10010 没有太多的区别,例如导出条数没有任何限制,商业版本主要是帮用户做二次开发。都是支持二次开发的,有现成的接口( IBget.dll ),如果有需要,去网站加我 QQ,我发一个 DEMO 代码给你。。
oiken
2017-06-09 15:23:19 +08:00
下载来试用了一下从聚合阅读网站抓取文章,结果还是很不错的。界面还好啦,容易上手是关键。 @bget 帮助信息是否可以多加点实例,我看了帮助文档没搞好,还是跑去看免费账号的例子才搞好了。另外采集时次序会影响到能否采集到内容,这个坑我是摸了一阵子才爬出来,可能需要在帮助文件里声明一下。你帮有需要的用户做二次开发,可能一时也就赚个辛苦费。我提个建议:可以考虑让用户设置试用条款后把他调试好的规则共享出来,其他用户可以通过送咖啡的形式进行鼓励,你的网站做个介绍页面和排行榜之类的,可以赚人气和佣金。做个能用的产品不容易,赞一个。
bget
2017-06-09 19:21:40 +08:00
@oiken 谢谢 oiken。。采集规则使用前后标志时必须按顺序,这个在鼠标放到“采集规则列表”时会有 ToolTip 提示,我会再写到明显的位置,例如在“入门采集示例”中用粗体标出。规则市场这个建议非常好,可能需要一种积分制,我觉得可以理解为:让有需求的神采用户,方便找到另一些神采用户做规则或二次开发。
oiken
2017-06-10 09:27:11 +08:00
@bget 客气了。规则市场是聚集人气,让一般需求不必重复劳动,过滤出来的重型用户自然会找你做更有价值的二次开发。这行业不容易,但生意各人做,你加油。另外我想问问如何设置登录账号和密码,有一些网站会要求你登录后才能看到更多的页面。
oiken
2017-06-10 09:34:59 +08:00
我看到规则的设置页面:常规设置-》网站登录 这里是灰掉,不知如何打开。是付费版本才能设置的吗?
oiken
2017-06-10 09:38:16 +08:00
是的,是我没仔细看 ToolTip,提示方面你做的挺好了。
bget
2017-06-10 18:50:30 +08:00
@oiken 请加我的 QQ (网站第一个 QQ ),告诉我你是 oiken 就可以。我们一起交流一些技术问题。

另外,软件今天升级了:
1、优化了历史记录功能,可批量进行启用、禁用操作,以及只有请求成功后再入历史记录列表(之前是提取网址时)。
2、可标记“任务不可用”,方便团队协作。例如网站改版后,使用者把任务标记一下,由其它技术人员负责修改任务。
3、修复 bug:任务队列中,任务排队运行时,软件窗口总是抢焦点。
iszero
2017-06-11 05:44:26 +08:00
喜欢这种简朴的界面
Damaidaner
2017-06-11 07:32:11 +08:00
界面还好,感谢分享
eseeker
2017-06-11 10:28:15 +08:00
现在的人就是矫情,这界面有什么不好,XP 时代不大多这样的界面么,好用才是王道。
lixuda
2017-06-11 19:32:48 +08:00
不错,以后会开源吗
bget
2017-06-12 01:34:20 +08:00
@lixuda 我目前努力的方向是,帮用户解决问题,给用户带来好的体验。。神采有成熟的二次开发接口,目前有 20 个接口,分布到不同的环节,例如:加载入口 URL ( URL 中,可带搜索关键词)、请求 URL、采集、发布、过滤数据、下载文件等,如果深入研究一下,几乎可以重写一个爬虫。有需要的话,可以去网站加我 QQ,我发二次开发的 DEMO 代码给你( C#代码)。或者等我整理好 DEMO 代码,发布到这里。
NaVient
2017-06-12 09:39:17 +08:00
@bget 看到郑州大学新闻网, 难道跟楼主是校友?
bget
2017-06-12 14:38:43 +08:00
@NaVient 貌似跟代码无关。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/367013

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX