初学 Node.js,写了一个 18 禁小爬虫

2015-10-31 14:19:31 +08:00
 raawaa

项目地址: https://coding.net/u/raawaa/p/jav-scrapy/git

jav-scrapy

jav-scrapy ,一个爬取 AV 磁力链接的小爬虫。

Prequisites

Installation

$ git clone https://git.coding.net/raawaa/jav-scrapy.git
$ cd jav-scrapy
$ npm install # 安装 npm 包依赖
$ npm link # 使 jav-scrapy 全局可执行

Usage

Usage: jav [options]

  Options:

    -h, --help            output usage information
    -V, --version         output the version number
    -p, --parallel <num>  设置抓取并发连接数,默认值: 2
    -t, --timeout <num>   自定义连接超时时间(毫秒)。默认值: 10000
    -l,  --limit <num>    设置抓取影片的数量上限, 0 为抓取全部影片。默认值: 0
    -o, --output <path>   设置磁链抓取结果的保存位置,默认为当前用户的主目录下的 magnets.txt 文件

Todo

26513 次点击
所在节点    Node.js
101 条回复
0xfan
2015-11-02 12:18:57 +08:00
80 回复, 178 人收藏,你们啊
hi54yt
2015-11-02 13:27:31 +08:00
fengdra
2015-11-02 22:01:12 +08:00
@leavic 求打包发送
kaiwei
2015-11-05 11:39:19 +08:00
弱问磁力链接是种子吗 还是直接就能下载电影了?
raawaa
2015-11-05 14:42:09 +08:00
@kaiwei ,我希望你这样一直纯洁下去,所以不打算告诉你……:)
sinux
2015-11-06 16:51:21 +08:00
想问一下,那个总进度的不断前进的命令条是怎么做的?
raawaa
2015-11-07 12:19:57 +08:00
@sinux 有现成的包可以用的。
http://npm.taobao.org/package/progress
sinux
2015-11-07 13:29:00 +08:00
@raawaa 非常感谢
flw01
2015-11-25 17:24:51 +08:00
我们现在在招聘 node.js,坐标广州,感兴趣的私聊我哈, http://www.lagou.com/jobs/1284459.html
greatghoul
2015-12-01 20:02:36 +08:00
好样的。
qingwalashi
2015-12-04 23:13:42 +08:00
我用 python 尝试写了爬虫,有两个链接,没有任何返回值。问题,一个是网站的图片貌似写了判断,代码下载图片会显示一个拒绝的网站。还有一个是,你如何获得磁力链接的地址的?我直接打开 XHR 的链接,没有任何返回值。
raawaa
2015-12-05 13:00:12 +08:00
@qingwalashi 图片就是直接获取图片资源的 url 然后下载呗;磁链就是直接从 html 文本里提取呗。
qingwalashi
2015-12-05 21:14:40 +08:00
@raawaa 磁力链接获 html 解析不到撒
raawaa
2015-12-06 20:21:09 +08:00
@qingwalashi 你说的是「 javbus 」这个站么?
pangtianyu
2015-12-13 02:42:23 +08:00
其实这个好像算是传播盗版……
0rangeT1ger
2015-12-15 19:03:09 +08:00
对于我等来说, 第 16 行代码最为重要.
halbert
2015-12-18 15:04:32 +08:00
@ready2race 一百多年前 弗洛伊德就说过 “力比多”是人类一切活动的基础…
huage
2015-12-22 15:30:58 +08:00
学以致用啊,很好!
eraise
2015-12-22 19:40:44 +08:00
一直不知道如果不工作,代码还能干吗,现在知道了。。
raawaa
2015-12-25 11:20:14 +08:00
@eraise 因为我本职工作不是程序员,所以写的东西都是业余用来改善生活的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/232510

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX