初学 Node.js,写了一个 18 禁小爬虫

2015-10-31 14:19:31 +08:00
 raawaa

项目地址: https://coding.net/u/raawaa/p/jav-scrapy/git

jav-scrapy

jav-scrapy ,一个爬取 AV 磁力链接的小爬虫。

Prequisites

Installation

$ git clone https://git.coding.net/raawaa/jav-scrapy.git
$ cd jav-scrapy
$ npm install # 安装 npm 包依赖
$ npm link # 使 jav-scrapy 全局可执行

Usage

Usage: jav [options]

  Options:

    -h, --help            output usage information
    -V, --version         output the version number
    -p, --parallel <num>  设置抓取并发连接数,默认值: 2
    -t, --timeout <num>   自定义连接超时时间(毫秒)。默认值: 10000
    -l,  --limit <num>    设置抓取影片的数量上限, 0 为抓取全部影片。默认值: 0
    -o, --output <path>   设置磁链抓取结果的保存位置,默认为当前用户的主目录下的 magnets.txt 文件

Todo

26609 次点击
所在节点    Node.js
101 条回复
aszxqw
2015-10-31 23:30:37 +08:00
@raawaa 感觉用了淘宝的景象也没加快。。。。
cszchen
2015-10-31 23:32:30 +08:00
我正在想干这个事呢,然后做一个客户端
kn007
2015-10-31 23:33:04 +08:00
@sxd 能不记得么,老伙计。
sxd
2015-10-31 23:40:22 +08:00
@raawaa during 和 whilst 有什么区别呢 我是说实际应用上
acrisliu
2015-10-31 23:44:05 +08:00
楼主有没有 nodejs 入门教程推荐?
pabno
2015-10-31 23:44:05 +08:00
baseUrl 这个变量定义的很有深度,值得好好研究
raawaa
2015-11-01 00:41:45 +08:00
@aszxqw 不会吧,我用丈母娘家的破长城宽带都感觉速度不错
raawaa
2015-11-01 00:44:25 +08:00
@sxd whilst 的测试函数必须是同步函数啊,向我这个需要用到异步 http 请求来判断页面是否存在的情况,的就没法用 whilst 了。
raawaa
2015-11-01 00:56:01 +08:00
@acrisliu 其实我 node.js 没怎么深入学,什么流啊子进程啊之类的都不会。我现在还处在 javascript 打基础的阶段。

javascript 的话我强烈推荐 Kyle Simpson 写的《 You Don't Know JS 》系列丛书,或者看此人在 pluralsight 上开的「 Advanced Javascript 」视频课程。这些在网上都有资源下载。
acrisliu
2015-11-01 09:52:24 +08:00
@raawaa 嗯嗯 好的 谢谢推荐☺
crayygy
2015-11-01 11:17:38 +08:00
@raawaa 孩子都出世了还......
wbsdty331
2015-11-01 12:42:29 +08:00
污,不过我喜欢 23333
coldfog
2015-11-01 12:57:35 +08:00
@raawaa 刚确认了一下,还真是……
XianZaiZhuCe
2015-11-01 14:07:13 +08:00
认真的,小心被查,不开玩笑
sxd
2015-11-01 19:53:48 +08:00
@raawaa 对哦 我一开始误以为 whilst 可以延迟 return 呢....
coolicer
2015-11-02 09:55:11 +08:00
哈哈,不错。
godjarl
2015-11-02 10:25:06 +08:00
这是我学习 node 的理由嘛
4912941
2015-11-02 11:19:31 +08:00
<img src=" "/>

为什么会报错呢
raawaa
2015-11-02 11:37:43 +08:00
@4912941 window 下好像是会有点问题。要注意 2 点:
- 请跳出 jav-scrapy 这个目录再运行 jav 命令,不要在 jav-scrapy 目录里直接运行 jav 命令,如果实在要在 jav-scrapy 目录里运行的话,运行 node jav.js ,后跟选项;
- windows 里不要用'~'之类的 Linux 下特有的路径符号。
4912941
2015-11-02 11:54:06 +08:00
@raawaa 可以用了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/232510

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX