抓取网址内容,发现是图片,有啥解决方案部

2016-07-28 21:21:46 +08:00
 skyim

我想抓取一个网址的内容,发现是图片,不知道有啥解决方案不

http://27.17.15.195:803/show/YPBJ.aspx

3263 次点击
所在节点    程序员
15 条回复
knightdf
2016-07-28 22:11:40 +08:00
OCR ![]( )
eoo
2016-07-28 22:55:52 +08:00
C#写的?
aaronzjw
2016-07-28 22:58:13 +08:00
python 的话直接用 PIL 读取就好了吧
izoabr
2016-07-29 00:31:54 +08:00
这个防抓思路不错
aeshfawre
2016-07-29 07:47:04 +08:00
@knightdf ocr 的话需要人工再校验一次,里面错误还是很多的.
skyim
2016-07-29 10:49:08 +08:00
@eoo 是的,有啥思路
skyim
2016-07-29 10:50:14 +08:00
@izoabr 有啥思路吗
vitovan
2016-07-29 11:06:45 +08:00
r#5 @aeshfawre 没看到 OCR 有什么错误,这字体如此清晰明了, OCR 的完美使用场景呀~
izoabr
2016-07-29 11:11:32 +08:00
@skyim
Nmap scan report for 27.17.15.195
Host is up (0.033s latency).
Not shown: 983 closed ports
PORT STATE SERVICE
80/tcp open http
135/tcp filtered msrpc
139/tcp filtered netbios-ssn
445/tcp filtered microsoft-ds
593/tcp filtered http-rpc-epmap
901/tcp filtered samba-swat
1025/tcp filtered NFS-or-IIS
1026/tcp filtered LSA-or-nterm
1027/tcp filtered IIS
1068/tcp filtered instl_bootc
3128/tcp filtered squid-http
3333/tcp filtered dec-notes
4444/tcp filtered krb524
5800/tcp filtered vnc-http
5900/tcp filtered vnc
6129/tcp filtered unknown
6667/tcp filtered irc
skyim
2016-07-29 14:01:41 +08:00
@izoabr 谢谢你的回复,但是不是很明白
izoabr
2016-07-29 15:03:39 +08:00
@skyim 不一定要去抓呀,没准数据库能直接连上去 select 呢,换换思路
aeshfawre
2016-07-30 03:22:15 +08:00
skyim
2016-07-30 14:58:24 +08:00
skyim
2016-07-30 15:02:40 +08:00
@aeshfawre 真的非常感谢,我去试试看
SmiteChow
2016-07-31 14:23:34 +08:00
这个反扒技术很变态

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/295611

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX