V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  notgod  ›  全部回复第 6 页 / 共 42 页
回复总数  824
1 ... 2  3  4  5  6  7  8  9  10  11 ... 42  
2017-03-21 09:13:29 +08:00
回复了 alwayshere 创建的主题 程序员 突然想到一种简单的反爬虫方法,大家觉得可行性如何?
@alwayshere 新一代的爬虫都支持 cookie , 而且可以解析 js 内容了 差不多和人访问的区别不大
不要认为还是以前 爬网页 只是提取文本和图片内容
2017-03-21 09:12:07 +08:00
回复了 alwayshere 创建的主题 程序员 突然想到一种简单的反爬虫方法,大家觉得可行性如何?
@alwayshere 封 IP 什么的都是浮云,
我也遇到封 IP 但是使用变态方式解决了
直接拿 AKAMAI 的 CDN 去绑源站 , 然后利用 AKAMAI 的 N 多 IP 轮番上阵
左一遍又一遍的把别人网站轮的不要不要的.......
2017-03-21 09:07:40 +08:00
回复了 alwayshere 创建的主题 程序员 突然想到一种简单的反爬虫方法,大家觉得可行性如何?
我忘记了域名是什么了
就是显示很多域名注册商 域名注册量 还有 isp 的 IP isp 的 ip 绑定了多少网站
使用的 webserver 等等 一个统计网站

最早的时候 我是拿来抓淘宝新绑定的网店域名 二级域名 然后干些不可描述的事

后来抓不到
那边加了个 Cookies 有效期验证 这个我尝试 N 多方法 爬不到数据
无论如何 都爬不到 但是人工访问没问题

好像的算法是这个逻辑
A 访问页面 生成一个 cookies 这个信息是加密的 包括有效期
A 在访问其他页面 解密 验证 cookies 算有效时 有效放行 无效 显示 spam 验证
2017-03-19 12:49:12 +08:00
回复了 keramist 创建的主题 HAProxy haproxy 无法连接数据库
不就那么点事吗? 不会按标准流程进行排障?
一说就说 n 天、

你要明白这里的问题在多台机器 不要看 a 机器防火墙没问题就觉得所有机器防火墙没问题

善于看日志 99%的问题在日志层面都会体现出来


数据库的远程权限 测你 ha 的 master 到 backed 的远程
什么叫远程可以链接?

一个 /etc/hosts 里生成的指定
一个服务器 dns 的配置错误
一个配置文件里指定的 bind
都会有各种问题


配置文件也不贴 就让别人提供技术支持 这样好吗?
别人都是神 靠猜?
2017-03-14 20:29:40 +08:00
回复了 clearbug 创建的主题 Windows 大家都是怎么解决 Win7 蓝屏问题的呢?
windows10 彻底解决这个问题了
试试吧
因为会绿屏
2017-03-14 19:25:03 +08:00
回复了 shallyy 创建的主题 汽车 蒙迪欧和 CRV 选哪个?
科迪亚克
2017-03-14 12:43:52 +08:00
回复了 silenceeeee 创建的主题 问与答 codeigniter 吐槽
这个框架不是不开发了吗?
还有人用?
2017-03-14 12:42:50 +08:00
回复了 upygad 创建的主题 云计算 Token 防盗链系列干货 1: Token 防盗链算法详解
"又拍云作为云 CDN 厂商的代表"
啥时候成的代表? akamai 同意过吗?

^00^
呵呵
国内大部分云 封 80 8080 443
而且按要求 每个柜子都有 110 设备 监控关键词

像阿里云。除去那些
还有个自己的关键词监控设备
如果违法关键词太多流进流出到自己的 IP
马云家会封你机器

所以放马云家的网站 只要不停随机访问 URL+违法关键词。是会被螃蟹的
2017-03-13 11:59:13 +08:00
回复了 MrMike 创建的主题 PHP 针对几千条以上的数组,如何循环呢?
看不下去了, 这个问题能在首页 2 天.....
这个不能算问题的少年 从头到尾都是个逻辑问题

你把详细需求列出来 一个一个解决

#1 预期 超 1W+的循环, 这个循环根本不是问题, 无论是使用 yield 还是自循环

#2. 1 数据库查询瓶颈 就是检查数据库的重复记录, 这个可以使用 Redis/Memcache 缓存
先把 mysql 的需要比较重复的字段 读出来, 需要比较的写到 KVDB 里, 后期每次检查 /更新+新增加到 KVDB
如果闲 KVDB 麻烦, 别人封装好了 www.phpfastcache.com , 可以 file 可以 sqlite

#2. 2 MYSQL 建好索引 /使用 IN 进行查询 性能开销没你想的那么大

#3 插入瓶颈
这个解决办法不是很多? 你换个逻辑 为什么一定要循环后直接写入? 而且还是单条插次
不能按 sql 的格式 写到本地文本文件?
先在#2 的步骤 使用 if 去判断是不是重复 如果不重复 生成个格式 写到本地文件里
然后 批量导入 使用 mysql 的批量导入命令
可以使用 shell_exec 调用 mysql 的 cli 运行, 也可以直接插入
本来一次插一条 这个过程都需要和 mysql 连接一次
如果你一次性插 1000 条 也是连接一次
一般 mysql 连接数设的都是 100-500
而且很多人没关闭连接的习惯.....

你的问题在于优化业务逻辑, 不是代码 不是代码 不是代码
上 24g 内存的服务器 找我 一个月 360 左右 汇率走
2017-03-08 18:28:38 +08:00
回复了 vipwpcom 创建的主题 站长 现阶段个人站长,做什么类型的网站有出路。
没什么个人站长的说法
个人站长早几年就阵亡了 域名开始备案那个阶段就死了

至于你说的这些 只能算一个业余项目
你讲的 1 2 3 4 我一个一个给你分析下

1 WP 的主题
这个市场有 但是你要专注国际市场 中国市场版权问题你懂的
开发 2 个版本 一个 lite 一个 full
lite 的上 wordpress 官方市场 , full 的卖商业授权
开发的主题选型 尽量选择高利润的行业, 比如金融 医疗 等等
这些会付费
开发完成 上架到各个市场 进行销售

2 电影视频程序
这个不用开发了, 烂大街 而且别人都是卖周边 域名主机 VPS 那些
但是可以放大你的想法
做什么? 做 javlibrary javbus 那种一览的模式
这些网站 流量非常巨大 javbus 2 月份流量 580 万 IP 这个网站在中国排名 782/Alexa 全球 5161
实际上这个网站很简单 是吧?
每天 20 万 IP = 保守估计最少 1500/天以上的收入 (我的经验)

3 微信
红包互换那些模式都很多
有趣的是运营的担风险,开发的赚到宝马就撤了
和以前美国挖金子一样 挖金子的没赚钱 卖牛仔裤的赚了
这块我实在不能讲太多

4 资源聚合类源码网站(收费制)
这类省省吧 需要资源收集 /整理
干这种事的 需要非常好的耐心 恒心 我是肯定不行


我能给的建议
首先你要明确一些问题
我是为赚钱还是做个长期项目?
我能承担多大风险?
我能付出多长时间?

从利益的角度逆向思考 不要顺着想

你可能最容易犯的错
“以自己的想法 代替产品受众”
搞技术的 都会犯这个错 总是想当然的去做个东西 认为这个东西好 有前景 但是其实用户根本没那个需求
矛盾就在这里


很多事 贵在坚持
没注意 写反了....
这样
if (in_array($_SERVER["HTTP_CF_IPCOUNTRY"],$baned))
这样简单些

$baned = array("CN","RU"); //禁止国家
if (in_array($baned, $_SERVER["HTTP_CF_IPCOUNTRY"] ))
{
die('not allow current country');
}


最好把 $_SERVER["HTTP_CF_IPCOUNTRY"] 使用 isset 检测下
不然 CLI 会抛错
载入的第一个文件 顶部加
CF 会直接发当前访客的国家代码
比如中国 就是 CN


使用 $_SERVER["HTTP_CF_IPCOUNTRY"]; 获得


如果需要封禁中国和俄罗斯
if (isset($_SERVER["HTTP_CF_IPCOUNTRY"]) && $_SERVER["HTTP_CF_IPCOUNTRY"] == ’ CN ‘ && $_SERVER["HTTP_CF_IPCOUNTRY"] == ’ RU ‘ ) {
die('not allow current country');
}


额外会添加的 header
$_SERVER["HTTP_CF_CONNECTING_IP"] 访问的真实 IP

$_SERVER["HTTP_CF_IPCOUNTRY"] 访问者国家代码

$_SERVER["HTTP_CF_RAY"] CF 的日志 ID

$_SERVER["HTTP_CF_VISITOR"] http 和 ssl
刚需下手
投资不要买 可能变接盘侠
2017-03-07 20:41:37 +08:00
回复了 unkn369 创建的主题 小米 小米电视开机强制 30 秒广告
letv 已经这么做很久了,最长看过 65 秒的
最恶心的是,每次升级系统 霸屏的全是 letv 自己的东西

而且存储空间小 越来越卡了
@daryl 什么语言 wechat 留个
@florije
我朋友的公司也是
跟我讲 招人和谈恋爱一样 急不来


@YYDL
外包偶尔有 都是些国外朋友公司小项目 价格上不去
可以留个 wechat 详谈
我有打算开始使用远程工作团队
现在在筹划些细节 管理等等

其实应该算工作经验 初级高级只是个比方
1-2 年的经验 大概 8k-12k
2-4 年一般 15k-20k
5 年+的都在 20k 以上
主要是看是不是能做事 能做事的 其实价格都可以谈
2017-03-01 22:16:55 +08:00
回复了 miyuki 创建的主题 互联网 百度旗下网站暗藏恶意代码,劫持用户电脑疯狂“收割”流量
这个事不是一直在干吗?
软件这块
百度搜索一些软件 让你安装 然后变全家桶
升级版出来了?
1 ... 2  3  4  5  6  7  8  9  10  11 ... 42  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2033 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 35ms · UTC 00:28 · PVG 08:28 · LAX 16:28 · JFK 19:28
Developed with CodeLauncher
♥ Do have faith in what you're doing.