V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  ijustdo  ›  全部回复第 3 页 / 共 9 页
回复总数  174
1  2  3  4  5  6  7  8  9  
2017-03-31 16:46:41 +08:00
回复了 SingeeKing 创建的主题 问与答 正则表达式的 Catastrophic backtracking 错误
还有一个技巧就是 不要每次都去编译正则 python 的正则可以 re.compile 编译为一个对象 然后用这个对象去 search 或者 match
2017-03-31 16:44:57 +08:00
回复了 SingeeKing 创建的主题 问与答 正则表达式的 Catastrophic backtracking 错误
python 里 正则库 \w 能匹配换行么?

<div class=\"bookmeta\" bookrecno=\"(\d*?)\">.*?<a href=\"book/\d*?\" target=\"_blank\">\s*(.*?)\s*</a>.*?索书号:\s*<span class=\"callnosSpan\">\s*(.*?)\s*</span>\s*</div>\s*</div>

出错的 改为这样就可以了 注意贪婪模式和非贪婪模式
2017-03-31 16:20:14 +08:00
回复了 youdeshi 创建的主题 求职 Google 程序员想找一个国内创业团队 remote 工作可行吗?
google 待遇很高吧 认识一个 google 的北京这边研发的 都北京好几套房了
何必找操,要不碰到不好沟通的 你代码都给他写好了 他们不会用,不会部署 还是一样骂 这是写的撒垃圾玩意,
然后你就开始了 多工种模式 证明你写的没问题 然后他们活就干完了 ^_^
起码提供解决方案 或者解决问题思路 直接给现成好
2017-03-31 11:20:13 +08:00
回复了 kexxxfeng 创建的主题 搜索引擎优化 大家对“把搜索交给第三方”怎么看?
阿里的 opensearch 好像数据到 500w 及以上 你会发现很多问题 呵呵
还是自己做吧
2017-03-28 10:23:11 +08:00
回复了 AlwaysBee 创建的主题 程序员 小程序对个人开发者开放了!!!
估计还是火不起来 因为做个 h5 好多地方都可以使 做个小程序 只能微信里
我觉得微信还是把 WEB 支付放开最见效 不要再只有他们系的可以 或者外面要求月流水到多少才能申请

说明下 WEB 支付 就是直接移动端浏览器 可以唤起微信然后直接支付 还没对外啊 都好多年了 这个能说好多靠着这个不正当竞争么
2017-03-28 09:11:28 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
好多人提到中年危机 其实这个没什么好危机的 不是年龄问题 最大的是心态问题
都知道 但是就是思维进胡同了 不管那个行业到年龄大了 都一样会碰到问题

何况做技术的 你还有一技傍身呢 你想想刚上班那会低工资 现在就算从头再来又怕什么

年轻人能写的东西 你写不了么 no 写的了 而且可能写的更好 或者考虑的更多
而且还能干他们很多干不了的 ,应该更有竞争力才对。。。

只要无所畏惧。。。 你就。。。
摆脱弱者的思维。。。 你就。。。
2017-03-28 09:00:49 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
买房了 媳妇和儿子北京户口 媳妇是有北京户口的河北人 哈哈
但是有房贷 财务自由这个问题 显然没有
2017-03-27 14:53:45 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
最近印象最深的应该是

oracle 这玩意 php 连接的时候 当时发现连接时间巨长 连接后查询只用了毫秒
但是连接可能要好多秒 同一机器上的 python 和 java 连 oracle 都没这情况
对那台服务 strace php 进程跟踪
发现 是局域网网络解析 在 Linux hosts 里加一个 192.xxx hostname 的记录就 ok


还有一个就是快钱的 bug 特殊情况下 当然他们也承认是 bug 态度赞一个
支付宝蚂蚁金服的多次退款也有 但是不会造成资金问题


刚上班那会初期基本都会踩我也不例外
编码相关知识, 正则坎, 多进程多线程的锁 共享变量撒的
然后服务端的一些经验 坑都忘了 都被老大扛了 上线钱 他会测试翻代码


还有个就是一个好几库 要 python 用到 但是不是 python 的 好几种语言 最后先全都到 cpp 然后再到 python
手写 makefile 简直搞了 1 个多星期 快奔溃了
2017-03-27 14:34:31 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
有什么事令你后悔过?(技术路上的、非技术路上的)

这个怎么说呢 技术路上就是当时 公司转 web 开发的时候 没有坚持用 python 而是直接 php 了
不过那个时候 python web 框架基本没有或者很少 我们内部用的是自己写的

也许是当时 python 的 web 框架还不太成熟吧 多是 python cgi 模块来
也没有太大后悔吧 只是多了门手艺 php

非技术路上就是 买房买晚了 你懂的 差价兼职不是一般的大 虽然现在翻倍+ 了
2017-03-27 14:29:31 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
看到上面 当初踏入程序员的路是从那一块开始学的 呵呵
小学五六年纪 堂哥他们加退休的电脑给我了 然后 basic 然后 c 然后 大学知道了 python

一年暑假去他家 接触了 linux 应该 2000 年之前 应该是 lilo 引导的 给我讲一堆 不过现在全都不记得

然后折腾 linux 瞎玩吧 解除计算机做开发可能受堂哥他们影响较多
2017-03-27 14:11:00 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
错了 不记得是 yii 还是 yaf 的作者 写 go 了 github 上找得到 懒得找了 就当我放了个屁
2017-03-27 14:09:44 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
你要知道 yii 的作者现在 写 go 了 我上面列举的那个例子是 那种及简的思路及代码风格

我从没说我代码写的好 我也不认为我代码写的好 哈哈 你说哪个语言好 我都同意 不做表态

有时候不是只有代码 还有代码 结构和思路

1. 上班到几岁 这是个问题 钱永远页赚不够 也不会嫌多 (现阶段我没钱, 哈哈)
2. 不上班干什么 着看心态了, 说不都学点金融投资理财, 或者做点小生意, 或者去培训机构, 或者碰到好的机会和合得来的人并且碰到好的项目 自己创业
2017-03-27 13:43:52 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
好了 panlatent 你赢了 我接触过好多老的写 php 还是函数式的 比较多 他们好多不太命名空间 还有 你看银联在线老的 php 接口 甚至在 php5.3 以上的版本上都报错 呵呵


至于创业还是转管理 确实是个问题, 但是我希望一直做技术, 创业容易创利难 好的项目或许会去搞
2017-03-27 13:34:43 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
@panlatent 你把他整个项目代码读一遍呢 基本很面向对象呢
2017-03-27 12:57:18 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
要不来个好玩的 我这里有一个基于博士论文实现的 资讯文本摘要

帖咨询链接 我出跑的结果 跟大家 pk 赢过我的 我公开源代码 哈哈
2017-03-27 12:19:16 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
关于开发语言问题, 这个问题我们这里初期一直保持开放态度

只要结果 什么语言都可以

其实到一定的年纪 开发语言你会觉得不是那么重要了

好多时候 合适的语言用在合适的地方 考虑开发周期成本 。。。。

不管语言写的不好一样出乱代码

写的好效率也并不一定低

这个 php 面向对象的 是不是可以垫付好多写 php 老码农的认知
https://github.com/bshaffer/oauth2-server-php/blob/develop/src/OAuth2/Controller/TokenController.php



实在不知道 写撒了 歇歇
2017-03-27 12:12:26 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
再说一些 关于带人方面的话题呢

刚好在一个群里 哈哈 应该是 2006 年的群 人数不多 也不会加不认识的人

一哥们他们上市应该。。。 出来搞了个。。。。 聊起带人的话题

别人的发言我就不截取 就截取我发的吧
这的感谢我的老大 当初就是那样把我带出来的


应届生如果肯定 不是太笨 应该可以带出来 但是踩坑可定避免不了的
像这种 我一般都是 给东西 让他自己写 然后 codereview 甚至让他搬个椅子坐旁边 看着我重写

这样带人很累 但是 好处是 带出来的 基本代码风格和思路 很容易一致

初期基本就别指望太能做太大的东西 或出东西 基本得带的人抗
慢慢开始 给项目的部分小功能

其实应届出来 因为代码或者撒的 都还没形成自己的风格和 作风 这个时候手把手带 对谁都好 对公司也好
如果是一来就自己搞自己的让出结果 很多个新人容易受打击 承受力好的还好 不好的 容易跳来跳去

找应届毕业生 不一定非要名校 我见过很多非名校的 就是因为非名校 他认为起点就比别人地 自己很努力

实习生初期可以大压力 扛得住没走的 再放缓节奏培养 筛一下

这样的好处是 免得耗费彼此的时间 耽误公司也耽误别人
2017-03-27 11:46:00 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
给一个作文本里面我比较喜欢的库呢

其实一直想做基于语义的分词 虽然这玩意在很多很多年前就有 但是也不是想做就那么容易出来的

下面这个是测试哈工大语言云 他们开放出来的库 其实原始库是 cpp 的 但是他们也出了 py 的
https://github.com/ghostwwl/machine_learning/blob/master/ltp.py

其实分词并非简单的分词

- 实际用途
- 在用户的输入或者搜索的时候 基本都是用户的条件变成词条去匹配的
- 很多时候可以优化 比喻输入的包含类别名 或专业词条
- 基于语义有好处就是 更好的猜猜用户的搜索意图 或者需求

- 搜索引擎搜索过程中的 xx
- 数据库搜索会有注入
- 搜索引擎也有脆弱的地方
- 他会把输入初始语句分词去倒排索引查
- 如果没有限制输入最大长度 我一堆并发给你搜索口 post 大文章, 你会发现搜索服务器 cpu 很 happy



上面看到问跳过多少次 不好意思 没有跳过 哈哈
以前年轻 一直认为 最痛苦的时候 就是离成功最近的时候 好多时候咬牙过来了 就长进了
2017-03-27 11:35:43 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
在来个文本自动分类的呢


文本分类

如果转载 标明出去呢 MIT 协议 吧

----------------------------

+ 初期公司做垂直搜索,所以怎么区分行业内的文章和非行业的文章是个问题

+ 我们的做法但是基本达到 90%或者更高准确度,取决于我们的阀值

+ 具体做法呢
1. 收集行业内所有的专业词 并分类, 现在更简单了 国家图书馆可以注册账号查各种资料了 当时我们可以人工 + 行业内专家
2. 构建分词服务器 使用这些专业词分类
3. 构建判断标准
a. 专业词条在文章中的密度到多少 百分比
b. 所有命中关键词的分类投票概率 得出文章的类别概率
4. 这里我们可以得到 分类和关键词了 哈哈
5. 初期人工选择行业内专业文章对结果不停调整
6. 简单 粗暴 有效

+ 再来说说可以改经的地方
1. 这个时候暴力的机器学习里面 TDIDF 和 kmeans 实际上可以用上
2. 文本相似度也可以用上
3. 这些算法很大成都上在于去掉干扰数据和提高运行效率上

+ 闲下来的时候 kmeans 测试的代码呢 https://github.com/ghostwwl/machine_learning/blob/master/%E6%96%87%E6%9C%AC%E8%81%9A%E7%B1%BB.py
2017-03-27 11:22:10 +08:00
回复了 ijustdo 创建的主题 随想 十年了 😄 最近准备做些总结 欢迎提问!!
在写点撒 还没想好 大家可以提供方向, 这么多年没好好写过文档,没咋总结,一下没头绪。。。

或者你们想知道撒 技术方面的。。。
1  2  3  4  5  6  7  8  9  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1104 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 18ms · UTC 22:59 · PVG 06:59 · LAX 14:59 · JFK 17:59
Developed with CodeLauncher
♥ Do have faith in what you're doing.