关于“直播答题发钱”辅助工具搜索推荐算法的讨论

2018-01-18 09:13:07 +08:00
 anywalker707
最近直播火热,网上也看到很多通过“抓图 - 文字识别 - 百度搜题推荐”的程序介绍,自己也整理了一份
###########举例######################
问题:9.中国历史上,在位时间最长的皇帝是?
备选答案: ['康熙', '乾隆', '刘彻']

Answer: ['刘彻(9.091%)', '康熙(63.636%)', '乾隆(27.273%)']
#######################################
想问问大家,对搜索答案这块的算法,怎么设计,有什么高见?

先抛砖引玉,目前想到的算法:
1. 通过百度网页,请求问题,以答案选项作为关键字,数数判断(主流)
2. 对答案采用“中文分词”,针对答案可能是 xxx-yyy-zzz 无法全字匹配的情况
3. 对问题进行“中文分词“,逆向搜索,针对 “下面那些不是美国的品牌”这类问题

对于 1 已经实现,之前也有人发过存在“不”的情况处理;目前想通过 jieba 实现 2 和 3,但是总感觉这块的思考不是“很专业”,请大家吐槽
5445 次点击
所在节点    Python
41 条回复
wisonic
2018-01-18 09:17:34 +08:00
hi
zarte
2018-01-18 09:18:41 +08:00
xxx 是?直接把题目拿去搜。
其他带上答案搜。
binjoo
2018-01-18 09:26:32 +08:00
昨天有一题,大提琴有几根弦。

简单搜索(百度):我在百度页面中搜索,第一个结果就是百度知道的结果,4 根。但是给出的答案是 6 根。
搜狗搜索(搜狗):我在搜狗页面中搜索,第一个结果就是搜狗立知的结果,4 根。但是给出的答案也是 6 根。

不明白他们是怎么给出的答案。。
victor97
2018-01-18 09:30:15 +08:00
把问题带上选项搜,比较搜索结果数量
mmrx
2018-01-18 09:31:56 +08:00
感觉第一种完全是看搜索引擎靠不靠普...目前来看,百度还是算了吧,换个 google 估计是不是好点?
CaptainWho
2018-01-18 10:17:58 +08:00
@binjoo 我就在这题凉凉了
logOo
2018-01-18 10:25:50 +08:00
@CaptainWho 去年有部超火的日剧叫四重奏,就是四个四流音乐家追求音乐梦想的故事。我也拿这部剧当神剧,可真没注意过大提琴几根弦。
yao978318542
2018-01-18 10:35:04 +08:00
已经开始耍猴了 放弃吧 都是 5 圆场 adb 截图加分析加百度 我一共用了 5 秒 主持人念题然后显示出完整题目 2 秒 留给我的只有 3 秒 然后我还需要判断 答案的准确性,顺便浏览一下百度出的内容 再然后按下选择按钮 忙碌了半个小时最后得到 5 块钱 感觉好累啊
cossak1991
2018-01-18 10:50:50 +08:00
估计就是买了一部分题库,不然解释不了为什么百度、搜狗连大提琴有几根弦这种没有悬念的问题都能答错。
vipper
2018-01-18 11:03:52 +08:00
上深度学习系统吧
Mrkon
2018-01-18 11:15:37 +08:00
vincentjie
2018-01-18 12:43:00 +08:00
@binjoo
好像没有听说过 6 根弦的大提琴啊,是我太孤陋寡闻了吗。
azh7138m
2018-01-18 13:21:03 +08:00
@vincentjie 看维基百科的话是巴洛克大提琴 4 根,还有一种 7 根的,6 根的是啥就不知道了
piaochen0
2018-01-18 13:28:00 +08:00
@yao978318542 有没有这种可能性。我怀疑是简单搜索,搜狗跟这些平台有合作....直接把题库都给他们了.....我写的跟你差不多,截图,ocr 分析,到网上搜结果,都要 5,6 秒左右才能出答案。而且 ocr 还不一定全能识别全。他们这个速度有点快了...
zsdroid
2018-01-18 13:35:21 +08:00
@azh7138m 阿贝鸠尼琴
Gord3n
2018-01-18 13:38:36 +08:00
🌝其实是人工答的,做一个前端页面,然后把答案发给用户
yuriko
2018-01-18 13:43:59 +08:00
@Gord3n 我也觉得是人工答题 23333333
TimePPT
2018-01-18 13:49:49 +08:00
@piaochen0 并没有可能。快是因为搜狗用的是自家搜索引擎技术,基于深度学习的开放域问答系统,并且针对答题产品做了专项优化,并不是单纯从排序好的网页里简单 pattern 匹配。百度也一样。
这也是为啥答的快,但不准。
sola97
2018-01-18 13:55:14 +08:00
@piaochen0 目前目前冲顶和西瓜的题目接口都是可以抓包调用的
littleW2B
2018-01-18 13:57:20 +08:00
@zsdroid 抓包直接拿到题目字符串,省去 ocr 时间

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/423795

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX