用 go 写爬虫碰到了 shift_jis 的编码 用了 iconv 包后 发现丢了一大半的东西 怎么解决

2017-10-14 00:09:24 +08:00
 soulmine

还有就是 bs4 支持直接用 chrome F12 导出的 css 选择器么

1691 次点击
所在节点    问与答
6 条回复
bazingaterry
2017-10-14 00:44:07 +08:00
不支持,F12 出来的有可能是经过 JS 修改后的 HTML,你需要的是查看源代码。
soulmine
2017-10-14 00:52:02 +08:00
@bazingaterry 那页面没有 JS.... 源代码结构和页面结构完全一致
soulmine
2017-10-14 00:55:23 +08:00
@bazingaterry 顺带问一句
<tr bgcolor="#FFFFFF">
<td align="center" rowspan="2"><span class="ranking">1</span></td>
<td align="center" rowspan="2"><span class="ranking">-</span></td>
<td align="center" rowspan="2"><span class="ranking"><span class="ranking_akama">●</span></span></td>
<td><span class="ranking"><a href="../../search/linkcd_chk.asp?linkcd=40802801&amp;term=w&amp;sch=ttl&amp;chart_kbn=111">TEST</a></span></td>
<td align="right" rowspan="2"><span class="ranking">118,612</span></td>
<td align="right" rowspan="2"><span class="ranking">118,612</span></td>
<td align="center" colspan="2"><span class="ranking">17/10/4</span></td>
<td align="center" rowspan="2"><span class="ranking">PC</span></td>
</tr>
这种格式的用 BS4 怎么取出每个数据
bazingaterry
2017-10-14 02:03:32 +08:00
@soulmine span.ranking::text

太久没写爬虫,忘记咯
imn1
2017-10-14 09:52:55 +08:00
虽然我不懂 go,但我相信 iconv 不会这样傻

所以你要先说明“丢了一大半”是什么意思
soulmine
2017-10-14 10:02:24 +08:00
@imn1 是的 不是 iconv 的锅 转化之前就少了 www

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/397485

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX