爬虫获取网站源码时, p 标签总是只能获取到最后一段内容

2020-03-18 17:22:42 +08:00
 dalezyf897

网站源码:

<p class="profile">
                    
                        江苏省产业技术研究院智能液晶技术研究所(智能液晶所)是一个新型的、以企业方式运营的专业技术研究所,其运营实体为江苏集萃智能液晶科技有限公司。
<br/>    公司成立于 2016 年 5 月,大楼总面积达 13363.6 平...<span class="profile-open">展开+</span>
                    
                </p>

crawler.py

r = requests.get(url, headers=kv)
print(r.text)

Output

<p class="profile">
                    
<br/>    公司成立于 2016 年 5 月,大楼总面积达 13363.6 平...<span class="profile-open">展开+</span>
                    
                </p>

正在做毕设,求大佬解惑

1531 次点击
所在节点    Python
2 条回复
lozzow
2020-03-18 19:14:08 +08:00
不同地方加载的吧,你从浏览器上看到的是加载之后的数据,所以是不一样的
l3n641
2020-03-18 20:56:54 +08:00
建议给出 url 地址吧.情况很多种
第一种是没有获取到的数据,是通过 ajax 获取或者保存到某个变量里面,然后在渲染的.第二种是有防爬虫,识别出了,你是爬虫,所以传递了不完整的数据.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/653946

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX