爬虫学习记录

Author Avatar
Xyinkl 2月 18, 2017

爬虫学习记录

之前自己也稀稀拉拉看了一点爬虫的东西,不过很不成体系。

基本上处在从各个技术博客上读代码的水平。

不过看了几个,感觉虽然人家有心分享,但是代码的质量实在是看责任心还有强迫症,很多时候不是很适用,也不够全。

于是从网易云课堂上交了学费,嗯,最近对网易的好感剧增呢。
Alt text

草草掠过最早的几节课,HTML/CSS/JS都早有接触。

但是在用bs4+lxml解析网页时候发现了问题。

我把豆瓣一个网页存到了本地,用open打开,

在chrome中复制了selector,然后bs4+lxml解析

但是运行的结果得到的图片却不是我在chrome里inspect的那个。

=======看图说话分割线=======

如图,inspect这张图,复制selector
Alt text
代码如下:
Alt text
python运行结果如下:
Alt text
显示的src却不是我inspect的那个(src=”./Eg_files/p52275951.jpg”)

这是为什么?

-------

附:练手的网页地址

https://www.douban.com/group/topic/88876068/