ASP源码.NET源码PHP源码JSP源码JAVA源码DELPHI源码PB源码VC源码VB源码Android源码
当前位置:首页 >> 网络编程 >> Python教程 >> python爬虫 Python爬虫学习记录

python爬虫 Python爬虫学习记录(1/6)

来源:网络整理     时间:2017-12-07     关键词:python爬虫

本篇文章主要介绍了"python爬虫 Python爬虫学习记录",主要涉及到python爬虫方面的内容,对于Python教程感兴趣的同学可以参考一下: 引言: 昨天在网易云课堂自学了《Python网络爬虫实战》,视频链接 老师讲的很清晰,跟着实践一遍就能掌握爬虫基础了,强烈推荐! 另...

引言:

        昨天在网易云课堂自学了《Python网络爬虫实战》,视频链接 老师讲的很清晰,跟着实践一遍就能掌握爬虫基础了,强烈推荐!

        另外,在网上看到一位学友整理的课程记录,非常详细,可以优先参考学习。传送门:请点击

        本篇文章是自己同步跟着视频学习的记录,欢迎阅读~~~

实验:新浪新闻首页爬虫实践

http://news.sina.com.cn/china/

一、准备

  • 浏览器内建的开发人员工具(以Chrome为例)

  • Python3 requests 库

  • Python3 BeautifulSoup4 库(注意,BeautifulSoup4和BeautifulSoup是不一样的)

  • jupyter notebook

二、抓取前的分析

以Chrome为例,抓取前的分析步骤如图:

 Python爬虫学习记录

  1. F12进入到开发者工具;
  2. 点击Network
  3. 刷新页面;(按F5)
  4. 找到Doc
  5. 找到左边Name这一栏的第一个(需要爬去的链接90%的情况都是第一个);
  6. 点击右边的Headers
  7. 找到请求的URL和请求方式。

 三、开始撰写第一只网络爬虫

Requests库

  • 网络资源撷取套件
  • 改善Urllib2的缺点,让使用者以最简单的方式获取网络资源
  • 可以使用REST操作存取网络资源

jupyter

使用jupyter来抓取网页并打印在浏览器中,再按Ctrl-F查找对应的内容,以确定我们要爬去的内容在该网页中。

测试示例:

1import requests
2 res = requests.get('http://www.sina.com.cn/')
3 res.encoding = 'utf-8'4print(res.text)

四、用BeautifulSoup4剖析网页元素

测试示例:

python爬虫相关图片

python爬虫相关文章