0、个人曾经的爬虫

Requests库、Beautiful Soup。
本科毕业设计：微博爬虫。

1、Scrapy

Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。
Scrap，是碎片的意思，这个Python的爬虫框架叫Scrapy。外号小刮刮。

2、前言

语言无关论者
数据格式：csv、json、xml、txt
数据库：mongodb、sqlalchemy、postges
前端：html、css、js、squery

Beautiful Soup、lxml、XPath、selectors。
https://stackoverflow.com/questions/tagged/scrapy
https://scrapy.org/community/

最小可行产品(Minimum Viable Product, MVP)
初创公司、精益创业

3、认识Scrapy

数据清晰、格式化、装饰以及存储到数据库。

XPath选择HTML元素：$x工具函数。（在浏览器console中使用）
使用//语法去的某一指定类型的元素。使用/语法即前一个父类下的最近子集。
符号@（选择属性）、text()函数、符号* 等等。

一个特殊的网站：example.com

4、安装Scrapy

pip install scrapy
import scrapy

5、UR2IM流程

U：URL
R：Request
R：Response
I：Item
M：More URL

6、看到第三章发现真的全程用框架，放弃20181123

精通Python爬虫框架Scrapy

2018-10-05
ML

精通Python爬虫框架Scrapy

0、个人曾经的爬虫

1、Scrapy

2、前言

3、认识Scrapy

4、安装Scrapy

5、UR2IM流程

6、看到第三章发现真的全程用框架，放弃20181123

精通Python爬虫框架Scrapy

0、个人曾经的爬虫

1、Scrapy

2、前言

3、认识Scrapy

4、安装Scrapy

5、UR2IM流程

6、看到第三章发现真的全程用框架，放弃20181123

赏个糖吃吧~