Web爬虫|入门教程之爬虫简介

网络爬虫开发实战源码：https://github.com/MakerChen66/Python3Spider

原创不易，本文禁止抄袭、转载，多年爬虫实战开发经验总结，侵权必究！

一、爬虫简介

什么是网络爬虫：一个可以自动登录网页获取信息的程序

爬虫能干什么：1.数据监控；2.数据收集；3.信息集合；4.资源采集

实用场景：假如由于工作需要，你要统计一下某网页上面某方面的数据，并存到Excel或CSV文件或者数据库中，但由于不懂爬虫，所以你只能依靠传统的人工收集方法，慢慢的登录网站，看清数据的值后，再慢慢写入Excel或者CSV中，可能由于数据量庞大，甚至有几千，几万条，乃至几亿条数据需要收集，这样浪费了大量时间，没有效率，会产生厌烦感。而会爬虫，只要程序一运行，你会感觉柳暗花明又一村，瞬间解决数据的收集

浏览网页的过程：

					   1.输入网址
					   
                       2.浏览器向DNS服务器发送请求

                       3.找到对应服务器

                       4.服务器解析请求

                       5.服务器处理请求得到最终结果发回去

                       6.浏览器解析返回的数据

                       7.展示给用户

爬虫策略：1.从某个页面开始不断爬取页面上的链接

                    ~深度优先搜索

                    ~广度优先搜索



           
        

         2.观察网址规律

前端三个重要方面：HTML，CSS，JS

HTML：网页最基本的元素，通过标记语言的方式来组织内容(文字，图片，视频)
CSS：指层叠样式表，它定义了网页如何显示里面的元素，包括文字的颜色，字体，大小等等
JS：主要用于前端的一种脚本编程语言，为网站提供动态、交互效果

这里就不仔细介绍这三种语言了，但想要学接下来的教程，就必须了解并掌握他们相关的部分