Web爬虫|入门教程之爬虫简介

news/2024/7/19 10:20:03 标签: 爬虫, python, 前端

网络爬虫开发实战源码:https://github.com/MakerChen66/Python3Spider

原创不易,本文禁止抄袭、转载,多年爬虫实战开发经验总结,侵权必究!

目录

    • 一、爬虫简介
    • 二、原文链接
    • 三、作者Info

一、爬虫简介


什么是网络爬虫:一个可以自动登录网页获取信息的程序


爬虫能干什么:1.数据监控;2.数据收集;3.信息集合;4.资源采集

实用场景:假如由于工作需要,你要统计一下某网页上面某方面的数据,并存到Excel或CSV文件或者数据库中,但由于不懂爬虫,所以你只能依靠传统的人工收集方法,慢慢的登录网站,看清数据的值后,再慢慢写入Excel或者CSV中,可能由于数据量庞大,甚至有几千,几万条,乃至几亿条数据需要收集,这样浪费了大量时间,没有效率,会产生厌烦感。而会爬虫,只要程序一运行,你会感觉柳暗花明又一村,瞬间解决数据的收集

浏览网页的过程:

					   1.输入网址
					   
                       2.浏览器向DNS服务器发送请求

                       3.找到对应服务器

                       4.服务器解析请求

                       5.服务器处理请求得到最终结果发回去

                       6.浏览器解析返回的数据

                       7.展示给用户


爬虫策略:1.从某个页面开始不断爬取页面上的链接

                    ~深度优先搜索

                    ~广度优先搜索



           
        

         2.观察网址规律


前端三个重要方面:HTML,CSS,JS

HTML:网页最基本的元素,通过标记语言的方式来组织内容(文字,图片,视频)
CSS:指层叠样式表,它定义了网页如何显示里面的元素,包括文字的颜色,字体,大小等等
JS:主要用于前端的一种脚本编程语言,为网站提供动态、交互效果

这里就不仔细介绍这三种语言了,但想要学接下来的教程,就必须了解并掌握他们相关的部分

二、原文链接

本人原创公众号原文链接:阅读原文

原创不易,如果觉得有点用,希望可以随手点个赞,拜谢各位老铁!

三、作者Info

作者:小鸿的摸鱼日常,Goal:让编程更有趣!

原创微信公众号:『小鸿星空科技』,专注于算法、爬虫,网站,游戏开发,数据分析、自然语言处理,AI等,期待你的关注,让我们一起成长、一起Coding!

转载说明:务必注明来源(注明:来源于公众号:小鸿星空科技, 作者:小鸿的摸鱼日常)


http://www.niftyadmin.cn/n/1870640.html

相关文章

机器学习基础--新手必知

1,机器学习概述机器学习(Maching learning ,ML)是一门多领域交叉学科,设计概率论,统计学等多门学科,专门研究计算机怎么模拟实现人类的学习行为,以获取新的知识和技能,重新组织已有的…

Web爬虫|入门教程之请求库requests

网络爬虫开发实战源码:https://github.com/MakerChen66/Python3Spider 原创不易,本文禁止抄袭、转载,多年爬虫实战开发经验总结,侵权必究! 目录一、requests库二、原文链接三、作者Info一、requests库 爬虫利器 下载官…

python常遇错误-IndexError: list index out of range

Python中包含错误和异常两种情况①,错误主要是常见的语法错误SyntaxError,如下图所示,并且在错误提示中会有倒三角箭头的修改指示位置;python中的另外一种错误提醒叫做异常,指的是在语法和表达式上并没有错误&#xff…

LeetCode基础算法-查找算法原理(附源码)

查找算法查找算法也叫搜索算法,查找算法就是从一个有序的数列中找出一个特定的数,常用于判断这个数是否在数列中,或者某个数在数列中的位置,查找是最基本的算法,也是算法的重要部分。 算法目录1.顺序查找2.二分法查找3…

Web爬虫|入门教程之解析库Beautiful Soup

网络爬虫开发实战源码:https://github.com/MakerChen66/Python3Spider 原创不易,本文禁止抄袭、转载,多年爬虫实战开发经验总结,侵权必究! 目录一、Beautiful Soup1.1 四大对象种类1.1.1 四大对象种类——Tag1.1.2 四大…

spring data jpa 查询参数动态可为空的问题 解决

spring data jpa 查询参数动态可为空的问题 解决https://bbs.csdn.net/topics/390968657/

Web爬虫|入门教程之正则表达式

网络爬虫开发实战源码:https://github.com/MakerChen66/Python3Spider 原创不易,本文禁止抄袭、转载,多年爬虫实战开发经验总结,侵权必究! 目录一、正则表达式引入二、正则表达式使用三、匹配方法3.1 match()3.2 searc…

Web爬虫|入门实战之实习僧(编码反爬)

原创不易,本文禁止抄袭、转载,多年爬虫实战开发经验总结,侵权必究! 目录一、爬虫任务二、解析三、源码下载四、作者Info一、爬虫任务 任务背景:爬取实习僧网站Python实习数据 任务目标:利用解析库Beautifu…