excel爬虫相关学习1:简单的excel爬虫

news/2024/7/19 9:52:03 标签: excel, 爬虫, 学习

目录

excel%20%E7%88%AC%E8%99%AB-toc" style="margin-left:0px;">1 什么是excel 爬虫

2 EXCEL爬虫

excel%20%E7%88%AC%E8%99%AB%E7%9A%84%E5%85%A5%E5%8F%A3-toc" style="margin-left:40px;">2.1 excel 爬虫的入口

 2.2 需要配置的信息

2.2.1 如何获得 ua信息

2.3 获取的信息

2.3.1 获取信息的基本内容

2.3.2 获取过程

2.3.3 我们只用关注“表视图 ” 即可

excel%E9%87%8C-toc" style="margin-left:40px;">2.4 EXCEL获得的爬虫数据 加载到excel

excel%E8%A1%A8%E5%90%8E%E5%8F%AF%E4%BB%A5%E5%8A%A0%E5%B7%A5-toc" style="margin-left:40px;">2.5 数据到了excel表后可以加工

excel%E9%87%8C%E7%9A%84%20%E7%88%AC%E8%99%ABtable%E6%95%B0%E6%8D%AE%E5%91%A2%EF%BC%9F-toc" style="margin-left:40px;">2.6  如何处理已经下载到excel里的 爬虫table数据呢?

2.6.1 点击 “查询和连接” 或者 “现有链接” 可以重新呼出 table0 等原始的下载数据表和链接(右键呼出属性)

2.6.2 右键table对应区域,选择 “从表格/区域 获取数据” 可以重新打开 power query来处理数据

2.7  设置table表自动更新

2.7.1 设置自动更新

2.7.2 自动更新作用


excel%20%E7%88%AC%E8%99%AB">1 什么是excel 爬虫

excel也可以爬虫,我是一本书上看到的,还有点意思

好处:

  • 而且可以不用写代码,纯界面操作
  • 理解起来,对新手还是比较友好的
  • 功能还不少
  • 但是如果懂爬虫,懂html,js等,对理解excel爬虫还是有好处的,比如,

2 EXCEL爬虫

excel%20%E7%88%AC%E8%99%AB%E7%9A%84%E5%85%A5%E5%8F%A3">2.1 excel 爬虫的入口

 2.2 需要配置的信息

  • url
  • 网页请求相关,比如  ua,cookies 等 headers信息
  • 然后点击确定即可

2.2.1 如何获得 ua信息

  • 网页检查
  • 刷新网页
  • 网页url对应的选项
  • networks /request headers 可以找到 UA信息 User-Agent:

2.3 获取的信息

2.3.1 获取信息的基本内容

  • 网页url
  • docment
  • table
  • 可能因为excel 主要用来处理 表格,所以excel 爬虫着重突出了 table 
  • 其实就是html里的 <table></table>的tag

2.3.2 获取过程

  • 快的网页一瞬间就完成了
  • 如果反映慢则可能看到如下过程
  1. 正在连接url
  2. 获取数据
  3. 数据下载完成

 

2.3.3 我们只用关注“表视图 ” 即可

  • 表视图
  • web视图,没啥用

 

excel%E9%87%8C">2.4 EXCEL获得的爬虫数据 加载到excel

  • 点击  加载,存储到excel, 用新的sheet 存档当前excel
  • 点击 加载到
  • 点击 转换数据,会跳转到  power query 处理数据

excel%E8%A1%A8%E5%90%8E%E5%8F%AF%E4%BB%A5%E5%8A%A0%E5%B7%A5">2.5 数据到了excel表后可以加工

  • 数据到了excel表后可以加工
  • 也可以使用 power query 加工(暂时不熟悉,留白)

excel%E9%87%8C%E7%9A%84%20%E7%88%AC%E8%99%ABtable%E6%95%B0%E6%8D%AE%E5%91%A2%EF%BC%9F">2.6  如何处理已经下载到excel里的 爬虫table数据呢?

2.6.1 点击 “查询和连接” 或者 “现有链接” 可以重新呼出 table0 等原始的下载数据表和链接(右键呼出属性)

2.6.2 右键table对应区域,选择 “从表格/区域 获取数据” 可以重新打开 power query来处理数据

  • 入口:右键table对应区域,选择 “从表格/区域 获取数据” 可以重新打开 power query来处理数据
  • 左上角 侧边栏 会显示多个爬取的table0 表(默认下载的表名)
  • 右下角会显示 爬取的时间

2.7  设置table表自动更新

2.7.1 设置自动更新

  • 点击 “查询和连接” 或者 “现有链接” 可以重新呼出 table0

  • 然后,点击右边侧边栏的table0 右键呼出属性

  • 属性窗口里的设置

2.7.2 自动更新作用

  • 可以定时,循环监控网页内容,爬取下来

 


http://www.niftyadmin.cn/n/450545.html

相关文章

怎么学习和提升前端开发的能力? - 易智编译EaseEditing

要学习和提升前端开发的能力&#xff0c;您可以按照以下步骤进行&#xff1a; 掌握基础知识&#xff1a; 了解HTML、CSS和JavaScript的基本概念和语法。学习HTML用于创建网页结构&#xff0c;CSS用于样式设计和布局&#xff0c;JavaScript用于交互和动态效果。 学习框架和库&…

ChatGPT批量生成文章软件:创意无限,内容源源不断

ChatGPT是一种基于人工智能技术的自然语言处理模型&#xff0c;它能够生成各种主题的文章。这种软件具有创意无限、内容源源不断的特点&#xff0c;能够满足用户对于大量文章的需求。 方面一&#xff1a;文化艺术 ChatGPT软件可以生成关于文化艺术的文章&#xff0c;包括绘画、…

让天下没有难Tuning的大模型-PEFT(参数效率微调)技术简介

​ https://www.yuque.com/meta95/hmc3l4/ozgy13dx4akv7v17?singleDoc# 《让天下没有难Tuning的大模型-PEFT技术简介》 最近&#xff0c;深度学习的研究中出现了许多大型预训练模型&#xff0c;例如GPT-3、BERT等&#xff0c;这些模型可以在多种自然语言处理任务中取得优异的…

Js中 == 运算符与 === 运算符的差异

前言 略 运算符与 运算符的差异 运算符先进行类型比较&#xff0c;再进行值比较 运算符先进行类型转化&#xff0c;再进行值比较 运算符示例 1 true //true // Number Boolean 2 true //false 1 "1" //true // Number String [] "" //true // Obj…

Python入门教程+项目实战-13.4节-程序实战-二分查找算法

目录 13.4.1 何为二分查找&#xff1f; 13.4.2 算法实现 13.4.3 系统学习python 13.4.1 何为二分查找&#xff1f; 我们已经学完了Python中的字典和集合&#xff0c;利用字典和集合就可以实现快速查找&#xff0c;非常方便。字典与集合使用了哈希表的索引结构来加快查找&am…

sqoop导出实战

Sqoop导出实战 普通导出 在Sqoop中,使用export进行导出,指的是从HDFS中导出数据到MySql中&#xff1a; 构建MySql的表&#xff1a; CREATE TABLE u2 (id int(11) DEFAULT NULL,age int(11) DEFAULT 0 ) ENGINEInnoDB DEFAULT CHARSETutf8; 复制代码 HDFS导出到MySql 第一…

Python基础(13)——Python列表(list)详解

Python基础&#xff08;13&#xff09;——Python列表&#xff08;list&#xff09;详解 文章目录 Python基础&#xff08;13&#xff09;——Python列表&#xff08;list&#xff09;详解课程&#xff1a;列表目标一. 列表的应用场景二. 列表的格式三. 列表的常用操作3.1 查找…

数据中心机柜PDU应该怎么选?

数据中心是国家确定的“新基建”七大领域之一。数据中心在国民经济和社会发展中所起的作用越来越重要&#xff0c;数据中心已经成为了各行各业的关键基础设施&#xff0c;为经济转型升级提供了重要支撑。在庞杂的数据中心&#xff0c;服务器和交换器担负着传输数据的重要责任&a…