大学生的小乐趣:python网页爬虫

news/2024/7/19 10:18:12 标签: python, 爬虫, bs4, requests

网页Dev

Element
Network

网络爬虫主要看在网页的检查元素的这两个页面(Element、Network)
Element :index页面的源代码(并且能进行快速的查找)
Network:查找客户端和服务端之间的各种流

python_Code_8">python Code

python里面含有多种框架使得对网页内容进行爬取简单而有效。

requests_11">requests

python">import requests
response = requests.get("http://www.baidu.com")#return response (object)
print(response.status_code)  # 打印状态码
print(response.url)          # 打印请求url



print(response.headers)      # 打印头信息
print(response.cookies)      # 打印cookie信息
print(response.text)  #以文本形式打印网页源码
print(response.content) #以字节流形式打印

一般来说我们会自己加入header(有时候也会有参数)

python">import requests
#url
url = "http://www.baidu.com"
#Custom Headers
headers = {
	"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36"
}
#Passing Paramters in URLs
payload = {'key1': 'value1', 'key2': 'value2'}

page = requests.get(url=url, headers = headers, param = payload)

#使用BeautifulSoup来对文档进行解析

python">from bs4 import BeautifulSoup	

soup = BeautifulSoup(page.content, 'html.parser')
list = soup.find_all("div", class_="col-xs-6") # return a list

http://www.niftyadmin.cn/n/961990.html

相关文章

linux find prune exec 排除某目录或文件 执行

查找cache目录下不是html的文件 find ./cache ! -name *.html -type f 列出当前目录下的目录名,排除includes目录,后面的-print不能少 find . -path ./includes -prune -o -type d -maxdepth 1 -print 排除多个目录,”(“前是带”\”的 find / \( -path /home/ -o -path /root …

Data Analysis

写在前面 该篇主要讲述的是数据分析的代码实现: 包含: Linear Regression Logistic_Regression Support Vector Machine Convolution Neural Network Linear Regression import tensorflow as tf import numpy as npdef read_data():"""…

脚本调试

最简单的调试方法当然是使用echo命令。你可以在任何怀疑出错的地方用echo打印变量值,这也是大部分shell程序员花费80%的时间用于调试的原因。Shell脚本的好处在于无需重新编译,而插入一个echo命令也不需要多少时间。 shell也有一个真正的调试模式&#…

大学生的自我救赎:计算机组成原理大纲

计算机组成原理 走在前面 计算机的概念 计算机组成的概念 计算机系统概论 定义: 中央处理器计算机计算机系统 运算器存储器控制器 计算机中的CPU是指运算器、控制器和cache 计算机系统的层次结构 级数分类0硬联逻辑级机器1微程序级机器2传统级机器3操作系统级机…

大学生的自我救赎:数据库大纲

数据库(针对SQL Server ) 绪论 定义 数据数据库数据库管理系统数据库系统 数据模型 概念模型逻辑模型物理模型 E-R 图 实体型属性联系 三级模式结构及特点 模式内模式外模式三级模式二级映象 关系数据库 术语 元组关系属性候选码主码外码主属…

QQ头像获取 --嘿嘿

QQ 头像获取 QQ user picture acquisition API接口: http://q1.qlogo.cn/g?bqq&nkQQ号码&s640

【276天】跃迁之路——程序员高效学习方法论探索系列(实验阶段34-2017.11.08)...

实验说明 从2017.10.6起,开启这个系列,目标只有一个:探索新的学习方法,实现跃迁式成长实验期2年(2017.10.06 - 2019.10.06)我将以自己为实验对象。我将开源我的学习方法,方法不断更新迭代&#…

Ubuntu删除Virtualbox

在ubuntu下删除virtualbox不能直接使用命令apt-get remove virtualbox 在新立得包管理器中也找不到,但是可以使用命令: apt-get remove virtualbox* 然后,就会列出会删除的包。 回车。