#041爬虫beautifulsoup 使用信安培训2019年5月25日

news/2024/7/19 10:58:51 标签: python, 爬虫
爬虫beautifulsoup-使用信安培训2019年5月25日" class="blank_anchor_id" style="color:#08c;text-decoration:none;width:1px;">

爬虫beautifulsoup 使用信安培训2019年5月25日

beautifulsoup

beautifulsoup安装

 

CMD命令行pip安装beautifulsoup4库
CMD命令行pip安装beautifulsoup4库

 

学习样例题目

题目地址

题目链接

 

题目截图
题目截图

 

解题步骤

beautifulsoup 快速讲解

查看源代码

 

算式位置在p标签中 name=‘myexpr’的div中
算式位置在p标签中 name=‘myexpr’的div中

 

代码

python hljs" style="background:#fdf6e3;color:#657b83;border:0;font-size:90%;">import requests
from bs4 import BeautifulSoup
r = requests.get('http://ctf5.shiyanbar.com/jia/index.php')
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text,'html.parser')
a = soup.find_all('div',{"name":"my_expr"})

 

匹配相应数据
匹配相应数据

 

代码2

只有一个p标签
所以可以直接这么使用直接匹配p

python hljs" style="background:#fdf6e3;color:#657b83;border:0;font-size:90%;">b=soup.p.div.get_text()

例题二爬取中国大学排名

题目地址

解析出排名和大学名称即可

 

大学排名网站
大学排名网站

 

python hljs" style="background:#fdf6e3;color:#657b83;border:0;font-size:90%;">from bs4 import BeautifulSoup
import requests

r = requests.get('http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html')
r.encoding = r.apparent_encoding
attr = {"class":"table table-small-font table-bordered table-striped"}

soup = BeautifulSoup(r.text,'html.parser')
a = soup.find('table',attr)
a = a.find_all('tr',{"class":"alt"})
result = '排名,大学\n'
for i in a:
    result += i('td')[0].text +','+i.div.text+'\n'
with open('rank.csv','w') as f:
    f.write(result)

转载于:https://www.cnblogs.com/hx97/p/10923965.html


http://www.niftyadmin.cn/n/752697.html

相关文章

大数据实战项目--中国移动运行分析

需要代码和数据加微信:15234940672 1、项目背景 中国移动公司旗下拥有很多的子机构,基本可以按照省份划分. 而各省份旗下的充值机构也非常的多. 目前要想获取整个平台的充值情况,需要先以省为单元,进行省份旗下的机构统计,然后…

java项目里classpath具体指哪儿个路径

一、classpath路径指什么 只知道把配置文件如:mybatis.xml、spring-web.xml、applicationContext.xml等放到src目录(就是存放代码.java文件的目录),然后使用“classpath:xxx.xml”来读取,都放到src目录准没…

屏幕取色:画板和ColorPix总结

画板取色: 按下PrintScreen截取全屏,或者AltPrintScreen截取窗口,并自动复制。WinR,输入mspaint,Enter后打开画板。CtrlV,粘贴屏幕截图,图像中可以点击裁剪,使画布吸附截图。点击工具…

数据倾斜原理及解决方案

导读 相信很多接触MapReduce的朋友对数据倾斜这四个字并不陌生,那么究竟什么是数据倾斜?又该怎样解决这种该死的情况呢? 何为数据倾斜? 在弄清什么是数据倾斜之前,我想让大家看看数据分布的概念: 正常的数据分布理论上都是倾斜的,就是我们所说的20-80原理&…

ansible 批量安装zabbix-agent

服务器初始化(这是在建立在新的服务器基础上做的初始化)关闭防火墙、selinux,添加epel常用源,安装常用工具、添加普通用户并禁止root 1、服务器批量初始化 [rootfwd ansible]# cat init.yml 系统初始化脚本 --- - hosts: alltask…

JavaFX 将图片中的特定颜色切换成其他颜色

/*** 图片切换特定颜色* originalColor 原始色* image 图片* targetColor 目标色* minSemblance 最小相似度(0到1),最小相似度取1则只替换一种颜色,而非一个颜色区*/public static Image pixLightColorWithImage(Color originalCo…

吴恩达机器学习记录一

第一章(可结合《机器学习实战》:https://blog.csdn.net/haoranhaoshi/article/details/81876539): 优势在于机器的耐心和精力。 大量训练,使任务T由经验E得到性能度量P。 适合相当数量的或强或弱的相关属性&#xff0c…

python学习笔记(十七)-- token

import itsdangerous#产生一个token def create_token(data):salt $$%&&$$%^&&t itsdangerous.TimedJSONWebSignatureSerializer(salt, expires_in60) # 产生一个tokenres t.dumps(data)token res.decode()print(产生的token是, token)return tokencreate…