爬取糗事百科

news/2024/7/19 11:20:41 标签: python, 糗事百科, 爬虫

任务:爬取糗事百科发布者和发布内容

实现:

糗事百科的段子还是很不错的,刚开始爬虫的同学们可以拿它练练手哦。

下面上代码啦,请求头headers是很重要哒,还要注意编码问题呦,这个编码问题可以抽出时间 来专门研究他哟。

还有这次的正则有点不太好写,正则很有用的,要学会呦。

# -*- coding:utf-8 -*-
import urllib2
import re
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
 
f = open("c.txt", "ab+")
page = 1
for page in range(1, 5):
    url = 'https://www.qiushibaike.com/hot/page/%s/' % page  #糗事百科的url
    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' 
    headers = { 'User-Agent' : user_agent }
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    content = response.read().decode('utf-8')
    pattern1 = re.compile(r'<h2>(.*?)</h2>.+?<span>(.*?)</span>',re.S) #正则匹配源代码
    items = re.findall(pattern1,content)
    for item in items:
        items=re.sub(r'\s','',item[1])
        f.write("发布者:"+item[0]+"发布内容:"+items+'\n')
f.close()

结果:





http://www.niftyadmin.cn/n/787718.html

相关文章

Scala里面的排序函数的使用

排序方法在实际的应用场景中非常常见&#xff0c;Scala里面有三种排序方法&#xff0c;分别是&#xff1a; sorted&#xff0c;sortBy &#xff0c;sortWith 分别介绍下他们的功能&#xff1a; &#xff08;1&#xff09;sorted 对一个集合进行自然排序&#xff0c;通过传递隐式…

python智能对话机器人_不到20行代码,用Python做一个智能聊天机器人

伴随着自然语言技术和机器学习技术的发展&#xff0c;越来越多的有意思的自然语言小项目呈现在大家的眼前&#xff0c;聊天机器人就是其中最典型的应用&#xff0c;今天小编就带领大家用不到20行代码&#xff0c;运用两种方式搭建属于自己的聊天机器人。 01 神器wxpy库 首先&am…

bs4的使用

bs4的简单介绍及使用一、 bs4的介绍&#xff1a; Beautiful Soup是python的一个库&#xff0c;最主要的功能是从网页抓取数据。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱&#xff0c;通过解析文档为用户提供需要抓取…

教你ASP.NET中如何防止注入攻击

你应该在程序中验证所有的不信任输入.你应该假定所有的用户输入都是非法的.用户可以在应用程序中提供表单字段,查询字串,客户端cookies和浏览器环境值比如用户代理字串和IP地址等. 弱输入校验通常为注入攻击提供了机会.下面是常见的利用弱输入校验或无输入校验进行攻击的手段. …

python 数据合并函数merge( )_DataFrame 数据合并实现(merge,join,concat)

merge merge 函数通过一个或多个键将数据集的行连接起来。 场景&#xff1a;针对同一个主键存在的两张包含不同特征的表&#xff0c;通过主键的链接&#xff0c;将两张表进行合并。合并之后&#xff0c;两张表的行数不增加&#xff0c;列数是两张表的列数之和。 def merge(left…

将爬取内容导入数据库

任务&#xff1a;将爬去的内容导入数据库 实现&#xff1a;1、安装mysql 可以在网上百度到安装包及安装教程&#xff0c;有很多大佬的经验 推荐https://jingyan.baidu.com/album/eae07827b2acad1fec54852d.html?picindex1 然后再安装Navicat Premium&#xff08;可以找这http:…

移动电商——Flutter-火爆专区界面布局编写

QQ 1274510382 Wechat JNZ_aming 商业联盟 QQ群538250800 技术搞事 QQ群599020441 解决方案 QQ群152889761 加入我们 QQ群649347320 共享学习 QQ群674240731 纪年科技aming 网络安全 ,深度学习,嵌入式,机器强化,生物智能,生命科学。

Nginx配置的一些小功能

前面的文章&#xff0c;已经介绍了Nginx的作用以及Nginx的安装&#xff0c;本篇文章我们来看几个实际的小例子&#xff0c;来对Nginx进一步加深了解。 &#xff08;一&#xff09;Nginx一些常用的配置介绍 //nginx运行的用户&#xff0c;一般不要设置成root user nginx //工…