爬网站文字链接及标题

news/2024/7/19 11:10:18 标签: python, utf-8, 爬虫

任务:还是那个壁纸网站(就是之前这个啦https://blog.csdn.net/qq_40024605/article/details/79067580),这次要爬壁纸的文字标题及链接并写入文件保存

实现:

# -*- coding: utf-8 -*
import urllib
import re
#这个很重要,是能够让导入文件的文字能以中文形式保存,
具体可以参考这儿http://blog.csdn.net/crazyhacking/article/details/39375535
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
f = open("3.txt", "a+")

def getHtml(url):
    page=urllib.urlopen(url)
    html=page.read()
    return html

def getTitle(html):
    reg =r'<div class="il_img"><a href="(.+?)" title="(.+?)" target="_blank"><img '#正则匹配
    imgre =re.compile(reg)
    list=re.findall(imgre,html)
    for p in list:
        print  """http://www.ivsky/.com"""+p[0],p[1]
        s=p[1]
        s=s.decode('utf-8')
        f.write("""http://www.ivsky/.com"""+p[0] +','+s+'\n')#写入文件


i=1
for i in range(1, 5):#循环,遍历url
    x=17*i
    html=getHtml("http://www.ivsky.com/bizhi/index_%s.html"%i)
    getTitle(html)
f.close()


 


http://www.niftyadmin.cn/n/787723.html

相关文章

企业级实战——畅购商城SpringCloud-JAVA实战商城管理后台——根据ID查询品牌实现,增加,删除,修改

QQ 1274510382 Wechat JNZ_aming 商业联盟 QQ群538250800 技术搞事 QQ群599020441 解决方案 QQ群152889761 加入我们 QQ群649347320 共享学习 QQ群674240731 纪年科技aming 网络安全 ,深度学习,嵌入式,机器强化,生物智能,生命科学。

java 集合_Java集合类

集合类存放于 Java.util 包中&#xff0c;主要有 3 种&#xff1a;set(集)、list(列表包含 Queue)和 map(映射)。Collection&#xff1a;Collection 是集合 List、Set、Queue 的最基本的接口。Iterator&#xff1a;迭代器&#xff0c;可以通过迭代器遍历集合中的数据Map&#x…

企业级实战——畅购商城SpringCloud-JAVA实战商城管理后台——条件搜索实现

QQ 1274510382 Wechat JNZ_aming 商业联盟 QQ群538250800 技术搞事 QQ群599020441 解决方案 QQ群152889761 加入我们 QQ群649347320 共享学习 QQ群674240731 纪年科技aming 网络安全 ,深度学习,嵌入式,机器强化,生物智能,生命科学。

004thinkphp Oracle连接

Oracle数据库相关连接如下&#xff1a; 无法连接Oracle 需要安装客户端&#xff0c;精简版的客户端也会报错&#xff1b; ThinkPHP3.2.2 配置正常&#xff1b; SQLSTATE[HY000]: pdo_oci_handle_factory: ORA-12514: TNS: 监听程序当前无法识别连接描述符中请求的服务 (ext\pdo…

爬取糗事百科

任务&#xff1a;爬取糗事百科发布者和发布内容 实现&#xff1a; 糗事百科的段子还是很不错的&#xff0c;刚开始爬虫的同学们可以拿它练练手哦。 下面上代码啦&#xff0c;请求头headers是很重要哒&#xff0c;还要注意编码问题呦&#xff0c;这个编码问题可以抽出时间 来专门…

Scala里面的排序函数的使用

排序方法在实际的应用场景中非常常见&#xff0c;Scala里面有三种排序方法&#xff0c;分别是&#xff1a; sorted&#xff0c;sortBy &#xff0c;sortWith 分别介绍下他们的功能&#xff1a; &#xff08;1&#xff09;sorted 对一个集合进行自然排序&#xff0c;通过传递隐式…

python智能对话机器人_不到20行代码,用Python做一个智能聊天机器人

伴随着自然语言技术和机器学习技术的发展&#xff0c;越来越多的有意思的自然语言小项目呈现在大家的眼前&#xff0c;聊天机器人就是其中最典型的应用&#xff0c;今天小编就带领大家用不到20行代码&#xff0c;运用两种方式搭建属于自己的聊天机器人。 01 神器wxpy库 首先&am…

bs4的使用

bs4的简单介绍及使用一、 bs4的介绍&#xff1a; Beautiful Soup是python的一个库&#xff0c;最主要的功能是从网页抓取数据。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱&#xff0c;通过解析文档为用户提供需要抓取…