获取肖像数据

news/2024/7/19 11:53:43 标签: python, 人工智能, 爬虫, 图像处理

获取肖像数据集

  • 前言
  • 代码


前言

在《基于人脸识别和图像分割技术制作证件照》博文中介绍了如何使用deeplab图像分割模型制作证件照,在《基于PASCAL VOC 2012数据集训练deeplab图像分割模型》博文中介绍了如何调优模型,在《使用labelme工具标注人像数据集》博文中介绍了如何标注人像数据集,今天教大家获取肖像数据。


代码

详情参考github

python">import requests
import urllib
from lxml import etree, html
import time
import os
def crawl_person_image_url(page: int = 1, header=header):
    url = f'https://www.vcg.com/creative-image/xiaoxiang/?creativeRace=1&page={page}'
    req: requests.Response = requests.get(url=url, headers=header)
    src = req.text
    root = etree.HTML(src)
    figures = root.xpath(xpath)  # 获取图像列表
    figure_url_list = []
    for fg in figures:
        try:
            img = fg.xpath('a/img')[0]  # 获取图像元素
            data = ('https:' + img.get('data-src'), 'https:' + img.get('data-min'))
            figure_url_list.append(data)
        except e:
            continue
    return figure_url_list


def download_image(url: str, save_path='./vcg/'):
    os.makedirs(save_path, exist_ok=True)
    image_name = url.split('/')[-1]
    full_save_file_name = save_path + image_name
    data = requests.get(url).content
    with open(full_save_file_name, 'wb') as f:
        f.write(data)
    return full_save_file_name


def main():
    for i in range(1, MAX_PAGE + 1):
        urls = crawl_person_image_url(i)
        for u in urls:
            download_image(u[0])
            time.sleep(0.1)  # 防止过快

http://www.niftyadmin.cn/n/1030583.html

相关文章

基于自定义数据集训练deeplab模型

基于自定义数据集训练deeplab模型前言步骤总结前言 在《基于人脸识别和图像分割技术制作证件照》博文中介绍了如何应用图像语义分割模型制作证件照,在《基于PASCAL VOC 2012数据集训练deeplab图像分割模型》博文中介绍了如何应用公开数据集训练deeplab图像语义分割…

Shader Graph和Amplify Shader Editor有哪些区别

1)Shader Graph和Amplify Shader Editor有哪些区别 ​2)Canvas AdditionalShaderChannels设置无效 3)IL2CPP打包速率问题 4)SRP是否还需要图集 这是第290篇UWA技术知识分享的推送。今天我们继续为大家精选了若干和开发、优化相关的…

广州套刷公交卡数学建模

广州套刷公交卡数学建模前言一、问题描述二、数学建模三、问题求解总结前言 广州乘坐公交地铁优惠方案如下:每月前15次9.5折,第16次开始6折。公交通常是2元一次,地铁按里程分段收费,起步价格为2元。有的乘客单次乘坐地铁原价比较…

ToLua或XLua中的虚拟机是否独立于Unity的主线程

1)ToLua或XLua中的虚拟机是否独立于Unity的主线程 ​2)Timeline技能编辑器提取关键帧信息 3)Canvas AdditionalShaderChannels设置无效 4)SDK返回的时候取Time.deltaTime比较大 这是第291篇UWA技术知识分享的推送。今天我们继续为…

UWA DAY 2021 课程推荐四——优化篇

UWA DAY 2021 - 助力游戏研发迈入工业化时代 大会上的35个议题现已全部上线UWA学堂,内容涵盖了程序、美术、制作、策划、质量保障、前沿探索等多个方面。 本期为大家推荐UWA DAY 2021中关于优化的议题分享: 《Unity移动游戏性能优化案例分析》——UWA周旋…

Latex公式常见符号

Latex公式常见符号一、运算符号二、函数符号三、括号、箭头四、希腊字母资源下载地址:Latex公式常见符号.pdf 一、运算符号 序号数学符号Latex表达式助记1\times\timestimes2\div\divdiv3\pm\pmplus minus4∓\mp∓\mpminus plus5⋅\cdot⋅\cdotc dot6⋆\star⋆\starstart7ab\…

用Shader做UGUI字体描边的算法改进

Unity自带的Outline效率实在太差。找了一篇文章《基于Shader实现的UGUI描边解决方案》,效果还不错,Overdraw和顶点数都不高。这篇文章主要介绍了Shader实现Outline的原理和优劣点,感兴趣的读者可以阅读。基于Shader实现的UGUI描边解决方案 - …

MODNet抠图模型复现

MODNet抠图模型复现前言复现步骤前言 MODNet由香港城市大学和商汤科技于2020年11月首次提出,用于实时抠图任务。该模型十分优秀,不需要背景做输入即可实现抠图,且实时性非常高。但是官方代码未给出完整的训练示例,我在github上给…