这是一个不断更新博客… 文章目录np.mean(data, axis=0)函数np.dot()函数np.hstack(tup)X.dot(a)itertools.permutationsnumpy.squeeze()函数.get()函数用法import seaborn as snsimport joblib #python模型保存和再使用import tensorflow as tf #开源
转载 2023-07-06 17:29:10
142阅读
1 题目一 找出数组重复数字1.1 描述在一个长度为n数组里所有数字都在0到n-1范围内。数组某些数字是重复,但不知道有几个数字重复了,也不知道每个数字重复了几次。请找出数组任意一个重复数字。例如,如果输入长度为7数组 {2, 3, 1, 0, 2, 5, 3},那么对应输出是重复数字2或者3。1.2 题解方法一将输入数组排序。从排序数组找出重0数字,只需从头到尾扫
Python爬虫学习之数据提取XPath概述常用规则运算符及介绍准备工作实例文本获取属性获取属性值匹配属性多值匹配多属性匹配按序选择 概述XPath全称是XML Path Language, 即XML路径语言,用来在XML文档查找信息。虽然最初是用来搜寻XML文档,但是同样适用于HTML文档搜索。常用规则表达式描述nodename选取此节点所有子节点/从当前节点选取直接子节点//从当前
转载 2023-11-27 00:31:30
80阅读
文章目录一、实例二、解决思路三、代码示例 一、实例将以下列表backup_unit_id全部提取出来 示例:dbs = [{ "backup_unit_id": 163, "data_node_id": 2, "attribute": { "convertor_id": 4, "channel_num": 2, "sga": "90G" } }, {
import re totalCount = '100abc' totalCount = re.sub("\D", "", totalCount) print(totalCount) >>> 100 re.sub(pattern, repl, string, count=0, flags=0)解析:在字符串string中找到匹配正则表达式pattern所有子串,用另一
转载 2023-06-18 22:57:53
166阅读
前言开发爬虫是一件有趣事情。写一个程序,对感兴趣目标网站发起HTTP请求,获取HTML,解析HTML,提取数据,将数据保存到数据库或者存为CSV、JSON等格式,再用自己熟悉语言例如Python对这些数据进行分析生成酷炫图表。这个过程是不是很兴奋?然而,开发爬虫并不是一件简单事情。通常开发一个简单爬虫往往需要编写好几个模块:下载器、解析器、提取规则、保存模块。实现这个简单爬虫用P
项目简介开源地址:https://github.com/YaoFANGUK/video-subtitle-extractorVideo-subtitle-extractor (vse) 是一款将视频硬字幕提取为外挂字幕文件(srt格式)软件。 主要实现了以下功能:提取视频关键帧检测视频帧中文本所在位置识别视频帧中文本内容过滤非字幕区域文本,去除水印(台标)文本去除重复字幕行,生成s
python内置了一系列常用函数,英文官方文档详细说明:https://docs.python.org/3/library/functions.html以下是Python3版本所有的内置函数: 1. abs()  获取绝对值>>> abs(-10) 10 >>> abs(10) 10 >>> abs(0) 0 >>&gt
1.升级Python之前win10 x64操作系统上安装python3.7.0版本(此版本也能进行本文工作)。出于后续识别图片中文字需要,还是将其升级到了python 3.8版本。Python官方下载地址 并不用卸载旧 python3.7.0版本,在官网下载python-3.8.10-amd64.exe文件后,安装,将安装目录添加至Path环境变量。同时屏蔽(或删除)之前 python3
网页正文提取        通过随机抽取若干有代表性固网与移动端主流媒体来看,大多数页面布局均具备一定特征可循,正文在网页通常以两种方式来展现:               &nbs
记得知乎上有人把这个当做练习题发出来过,正好自己也进行过这方面的尝试,在这里把自己思路写下来,抛砖引玉。希望大家一起讨论。提取正文这件事可以很简单,也可以很复杂,跟你对它要求直接有关,要不要提取其中图片?要不要保留格式?这个程序是只针对一个网站还是要针对大部分乃至所有你想提取正文网站?如果你只想开发针对一个网站程序,那其实不管你对正文内容要求有多高相对也是比较容易,Beautiful
转载 2023-08-02 12:53:13
208阅读
做图像处理时,会遇到这样一个场景:找到图像主体轮廓,这是其一,可能为了凸显轮廓,需要用指定颜色进行标记;轮廓标记完可能任务还没有结束,还需对轮廓所勾勒像素面积区域统计计算。本篇文章主要内容就是要解决上面场景遇到三个问问题找到图像主题轮廓;用指定颜色对源图像进行轮廓标记;计算轮廓主体;实验环境配置为 Python + Opencv 3.4, 处理图像如下:第一步,提取轮廓,Opencv
前言在越来越多项目中,基本都用了 json 作为接口数据返回格式。json 给我们感觉就是通俗易懂,只是即使再复杂结构也会比其他格式容易看。然而一旦在调试或者测试需要用到提取某一部分字段数据进行解析并校验的话,就没那么容易了。这篇文章使用 python 简单地获取到复杂 json 数据字段信息。例子如果有一个接口返回 json 信息如下:{ "familyName": "thi
在实际研究,我们经常需要获取大量数据,而这些数据很大一部分以pdf表格形式呈现,如公司年报、发行上市公告等。面对如此多数据表格,采用手工复制黏贴方式显然并不可取。那么如何才能高效提取出pdf文件表格数据呢? Python提供了许多可用于pdf表格识别的库,如camelot、tabula、pdfplumber等。综合来看,pdfplumber库性能较佳,能提取出完整、且相对
返回值是一个列表re.findall(r'[(](.*?)[)]', str1) 
转载 2023-06-17 16:16:21
2769阅读
列表推导式#列表推导式 # 旧列表---》新列表(不管是之前还是之后,都是一个列表,只是列表推导式会经过一些条件筛选后形成新列表) ''' 1.列表推导式: 格式1:[返回东西 for 变量 in 旧列表] 格式2:[返回东西 for 变量 in 旧列表 if 条件] 字典推导式 集合推导式 ''' #求出列表中人名长度小于等于3元素,并添加到一个新列表
转载 2023-11-08 22:51:37
241阅读
最近在学爬虫,这里用实例来与大家分享一下我学习经验。这里讲一个爬取静态网页内容实例,Python一般利用正则表达式爬取静态静态网页内容,而且因为静态网页源代码固定,不会发生变化,所以比较简单,这里选内涵段子吧作为例子。内涵段子吧里段子分为很多页,大家可以点击每一页,观察一下网址变化给大家看一下网页内容(第六页):右击网页空白处,点击“查看网页源代码”:我们目标是把段子爬下来,可以发现
xlrd模块安装方法:pip install xlrd
转载 2021-02-05 10:53:00
354阅读
一文带你实现excel表格数据提取今天记录一下如何使用python提取Excel符合特定条件数据在数据处理和分析过程,我们经常需要从Excel表格中提取特定条件下数据。Pythonpandas库为我们提供了方便方法来进行数据查询和过滤。Pandas 是 Python 语言一个扩展程序库,用于数据分析。Pandas 是一个开放源码、BSD 许可库,提供高性能、易于使用数据结构和
示例:下面是一个简单示例,展示了pop()方法基本用法:fruits = ['apple', 'banana', 'cherry', 'durian'] removed_fruit = fruits.pop(1) print(fruits) # 输出 ['apple', 'cherry', 'durian'] print(removed_fruit) # 输出 'banana'在这个示例
  • 1
  • 2
  • 3
  • 4
  • 5