这是一个不断更新的博客… 文章目录np.mean(data, axis=0)函数np.dot()函数np.hstack(tup)X.dot(a)itertools.permutationsnumpy.squeeze()函数.get()函数用法import seaborn as snsimport joblib #python中模型的保存和再使用import tensorflow as tf #开源
转载
2023-07-06 17:29:10
142阅读
1 题目一 找出数组中重复的数字1.1 描述在一个长度为n的数组里的所有数字都在0到n-1的范围内。数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次。请找出数组中任意一个重复的数字。例如,如果输入长度为7的数组 {2, 3, 1, 0, 2, 5, 3},那么对应的输出是重复的数字2或者3。1.2 题解方法一将输入的数组排序。从排序的数组中找出重0的数字,只需从头到尾扫
转载
2023-08-24 01:10:54
180阅读
Python爬虫学习之数据提取XPath概述常用规则运算符及介绍准备工作实例文本获取属性获取属性值匹配属性多值匹配多属性匹配按序选择 概述XPath的全称是XML Path Language, 即XML路径语言,用来在XML文档中查找信息。虽然最初是用来搜寻XML文档的,但是同样适用于HTML文档的搜索。常用规则表达式描述nodename选取此节点的所有子节点/从当前节点选取直接子节点//从当前
转载
2023-11-27 00:31:30
80阅读
文章目录一、实例二、解决思路三、代码示例 一、实例将以下列表的backup_unit_id全部提取出来 示例:dbs = [{
"backup_unit_id": 163,
"data_node_id": 2,
"attribute": {
"convertor_id": 4,
"channel_num": 2,
"sga": "90G"
}
},
{
转载
2023-06-09 23:51:54
837阅读
import re
totalCount = '100abc'
totalCount = re.sub("\D", "", totalCount)
print(totalCount)
>>> 100 re.sub(pattern, repl, string, count=0, flags=0)解析:在字符串string中找到匹配正则表达式pattern的所有子串,用另一
转载
2023-06-18 22:57:53
166阅读
前言开发爬虫是一件有趣的事情。写一个程序,对感兴趣的目标网站发起HTTP请求,获取HTML,解析HTML,提取数据,将数据保存到数据库或者存为CSV、JSON等格式,再用自己熟悉的语言例如Python对这些数据进行分析生成酷炫的图表。这个过程是不是很兴奋?然而,开发爬虫并不是一件简单的事情。通常开发一个简单爬虫往往需要编写好几个模块:下载器、解析器、提取规则、保存模块。实现这个简单爬虫用P
转载
2023-08-23 17:43:03
622阅读
项目简介开源地址:https://github.com/YaoFANGUK/video-subtitle-extractorVideo-subtitle-extractor (vse) 是一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件。 主要实现了以下功能:提取视频中的关键帧检测视频帧中文本的所在位置识别视频帧中文本的内容过滤非字幕区域的文本,去除水印(台标)文本去除重复字幕行,生成s
转载
2024-01-06 19:48:32
38阅读
python内置了一系列的常用函数,英文官方文档详细说明:https://docs.python.org/3/library/functions.html以下是Python3版本所有的内置函数: 1. abs() 获取绝对值>>> abs(-10)
10
>>> abs(10)
10
>>> abs(0)
0
>>>
转载
2023-09-20 09:50:24
40阅读
1.升级Python之前win10 x64操作系统上安装的是python3.7.0版本(此版本也能进行本文的工作)。出于后续识别图片中文字的需要,还是将其升级到了python 3.8版本。Python官方下载地址 并不用卸载旧的 python3.7.0版本,在官网下载python-3.8.10-amd64.exe文件后,安装,将安装目录添加至Path环境变量。同时屏蔽(或删除)之前 python3
转载
2023-06-10 18:25:33
867阅读
网页正文提取 通过随机抽取若干有代表性的固网与移动端的主流媒体来看,大多数的页面布局均具备一定特征可循,正文在网页中通常以两种方式来展现: &nbs
转载
2023-06-30 11:19:46
193阅读
记得知乎上有人把这个当做练习题发出来过,正好自己也进行过这方面的尝试,在这里把自己的思路写下来,抛砖引玉。希望大家一起讨论。提取正文这件事可以很简单,也可以很复杂,跟你对它的要求直接有关,要不要提取其中的图片?要不要保留格式?这个程序是只针对一个网站还是要针对大部分乃至所有你想提取正文的网站?如果你只想开发针对一个网站的程序,那其实不管你对正文内容的要求有多高相对也是比较容易的,Beautiful
转载
2023-08-02 12:53:13
208阅读
做图像处理时,会遇到这样一个场景:找到图像主体轮廓,这是其一,可能为了凸显轮廓,需要用指定的颜色进行标记;轮廓标记完可能任务还没有结束,还需对轮廓所勾勒的像素面积区域统计计算。本篇文章的主要内容就是要解决上面场景遇到的三个问问题找到图像主题轮廓;用指定颜色对源图像进行轮廓标记;计算轮廓中的主体;实验环境配置为 Python + Opencv 3.4, 处理的图像如下:第一步,提取轮廓,Opencv
转载
2023-09-05 20:17:14
382阅读
前言在越来越多的项目中,基本都用了 json 作为接口数据返回的格式。json 给我们的感觉就是通俗易懂,只是即使再复杂的结构也会比其他格式容易看。然而一旦在调试或者测试中需要用到提取某一部分字段数据进行解析并校验的话,就没那么容易了。这篇文章使用 python 简单地获取到复杂 json 数据中的字段信息。例子如果有一个接口返回的 json 信息如下:{
"familyName": "thi
转载
2023-08-17 09:14:44
240阅读
在实际研究中,我们经常需要获取大量数据,而这些数据很大一部分以pdf表格的形式呈现,如公司年报、发行上市公告等。面对如此多的数据表格,采用手工复制黏贴的方式显然并不可取。那么如何才能高效提取出pdf文件中的表格数据呢? Python提供了许多可用于pdf表格识别的库,如camelot、tabula、pdfplumber等。综合来看,pdfplumber库的性能较佳,能提取出完整、且相对
转载
2023-12-26 19:56:40
154阅读
返回值是一个列表re.findall(r'[(](.*?)[)]', str1)
转载
2023-06-17 16:16:21
2769阅读
列表推导式#列表推导式
# 旧的列表---》新的列表(不管是之前还是之后,都是一个列表,只是列表推导式会经过一些条件筛选后形成新的列表)
'''
1.列表推导式: 格式1:[返回的东西 for 变量 in 旧列表]
格式2:[返回的东西 for 变量 in 旧列表 if 条件]
字典推导式
集合推导式
'''
#求出列表中人名长度小于等于3的元素,并添加到一个新列表
转载
2023-11-08 22:51:37
241阅读
最近在学爬虫,这里用实例来与大家分享一下我学习的经验。这里讲一个爬取静态网页内容的实例,Python一般利用正则表达式爬取静态静态网页的内容,而且因为静态网页源代码固定,不会发生变化,所以比较简单,这里选内涵段子吧作为例子。内涵段子吧里的段子分为很多页,大家可以点击每一页,观察一下网址的变化给大家看一下网页的内容(第六页):右击网页空白处,点击“查看网页源代码”:我们的目标是把段子爬下来,可以发现
转载
2024-03-13 11:06:58
133阅读
xlrd模块安装方法:pip install xlrd
转载
2021-02-05 10:53:00
354阅读
一文带你实现excel表格的数据提取今天记录一下如何使用python提取Excel中符合特定条件的数据在数据处理和分析的过程中,我们经常需要从Excel表格中提取特定条件下的数据。Python的pandas库为我们提供了方便的方法来进行数据查询和过滤。Pandas 是 Python 语言的一个扩展程序库,用于数据分析。Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和
转载
2024-06-12 23:35:52
84阅读
示例:下面是一个简单的示例,展示了pop()方法的基本用法:fruits = ['apple', 'banana', 'cherry', 'durian']
removed_fruit = fruits.pop(1)
print(fruits) # 输出 ['apple', 'cherry', 'durian']
print(removed_fruit) # 输出 'banana'在这个示例中
转载
2024-07-05 20:26:46
28阅读