一、Python模块之RE模块一些可选值:re.I(全拼:ignorecase):忽略大小写re.M(全拼:multiline):多行模式,改变^和$的行为re.S(全拼:datall):点任意匹配模式,改变.的行为re.L(全拼locale):是预定字符串类\w \W \b \B \s \S取决于当前区域设定re.U(全拼:UNICODE): 使预定字符类 \w \W \b \B \s \S \
转载
2024-06-10 06:59:52
65阅读
简介re模块是python独有的匹配字符串的模块,该模块中提供的很多功能是基于正则表达式实现的,正则表达式是所有语言通用的。pattern在介绍re模块的方法之前,我们先来介绍一下pattern的概念。 pattern可以理解为一个匹配模式,那么我们怎么获得这个匹配模式呢?很简单,我们需要利用re.compile方法就可以 。例如pattern = re.compile(r'hello')使用pa
转载
2023-08-08 11:19:17
112阅读
Python中有join和os.path.join()两个函数,具体作用如下:join:连接字符串数组。将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串os.path.join(): 将多个路径组合后返回一、函数说明1.join()函数语法:‘sep’.join(seq)参数说明:sep:分隔符。可以为空seq:要连接的元素序列、字符串、元组、字典等
pandas基础操作Series类1 创建2 查找与切片3 增加删除4 数学运算DataFrame类1 构造和访问2 切片3 分析统计4 增删和修改5 文件操作分组求和 Series类series是以为表格,每个元素带有标签且有下标,兼具列表和字典的访问形式1 创建In [13]: import pandas as pd
In [14]: pd.Series(data=[80,90,100],
转载
2024-02-27 09:31:21
148阅读
简单的python爬虫 (二)上文我们说到了怎么爬到网页,但是其实我们最关心的还是怎得到我们需要的数据?上文链接 比如我们需要提取 相关文本 来确定安徽的疫情情况,也就是下图的正文部分网页分析我们首先需要知道这段文字在哪里 按 f12可以看到这里有3个 p标签,分别对应了三个段落 这里以一个p为例,打开p标签,刚好发现这里有很多span的标签,而每个span里面就是我们需要的文本 2020年 5
转载
2023-10-27 07:10:14
100阅读
话不多说,直接上代码,本代码采用的是鸢尾花数据集,来实现KNN算法import matplotlib.pyplot as plt
import matplotlib as mpl
import pandas as pd
import numpy as np
# 读取鸢尾花数据集,header参数来指定标题的行,默认是0,如果没有标题,参数设置为None
data = pd.read_csv(r"
转载
2023-11-28 07:19:16
13阅读
1、join()函数Python中有join()和os.path.join()两个函数,具体作用如下:join(): 连接字符串数组。将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串语法: 'sep'.join(seq)参数说明sep:分隔符。可以为空s
转载
2023-12-11 17:31:08
141阅读
# Python中的Span
pd.concat()pd.append()pd.merge利用matplotlib画图plot() 连续线图scatter() 散点图
转载
2024-06-03 12:14:37
63阅读
函数:string.join()
Python中有join()和os.path.join()两个函数,具体作用如下:
join(): 连接字符串数组。将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串
os.path.join(): 将多个路径组合后返回
一、函数说明
1、join(
转载
2024-03-13 19:53:32
57阅读
本文深度挖掘基于span预测的NER模型。在揭示span预测的模型效果优异之外,还从数个方面证明其可以作为一种system combiner的原因。结合丰富大量的实验,证明SpanNER是目前解决NER问题的sota方式。
原创
2021-07-13 11:26:08
974阅读
本文深度挖掘基于span预测的NER模型。在揭示span预测的模型效果优异之外,还从数个方面证明其可以作为一种system combiner的原因。结合丰富大量的实验,证明SpanNER是目前解决NER问题的sota方式。
原创
2022-01-25 15:29:03
279阅读
一、反射
python 中用字符串的方式操作对象的相关属性,python 中一切皆对象,都可以使用反射
用eval 有安全隐患,用 反射就很安全
1.反射对象中的属性和方法 class A:
a_class = '反射类静态属性'
@classmethod
def func_class(cls):
return '反射类方法'
def __
转载
2023-12-06 22:53:26
82阅读
之前工作在hive中会使用regxep代替re方法匹配字符串,利用Python的re模块也可以实现很多功能,需要在需求中慢慢掌握。今天需要记录的是使用re模块从日志数据中抽取出对应字段的值,是数据清洗很常见的工具。在之前的面试中有要求抽取数据,当时看到字段是{}组成,一直往字典方向思考。其实用re就能很快处理好。 re的常见命令:一、re通配符'.*?"Date":"(.*?)","'&
转载
2023-07-06 14:20:52
152阅读
首先查看下面的代码:1 #!/usr/bin/python
2 # -*- coding: UTF-8 -*-
3
4 import re
5
6
7 test_line = r'ab123abcABC456def789ggh' # 定义一个字符串变量test_line
8 aa = re.match(r'(?i
转载
2023-06-29 11:36:31
184阅读
Series基本概念及创建Series是带有标签的一维数组,可以保存任何数据类型(整数、字符串、浮点数、python对象等)import pandas as pd
import numpy as np
# 创建法一
s = pd.Series(np.random.rand(5))
# 查看数据 数据类型
print(s) print(type(s))
# 查看series索引
转载
2024-05-31 01:28:12
144阅读
Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能,此文中所有的功能都是基于BeautifulSoup这个包。1 Pyhton获取网页的内容(也就是源代码)page = urllib2.urlopen(url)
contents = page.read()
#获得了整个网页的内容也就是源代码
print(co
Python中的join()函数的用法: 函数:string.join()Python中有join()和os.path.join()两个函数,具体作用如下: join(): 连接字符串数组。将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串 os.path.joi
转载
2023-11-18 22:05:34
78阅读
# 使用Python的re模块抓取span标签内每一行的内容
在网页数据抓取的过程中,常常需要提取特定标签内的内容。在HTML文档中,标签``被广泛使用,通常用来标记一小段文本。本文将介绍如何使用Python中的正则表达式(re模块)抓取HTML文档中``标签内的每一行内容,并且会提供一些示例代码和数据可视化图表。
## 什么是正则表达式
正则表达式是一种文本模式,它用于匹配字符串中符合特定
re模块常用正则表达式符号'.' 默认匹配除\n之外的任意一个字符,若指定flagDOTALL,则匹配任意字符,包括换行'^'匹配字符开头,若指定flagsMULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)'$' 匹配字符结尾,或e.search("foo$","bfoo\nsdfsf",flags=re.MULTILIN
原创
2017-05-02 10:10:46
435阅读