csv spark 分隔符 pandas csv 分隔符

转载

mob6454cc641ffd 2023-07-31 23:46:55

pandas读取文本文件数据的常用方法：

1.read_csv

通过read_csv方法读取csv格式的数据文件

read_csv(filepath_or_buffer, sep='', delimiter=None, header='infer', names=None, index_col=None, usecols=None, **kwds)

参数：

filepath_or_buffer：字符串型，读取的文件对象，必填。
sep：字符串型，分隔符，选填，默认","。
delimiter：字符串型。定界符（备选分隔符），指定该参数，sep失效。
delim_whitespace：布尔型，是否指定空格或制表符作为分隔符，等效于sep=“\s+”，指定该参数，delimiter失效。
详解\s+：\s匹配任何空白符，等价于[\f\n\r\t\v]

通过read_fwf方法读取表格或固定宽度的文本行到数据框。

read_fwf(filepath_or_buffer, colspecs='infer', widths=None, **kwds)

参数：

跟read_csv中的大多相同。下面仅介绍read_fwf特有的参数。

示例：数据内容如下。

csv spark 分隔符 pandas csv 分隔符_csv spark 分隔符

import pandas as pd
fwf_data = pd.read_fwf('fwf_data', widths=[5, 5, 5, 5], names=['col1', 'col2', 'col3', 'col4'])
print(fwf_data)

csv spark 分隔符 pandas csv 分隔符_数据_02

通过read_table方法读取通用分隔符分割的数据文件到数据框。

read_table(filepath_or_buffer, sep='\t', delimiter=None, header='infer', names=None, index_col=None, usecols=None, **kwds)

参数：

与read_csv完全相同。其实read_csv是read_table中分隔符为逗号的一个特例。

示例数据内容如下：

csv spark 分隔符 pandas csv 分隔符_数据_03

import pandas as pd
table_data = pd.read_table('table_data.txt', sep=';', names=['col1', 'col2', 'col3', 'col4', 'col5'])
print(table_data)

csv spark 分隔符 pandas csv 分隔符_csv spark 分隔符_04

数据分割常分为两种：一种基于固定宽度，一种基于分割符号。即read_fwf和read_talbe。

方法	描述	返回数据
read_clipboard	读取剪切板数据，将对象传递给read_table方法	DataFrame或TextParser
read_excel	读取Excel数据	DataFrame或DataFrame构成的字典
read_gbq	从Google Bigquery中读取数据	DataFrame
read_hdf	读取文件中的pandas对象	所选择的数据对象
read_html	读取HTML中的表格	由DataFrame构成的字典
read_json	将json对象转换为Pandas对象	Series或DataFrame，具体取决于参数typ设置
read_msgpack	从指定文件中加载msgpack Pandas对象	文件中的对象类型
read_pickle	从指定文件中加载pickled Pandas或其他pickled对象	文件中的对象类型
read_sas	读取XPORT或SAS7BDAT格式的SAS（统计分析软件）文件	DataFrame或SAS7BDATReader或XportReader，具体取决于设置
read_sql	读取SQL请求或数据库中的表	DataFrame
read_sql_query	从SQL请求读取数据	DataFrame
read_sql_table	读取SQL数据库中的表	DataFrame
read_stata	读取Stata（统计分析软件）文件	DataFrame或StataReader