Python数据存储 MangoDB Python数据存储在哪里

转载

mob64ca1402665b 2024-01-08 13:51:52

文章标签 Python数据存储 MangoDB python json 字符串 bc 文章分类 Python 后端开发

1、对文件的基本操作

Python提供了内置支持来实现文本文件的打开、处理和关闭。

①、文件的打开

利用函数open，该函数有多种模式，但是主要功能是打开一个文件，并返回一个“流”。流可以认为是文件的一个别名，流的内容就是文件的内容。open函数是python的内置函数。

open函数有两个参数，第一个参数是要打开的文件名，第二个参数是可选的。如果不选择使用第二参数，那么第二参数默认为'r'。

第二参数有以下几个值：

r：读数据，假设文件已经存在；

w：写数据，如果文件已经含有数据，那就全删了再写，注意open函数本身不实现写这一功能，它只是告诉计算机我要对该文件实现写这一操作；

a：追加数据，保留文件原有内容，向末尾加入新数据；

x：打开一个新文件来写数据，若文件已存在则失败。

②、文件的处理

主要是文件的写入和读取。写入使用print函数，读取使用read、readline、readlines函数。read类函数是文件流这个类特有的函数。

print函数在写入文件时，需要两个参数：第一个是写入内容，第二个是要写入的文件名，以file=name形式输入。

注意，只有在open的参数为w、a或x的情况下才可以写数据，若参数为r或无参数，会报错如下：

Python数据存储 MangoDB Python数据存储在哪里_python

not writable，说明不可写。

上面也说明了，若使用print显示文件流，会是什么样子，它会显示文件的属性，而不是文件的内容。

read函数会一次性输出文件的所有内容。它要求open的参数为r或无参数，否则报错如下：

Python数据存储 MangoDB Python数据存储在哪里_python_02

not readable，说明不可读。

read调用后的效果如下：

Python数据存储 MangoDB Python数据存储在哪里_字符串_03

可以看出，输出了所有内容。

readline调用后的效果如下：

Python数据存储 MangoDB Python数据存储在哪里_bc_04

可以看出，仅输出了第一行。

readlines调用后的效果如下：

Python数据存储 MangoDB Python数据存储在哪里_python_05

乍看上去，和read的效果差不多，但是readlines是返回一个列表，列表元素是字符串，字符串内容是每一行的文本；而read则直接返回一个长字符串，每行之间的文本用换行符隔开。简而言之，就是返回类型不同。

除了这三个之外，我们还可以用print来显示内容，但不能直接输出文件流，而是要利用循环，如下：

Python数据存储 MangoDB Python数据存储在哪里_Python数据存储 MangoDB_06

对文件流进行循环输出，每次输出一行。注意print默认换行，文件中每行末尾也有换行符，因此会出现两行之间隔一行的情况。为了消除这个换行符，可以在print中加入第二个参数end，效果如下：

Python数据存储 MangoDB Python数据存储在哪里_python_07

默认end为'\n'，现在将end改为空，就不会输出多余的换行了。

③、文件的关闭

使用close函数。close函数是文件流这个类特有的函数。

一定注意，在对文件修改处理之后使用close函数关闭文件。每一个open一定有一个close对应。不使用close函数很可能导致文件内容的丢失。

④、with语句

由以上可知，每个open必须对应一个close，太麻烦了，可以使用with语句简化。

with的主要作用有两个：第一是代替open给出一个文件流，第二个是在with下面的代码段运行完毕之后执行close函数。

也就是说，with与for、if等类似，也需要在后面加一个冒号:，也有代码段。

with的应用举例如下：

Python数据存储 MangoDB Python数据存储在哪里_python_08

因此，使用with就不用去管close了。with符合python内置的一个编码约定，即“上下文管理协议”。

2、练习

为之前的web应用增加一个功能：记录日志。

简而言之，就是实现以下功能：记录所有该网页的输入与输出并保存。

考虑一下，输入是保存在flask返回的一个对象中的，输出就是search4letters的结果，那么代码应该如下：

def log_request(req:'flask_request',res:str)->None:
    with open('vsearch.log','a') as log:
        print(req,res,file=log)

好，定义了一个函数log_request，输入有两个，一个是req，一个是res，按注解来看，req的类型是“flask的返回值”，res的类型是字符串，而输出为none。

这样一来，就把网页的输入和输出记录下来的。

下面来看实际效果。

在网页中输入三个测试用例后，后台生成了名为vsearch.log的文件，该文件位于py文件的同一文件夹。内容如下：

<Request 'http://127.0.0.1:5000/search4' [POST]> {'i', 'e'}
<Request 'http://127.0.0.1:5000/search4' [POST]> {'i', 'a', 'u', 'e'}
<Request 'http://127.0.0.1:5000/search4' [POST]> {'x', 'y'}

好像并不十分理想。是不是因为我们是直接打开该文件导致的呢？

为解决这一问题，要写一个读取函数实现在浏览器上读取日志文件的功能。

回忆一下，使用读取功能，要用open，参数应该是r或默认，使用read函数读取内容。

好，那么读取函数就可以写出来了。为其分配一个url为viewlog。如下：

@app.route('/viewlog')
def view_the_log()->str:
    with open('vsearch.log') as log:#with 不具有循环功能
        contents=log.read()
    return contents

然后进入viewlog网页，其显示效果如下：

Python数据存储 MangoDB Python数据存储在哪里_字符串_09

得了，显示的信息还没之前多，只显示了输出，输入怎么不显示呢？

看来我们的推断一定程度上时正确的——由于直接打开日志文件导致显示出现了不同，但是对的不多，因为使用浏览器打开的效果更差了。为什么呢？去看网页接受的原始数据吧。也就是右键——查看源代码。效果如下：

Python数据存储 MangoDB Python数据存储在哪里_字符串_10

看起来和源文件中的一样，只是尖括号里面的内容被高亮成了红色。这说明并不是我们的打开方式有问题，而是这内容本身有问题。问题出在哪呢？

首先，这高亮的红色看起来就不善。应该是有错。注意，在源代码中，浏览器会将<>中的内容当做一个html标签，回忆一下之前写的网页，的确是这样。然而，这一长串Request http什么的，它就不是一个标签，浏览器不认识，于是高亮显示。实际上我们也很无辜，它默认是用<>来标识返回值的，要和浏览器消除这个误会。也就是说，告诉浏览器，这个<>里面不是标签，而是我们要的内容。Flask有函数可以做到这一点。这被称作转义，我们都接触过，在最开始写c的时候，在print中输出%，不能只打一个%，而是要打两个%%，否则会出错，这就是转义。

转义可以看做是一种脱敏过程。使用的函数是escape，其效果是把敏感的字符全换成另外一种字符。我们在得到contents之后，对其使用escape，效果如下：

<Request 'http://127.0.0.1:5000/search4' [POST]> {'i', 'e'} 
<Request 'http://127.0.0.1:5000/search4' [POST]> {'i', 'a', 'u', 'e'} 
<Request 'http://127.0.0.1:5000/search4' [POST]> {'x', 'y'}

可以看到，<>中的内容正确显示出来，但还是没什么用，这不是我们要的输入啊。

源代码如下：

<Request 'http://127.0.0.1:5000/search4' [POST]> {'i', 'e'}
<Request 'http://127.0.0.1:5000/search4' [POST]> {'i', 'a', 'u', 'e'}
<Request 'http://127.0.0.1:5000/search4' [POST]> {'x', 'y'}

可以看到，所有的<>{}都被转义了，说明escape正常工作。那么问题就出在内容里了：我们记录的输入有问题。

回顾上文，我们记录的输入是Flask的返回值（应该是返回的对象），实际上，这就是“在对象层次上记录web请求”，而并没有深入到请求内部，只是把这个请求的名字记录下来了，但这没什么用。要想让它有用，要调用另外一个函数，dir。

dir函数的参数是一个对象，会返回这个对象的属性、方法列表。也就是把这个对象的内容显示出来，试一试在日志文件中写入返回对象的dir吧。注意，dir返回的不是一个字符串，要用str函数转成字符串，代码如下：

def log_request(req:'flask_request',res:str)->None:
    with open('vsearch.log','a') as log:
        print(str(dir(req)),res,file=log)

其显示效果如下（注意重启app并重新进行三次输入）：

<Request 'http://127.0.0.1:5000/search4' [POST]> {'i', 'e'} <Request 
'http://127.0.0.1:5000/search4' [POST]> {'i', 'a', 'u', 'e'} <Request 
'http://127.0.0.1:5000/search4' [POST]> {'x', 'y'} ['__class__', '__delattr__', 
'__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', 
'__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', 
'__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', 
'__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', 
'_cached_json', '_get_data_for_json', '_get_file_stream', '_get_stream_for_parsing', 
'_load_form_data', '_parse_content_type', 'accept_charsets', 'accept_encodings', 
'accept_languages', 'accept_mimetypes', 'access_route', 'application', 'args', 
'authorization', 'base_url', 'blueprint', 'cache_control', 'charset', 'close', 
'content_encoding', 'content_length', 'content_md5', 'content_type', 'cookies', 'data', 
'date', 'dict_storage_class', 'disable_data_descriptor', 'encoding_errors', 'endpoint', 
'environ', 'files', 'form', 'form_data_parser_class', 'from_values', 'full_path', 
'get_data', 'get_json', 'headers', 'host', 'host_url', 'if_match', 'if_modified_since', 
'if_none_match', 'if_range', 'if_unmodified_since', 'input_stream', 'is_json', 
'is_multiprocess', 'is_multithread', 'is_run_once', 'is_secure', 'is_xhr', 'json', 
'list_storage_class', 'make_form_data_parser', 'max_content_length', 
'max_form_memory_size', 'max_forwards', 'method', 'mimetype', 'mimetype_params', 
'on_json_loading_failed', 'parameter_storage_class', 'path', 'pragma', 'query_string', 
'range', 'referrer', 'remote_addr', 'remote_user', 'routing_exception', 'scheme', 
'script_root', 'shallow', 'stream', 'trusted_hosts', 'url', 'url_charset', 'url_root', 
'url_rule', 'user_agent', 'values', 'view_args', 'want_form_data_parsed'] {'i', 'e'} 
['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', 
'__exit__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', 
'__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', 
'__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', 
'__subclasshook__', '__weakref__', '_cached_json', '_get_data_for_json', 
'_get_file_stream', '_get_stream_for_parsing', '_load_form_data', '_parse_content_type', 
'accept_charsets', 'accept_encodings', 'accept_languages', 'accept_mimetypes', 
'access_route', 'application', 'args', 'authorization', 'base_url', 'blueprint', 
'cache_control', 'charset', 'close', 'content_encoding', 'content_length', 
'content_md5', 'content_type', 'cookies', 'data', 'date', 'dict_storage_class', 
'disable_data_descriptor', 'encoding_errors', 'endpoint', 'environ', 'files', 'form', 
'form_data_parser_class', 'from_values', 'full_path', 'get_data', 'get_json', 'headers', 
'host', 'host_url', 'if_match', 'if_modified_since', 'if_none_match', 'if_range', 
'if_unmodified_since', 'input_stream', 'is_json', 'is_multiprocess', 'is_multithread', 
'is_run_once', 'is_secure', 'is_xhr', 'json', 'list_storage_class', 
'make_form_data_parser', 'max_content_length', 'max_form_memory_size', 'max_forwards', 
'method', 'mimetype', 'mimetype_params', 'on_json_loading_failed', 
'parameter_storage_class', 'path', 'pragma', 'query_string', 'range', 'referrer', 
'remote_addr', 'remote_user', 'routing_exception', 'scheme', 'script_root', 'shallow', 
'stream', 'trusted_hosts', 'url', 'url_charset', 'url_root', 'url_rule', 'user_agent', 'values', 'view_args', 'want_form_data_parsed'] {'u', 'i', 'a', 'e'} ['__class__', 
'__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', 
'__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', 
'__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', 
'__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', 
'__subclasshook__', '__weakref__', '_cached_json', '_get_data_for_json', 
'_get_file_stream', '_get_stream_for_parsing', '_load_form_data', '_parse_content_type', 
'accept_charsets', 'accept_encodings', 'accept_languages', 'accept_mimetypes', 
'access_route', 'application', 'args', 'authorization', 'base_url', 'blueprint', 
'cache_control', 'charset', 'close', 'content_encoding', 'content_length', 
'content_md5', 'content_type', 'cookies', 'data', 'date', 'dict_storage_class', 
'disable_data_descriptor', 'encoding_errors', 'endpoint', 'environ', 'files', 'form', 
'form_data_parser_class', 'from_values', 'full_path', 'get_data', 'get_json', 'headers', 
'host', 'host_url', 'if_match', 'if_modified_since', 'if_none_match', 'if_range', 
'if_unmodified_since', 'input_stream', 'is_json', 'is_multiprocess', 'is_multithread', 
'is_run_once', 'is_secure', 'is_xhr', 'json', 'list_storage_class', 
'make_form_data_parser', 'max_content_length', 'max_form_memory_size', 'max_forwards', 
'method', 'mimetype', 'mimetype_params', 'on_json_loading_failed', 
'parameter_storage_class', 'path', 'pragma', 'query_string', 'range', 'referrer', 
'remote_addr', 'remote_user', 'routing_exception', 'scheme', 'script_root', 'shallow', 
'stream', 'trusted_hosts', 'url', 'url_charset', 'url_root', 'url_rule', 'user_agent', 
'values', 'view_args', 'want_form_data_parsed'] {'y', 'x'}

额，效果看上去不怎么好。。。

这是因为dir会把对象的所有属性和方法都列出来，但实际上，我们仅需要其中某一个属性，不需要所有的。

通过筛选，我们选出了三个需要的属性：

req.form,req.remote_addr,req.user_agent；

分别对应从web应用的html表单提交的数据，也就是输入；运行webapp的浏览器的IP地址；以及所使用的浏览器的标识。为了一次性写入这三项数据，使用print如下：

def log_request(req:'flask_request',res:str)->None:
    with open('vsearch.log','a') as log:
        print(req.form,req.remote_addr,req.user_agent,res,file=log,sep='|')

注意最后的sep，这是分隔符，即使用|分隔各项数据，效果如下：

ImmutableMultiDict([('phrase', 'hitch-hiker'), ('letters', 'aeiou')])|127.0.0.1|Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36|{'i', 'e'} 
ImmutableMultiDict([('phrase', 'life,the universe,and everything'), ('letters', 'aeiou')])|127.0.0.1|Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36|{'i', 'u', 'e', 'a'} 
ImmutableMultiDict([('phrase', 'galaxy'), ('letters', 'xyz')])|127.0.0.1|Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36|{'x', 'y'}

有点乱，尽管使用了|作为分隔符，但还是难以看出各部分的内容。如果能够将其以一个表的形式显示就好了。

现在来看一下，我们有什么？有一个字符串，其中保存了各项数据，各项数据之间用|分隔开。如果我们能有一种方法，把两个|中间的内容当做一个元素，建立一个二维数组保存这些元素就好了。

有这样一个函数，split，它是字符串这一对象的一个方法。它的输入是一个字符，即所谓的分隔符，而输出则是一个列表，将字符串按分隔符分成多份，保存在一个字符串列表中返回。

有了这个函数就很简单了，对于日志中的每一行，调用split，返回列表，然后将这个列表保存为一个二维列表的一项即可。

代码如下：

@app.route('/viewlog')
def view_the_log()->str:
    contents=[]
    with open('vsearch.log') as log:#with 不具有循环功能
        for line in log:
            contents.append([])
            for item in line.split('|'):
                contents[-1].append(escape(item))
   return str(contents)

观察这个函数，在调用该函数时，首先建立一个空列表contents，然后打开日志文件，按行读取，对于每一行的内容line，在contents后新建一个子列表，然后对line调用split，将line的内容按|分隔为一个个元素，返回一个列表，循环遍历该列表，将列表的每一项脱敏，利用append加到contents的最后一项上。

为了看清这个二维列表是如何建立的，要注意append的两次调用。第一次是在二维列表中添加一行空行，第二次是在这个空行后添加一项元素。

其效果如下：

[[Markup('ImmutableMultiDict([('phrase', 'galaxy'), ('letters', 'xyz')])'), Markup('127.0.0.1'), Markup('Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'), Markup('{'y', 'x'}\n')], 
[Markup('ImmutableMultiDict([('phrase', 'life,the universe,and everything'), ('letters', 'aeiou')])'), Markup('127.0.0.1'), Markup('Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'), Markup('{'e', 'a', 'u', 'i'}\n')], 
[Markup('ImmutableMultiDict([('phrase', 'hitch-hiker'), ('letters', 'aeiou')])'), Markup('127.0.0.1'), Markup('Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'), Markup('{'e', 'i'}\n')]]

可以看出，比原来多了几个小括号。这说明它已经成了一个二维列表了。但是看起来还不是很容易。

为了提高可读性，我们要写一个网页来正确显示这个二维列表。html提供了一组标记来定义我们这样的二维表格：

<table>：一个表格、<th>：一个表格的列标题、<td>：一个表格数据、<tr>：一行表格数据。

我们的重点并不是学习html，因此直接给出成品代码：

{% extends 'base.html' %}
{% block body %}

<h2>{{ the_title }}</h2>
<table>
	<tr>
		{% for row_title in the_row_titles %}
			<th>{{row_title}}</th>
		{% endfor %}
	</tr>
		{% for log_row in the_data %}
			<tr>
				{% for item in log_row %}
					<td>{{item}}</td>
				{% endfor %}
			</tr>
		{% endfor %}
</table>

{% endblock %}

但是可以解释一下上述代码。

首先，我们要把表格元素放在<table>标记中。

然后，初始化第一行。使用<tr>标记表明这是一行数据。使用for开始一个循环。使用<th>标记表明这行数据都是列标题。

接着，循环读取日志文件的每一行。在循环体内，使用<tr>标记表明这是一行数据。继续一个循环，读取每一行中的每一项，使用<td>标记表明这是一个数据项。

最后结束各循环并完成表格。

观察上述代码，有以下几个参数：

the_title、the_row_titles、the_data，分别对应表的标题、每列的标题、每项的名字。

因此在app的代码中我们要给该模板传入这些参数。代码如下：

@app.route('/viewlog')
def view_the_log()->str:
    contents=[]
    with open('vsearch.log') as log:#with 不具有循环功能
        for line in log:
            contents.append([])
            for item in line.split('|'):
                contents[-1].append(escape(item))
    #return str(contents)
    titles=('Form Data','Remote_addr','User_agent','Results')
    return render_template('viewlog.html',
                           the_title='View Log',
                           the_row_titles=titles,
                           the_data=contents,)

可以看出，这三个参数已经传入，有两个是直接赋值的，the_data则是contents。

其效果如下：

Python数据存储 MangoDB Python数据存储在哪里_python_11