pip install langconv
#! /usr/bin/env python
# coding:utf8
# Create your views here.
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
from langconv.langconv import *
def _prodesc_delsytle(htmlstr):
try:
htmlstr=htmlstr.replace(""",'"')
htmlstr=htmlstr.replace("&",'&')
htmlstr=htmlstr.replace("<",'<')
htmlstr=htmlstr.replace(">",'>')
htmlstr=htmlstr.replace(" ",' ')
s=re.sub("<[^<>]+>",'',htmlstr)
return s
except:
return htmlstr
def _strQ2B(ustring):
"""全角转半角"""
rstring = ""
for uchar in ustring:
inside_code=ord(uchar)
if inside_code == 12288: #全角空格直接转换
inside_code = 32
elif (inside_code >= 65281 and inside_code <= 65374): #全角字符(除空格)根据关系转化
inside_code -= 65248
rstring += unichr(inside_code)
return rstring
def _strQ2B(ustring):
"""全角转半角"""
if "data:image/png;base64" in ustring or "data:image/gif;base64" in ustring or "data:image/jpeg;base64" in ustring or "data:image/x-icon;base64" in ustring:
return "None none"
ustring=ustring.replace(unichr(12288),unichr(32))
ustring=re.sub(u"[\uff01-\uff5e]",lambda i:unichr(ord(i.group(0))-65248),ustring)
return ustring
def content_handle(content):
"处理一个Unicode字符串"
# print "content----", type(content)
content=u'%s'%content
result=ConverterHandler("zh-hans")
result=result.convert(content) #繁体转简体
result= result.replace(" ","" ) #去空格
result=_strQ2B(result) #全角转半角
result=_prodesc_delsytle(result) #去html标签
return result
b='''飛機在亞洲的上空飛翔
import re
</div>1949年6月16日,<a target=_blank href="/view/5368861.htm">
新政协</a>筹备会决定成立国旗、国徽图案初选委员会,同年7月14日至8月15日在
《<a target=_blank href="/view/38274.htm">人民日报</a>》
等报纸发表征求启事。1949年9月<a target=_blank href="/view/244325.htm">
中国人民政治协商会议第一届全体会议</a>期间,
初选委员会从收到的3012幅图案中选出38幅印发全体代表讨论。
经全体代表分组讨论后,9月25日晚,
<a target=_blank href="/view/1689.htm">毛泽东</a>
主席召开<a target=_blank href="/subview/4040/10938361.htm">国旗</a>、
<a target=_blank href="/view/21625.htm">国徽</a>、
<a target=_blank href="/subview/4572/5397002.htm">国歌</a>、
<a target=_blank href="/view/43238.htm">纪年</a>、
<a target=_blank href="/view/620056.htm">国都</a>协商座谈会。
在关于国旗的讨论中,会议研究决定去除原设计稿中意识形态浓厚,
且与苏联国旗相仿的镰刀斧头标志。最后形成以红色为底色,四小星拱卫大星的五星红旗方案。</div>
<div class="para" label-module="para">毛泽东指出,
五星红旗这个图案表现革命人民<a target=_blank href="/view/347689.htm">大团</a>
<a target=_blank href="/view/287677.htm">结</a>,
因此,又是团结,又是革命。<sup>[1]</sup><a class="sup-anchor" name="ref_[1]_9304"> </a>
</div>'''
print content_handle(b)
>>
飞机在亚洲的上空飞翔
import re
1949年6月16日,新政协筹备会决定成立国旗、国徽图案初选委员会,同年7月14日至8月15日在《人民日报》
等报纸发表征求启事。1949年9月中国人民政治协商会议第一届全体会议期间,
初选委员会从收到的3012幅图案中选出38幅印发全体代表讨论。
经全体代表分组讨论后,9月25日晚,毛泽东主席召开国旗、国徽、国歌、纪年、国都协商座谈会。
在关于国旗的讨论中,会议研究决定去除原设计稿中意识形态浓厚,
且与苏联国旗相仿的镰刀斧头标志。最后形成以红色为底色,四小星拱卫大星的五星红旗方案。
毛泽东指出,五星红旗这个图案表现革命人民大团结,因此,又是团结,又是革命。[1]
pip install langconv
#! /usr/bin/env python
# coding:utf8
# Create your views here.
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
from langconv.langconv import *
def _prodesc_delsytle(htmlstr):
try:
htmlstr=htmlstr.replace(""",'"')
htmlstr=htmlstr.replace("&",'&')
htmlstr=htmlstr.replace("<",'<')
htmlstr=htmlstr.replace(">",'>')
htmlstr=htmlstr.replace(" ",' ')
s=re.sub("<[^<>]+>",'',htmlstr)
return s
except:
return htmlstr
def _strQ2B(ustring):
"""全角转半角"""
rstring = ""
for uchar in ustring:
inside_code=ord(uchar)
if inside_code == 12288: #全角空格直接转换
inside_code = 32
elif (inside_code >= 65281 and inside_code <= 65374): #全角字符(除空格)根据关系转化
inside_code -= 65248
rstring += unichr(inside_code)
return rstring
def _strQ2B(ustring):
"""全角转半角"""
if "data:image/png;base64" in ustring or "data:image/gif;base64" in ustring or "data:image/jpeg;base64" in ustring or "data:image/x-icon;base64" in ustring:
return "None none"
ustring=ustring.replace(unichr(12288),unichr(32))
ustring=re.sub(u"[\uff01-\uff5e]",lambda i:unichr(ord(i.group(0))-65248),ustring)
return ustring
def content_handle(content):
"处理一个Unicode字符串"
# print "content----", type(content)
content=u'%s'%content
result=ConverterHandler("zh-hans")
result=result.convert(content) #繁体转简体
result= result.replace(" ","" ) #去空格
result=_strQ2B(result) #全角转半角
result=_prodesc_delsytle(result) #去html标签
return result
b='''飛機在亞洲的上空飛翔
import re
</div>1949年6月16日,<a target=_blank href="/view/5368861.htm">
新政协</a>筹备会决定成立国旗、国徽图案初选委员会,同年7月14日至8月15日在
《<a target=_blank href="/view/38274.htm">人民日报</a>》
等报纸发表征求启事。1949年9月<a target=_blank href="/view/244325.htm">
中国人民政治协商会议第一届全体会议</a>期间,
初选委员会从收到的3012幅图案中选出38幅印发全体代表讨论。
经全体代表分组讨论后,9月25日晚,
<a target=_blank href="/view/1689.htm">毛泽东</a>
主席召开<a target=_blank href="/subview/4040/10938361.htm">国旗</a>、
<a target=_blank href="/view/21625.htm">国徽</a>、
<a target=_blank href="/subview/4572/5397002.htm">国歌</a>、
<a target=_blank href="/view/43238.htm">纪年</a>、
<a target=_blank href="/view/620056.htm">国都</a>协商座谈会。
在关于国旗的讨论中,会议研究决定去除原设计稿中意识形态浓厚,
且与苏联国旗相仿的镰刀斧头标志。最后形成以红色为底色,四小星拱卫大星的五星红旗方案。</div>
<div class="para" label-module="para">毛泽东指出,
五星红旗这个图案表现革命人民<a target=_blank href="/view/347689.htm">大团</a>
<a target=_blank href="/view/287677.htm">结</a>,
因此,又是团结,又是革命。<sup>[1]</sup><a class="sup-anchor" name="ref_[1]_9304"> </a>
</div>'''
print content_handle(b)
>>
飞机在亚洲的上空飞翔
import re
1949年6月16日,新政协筹备会决定成立国旗、国徽图案初选委员会,同年7月14日至8月15日在《人民日报》
等报纸发表征求启事。1949年9月中国人民政治协商会议第一届全体会议期间,
初选委员会从收到的3012幅图案中选出38幅印发全体代表讨论。
经全体代表分组讨论后,9月25日晚,毛泽东主席召开国旗、国徽、国歌、纪年、国都协商座谈会。
在关于国旗的讨论中,会议研究决定去除原设计稿中意识形态浓厚,
且与苏联国旗相仿的镰刀斧头标志。最后形成以红色为底色,四小星拱卫大星的五星红旗方案。
毛泽东指出,五星红旗这个图案表现革命人民大团结,因此,又是团结,又是革命。[1]