Python脚本实例 包括xml,json,http,编码


Posted in  Python -  4 五月 2009 - No comment


这几天在研究python相关的一些东西,其中涉及的内容包括:

xml的解析,json的解析,urllib的使用,urllib的使用,python中中文编码的问题等

项目托管在Google上,地址是http://code.google.com/p/ipmobile/source/checkout

当然一切都来源于实际工作嘛,首先引入缘由,情景是这样的:

有一个Excel表格,有注册日期,用户ID,注册IP,注册手机号这几个字段,
但现在需要获取注册IP所在的地址 以及手机号所属地区等信息,
并根据这些信息进行分类统计等工作

当然如果在没有编码人员介入的情况下,
需要一个个的到一些网络上的页面上查出地址的信息,然后填到excel里,
而这完全是重复劳动,完全可以抽象并做出系统,在没有人力进行系统开发的情况下,
可以使用简单的脚本进行替代,
本文中,本人使用python脚本进行了相关研究和实验性的工作.用Python写出的代码的可读性非常的高的
首先是一个简单的例子使用过的是有道的接口获取IP和手机号码的地址的


#!/usr/bin/env python
#coding=utf-8
"""
 getinfo.py
 Created by Luke on 2009-04-29.
 Copyright (c) 2009 Alibaba. All rights reserved.
 """

import urllib
from xml2dict import XML2Dict
import codecs


def gbk2utf8(xml):
     return xml.decode("gbk").encode("utf8").replace('gbk', 'utf-8');

def get_ip_info(ip):
     url="http://www.yodao.com/smartresult-xml/search.s?type=ip&q=%s"%ip
     return  gbk2utf8(urllib.urlopen(url).read())

def get_mobile_info(mobile):
     url="http://www.yodao.com/smartresult-xml/search.s?type=mobile&q=%s"%mobile
     return gbk2utf8(urllib.urlopen(url).read())


def main():
     fr = open('x.csv')
     wr = codecs.open('y.csv','w','gbk')
     xml = XML2Dict()
     for line in fr.readlines():
         line = line.rstrip('n')
         items = line.split(',')
         ip_item = items[2]
         mobile_item = items[3]
         ip_dict = xml.fromstring(get_ip_info(ip_item))
         mobile_dict = xml.fromstring(get_mobile_info(mobile_item))
         new_line=''
        if ip_dict.smartresult!=None:
             new_line = items[0]+','+items[1]+','+items[2]+','
                                         +ip_dict.smartresult.product.location.encode("gbk")
         else:
             new_line = items[0]+','+items[1]+','+items[2]+','
        if mobile_dict.smartresult!=None:
             new_line = new_line+','+items[3]+','
                                         +mobile_dict.smartresult.product.location.encode("gbk")+'n'
        else:
             new_line = new_line+','+items[3]+','+'n'
        print new_line.decode("gbk")
         wr.write(new_line.decode("gbk"))
     fr.close();
     wr.close();


if __name__ == '__main__':
     main()


这段代码从有道那获得的结果是xml编码格式为gbk的,所以在编码上我将其先转换成utf8的,然后再通过xml2dict将其转换成Python的字典结构,这样我就可以直接读取节点的值了.
这段代码还使用了urllib模块还有读文件写文件的相关知识点,总体来说还是很简单的,主要就是字符串的拼接了,这里的文件格式都是csv的很容易就可以编程excel的格式

但是问题来了,有的IP地址在有道这里查不出来,而在ip138这个网站上可以查出来,后来试了好多,发现IP138的数据库的数据貌似全一些,但是IP138没有提供任何数据读取的API,那怎么办呢?嘿嘿,那就用最那个的办法了,在脚本里解析使用正则表达式处理html,解析出想要的结果,代码如下:

"""
 ip138poster.py
 Created by Luke on 2009-05-04.
 Copyright (c) 2009 Alibaba. All rights reserved.
 """

import httplib,urllib;  #加载模块import re

class Ip138Poster:

     def __init__(self):
         #定义一些文件头        self.headers = {"Content-Type":"application/x-www-form-urlencoded",
                     "Connection":"Keep-Alive","Referer":"http://www.ip138.com/ips.asp"};
         #与网站构建一个连接        self.conn = httplib.HTTPConnection("www.ip138.com");

     def post(self,ip_addr):
         #定义需要进行发送的数据        params = urllib.urlencode({'ip':ip_addr,'action':'2'});
         #开始进行数据提交          self.conn.request(method="POST",url="/ips8.asp",
                                             body=params,headers=self.headers);
         #返回处理后的数据        response = self.conn.getresponse();
         #判断是否提交成功        if response.status == 200:
             s=response.read()
             print s.decode("gbk")
             lis = re.findall(r"(?<=<li>).*?(?=</li>)",s)
             return lis

     def get_main_data(self,ip_addr):
         ##下面的十六进制的值为"本站主数据:"的unicode        self.main_data_parttern = r"(?<=xe6x9cxacxe7xabx99xe4xb8xbbxe6x95xb0xe6x8dxaexefxbcx9a).*"
        list = self.post(ip_addr)
         if len(list)>0:
             main_data = re.findall(self.main_data_parttern,list[0].decode("gbk").encode("utf8"))
         if len(main_data)>0:
             ret_value = main_data[0]
         return ret_value.decode("utf8")



     def __del__(self):
         #关闭连接        self.conn.close()



##由于需要匹配中文,所以需要转换,然后再匹配def UTF2Hex(s):
     temp = s.encode("UTF-8").encode("hex")
     line = ""
    for i in range(0,len(temp)-1,2):
         line += "\x" + temp[i] + temp[i+1]
     return line

def GBK2Hex(s):
     temp = s.encode("GBK").encode("hex")
     line = ""
    for i in range(0,len(temp)-1,2):
         line += "\x" + temp[i] + temp[i+1]
     return line


if __name__ == '__main__':
     poster = Ip138Poster()
     print poster.get_main_data("121.0.29.231")

这里我还提供一个json的可选方案,可惜的是目前我没有发现国内的可以使用json协议获取ip地址信息的API(SOAP的万网好像有个),所以IP的API是使用国外的,手机号码信息查询国内是有API的,可以直接使用,代码非常非常简单,如下:

#!/usr/bin/env python
# encoding: utf-8"""
 locatingsystem.py

 Created by Luke on 2009-05-04.
 Copyright (c) 2009 Alibaba.com. All rights reserved.
 """

import sys
import os
import urllib
import json

class LocatingSystem:
     def get_ip_json(self,ip):
         url="http://iplocationtools.com/ip_query.php?ip=%s&output=json"%ip
         return json.read(urllib.urlopen(url).read())

     def get_mobile_json(self,mobile):
         url="http://api.showji.com/locating/?m=%s&output=json"%mobile
         return json.read(urllib.urlopen(url).read())

def main():
     ls = LocatingSystem()
     print ls.get_ip_json("134.34.54.56")
     print ls.get_mobile_json("13819127490")


if __name__ == '__main__':
     main()