我们的python探险始于一个简单的项目,该项目在iTunes播放列表文件中查找重复的乐曲音轨,并绘制各种统计数据,如音轨长度和评分,你可以从查看iTunse播放列表格式开始,然后学习如何使用python提取这些文件的信息。为了绘制这些数据,要用到 matplotib 库。

需要学习以下主题:


  • XML 和属性列表(p-list)文件;
  • python 列表和字典;
  • 使用 python 的 set 对象;
  • 使用 numpy 数组;
  • 直方图和散点图;
  • 用 matplotlib 库绘制简单的图;
  • 创建和保存数据。 


1.1     iTunse 播放列表文件剖析:

iTunse 资料库中的信息可以导出为播放列表文件 (在 iTunes 中 选择 File ——Library——Export Playlist)。播放列表文件以可扩展标记语言(XML)写成,这是一种基于文本的语言,旨在分层表示基于文本的信息。它包括一些用户定义的标签所构成的树状集合,标签形如<MyTag>,每个标签可以有一些属性和子标签,其中包含附加的信息。

如果在文本编辑器中打开一个播放列表文件,会看到类似这样的简化版本:

解析iTunes播放列表 itunes播放列表文件夹_解析iTunes播放列表

         属性列表(P-list)文件将对象表示为字典,<dict>和<key>标签与这种方法有关。字典是把键和值关联起来的数据结构,让查找值变得容易。属性列表文件使用字典的字典,其中和键关联的值往往自身又是另一个字典(甚至一个字典列表)。

        <xml>标签确定文件为XML 文件。在这个开头标签之后,文档类型定义(DTD)定义了XML文档的结构。所见,苹果在该标签中的统一资源定位符(URL)中定义了这种结构。

        文件声明了顶层<p-list>标签,其唯一子元素是字典<dict>。该字典包含了各种键,包括 Major Version、Minor Version,等等,注意“Tracks”键,该键对应的值也是一个字典,它将整数的音轨ID映射到另一个字典,其中包含 Name。Artist 等元素。音乐收藏中的每个音轨都有唯一的音轨 ID 键。

        播放列表顺序在 Playlists 定义,它是顶层字典的一个子节点。

1.2  所需模块 

         在这个项目中,我们用内置模块 plistlib 来读取播放列表文件。我们还用 ,matplotlib 库来绘图,用 numpy 的数组来存储数据。

1.3  代码 

        该项目的目标是找到音乐收藏中的重复曲目,确定播放列表之前共同的音轨,绘制音轨时长的分布图,以及歌曲评分和时长之间的关系图。

        随着音乐收藏的不断增加,你总会遇到重复的歌曲,为了确定重复的歌曲,查找与 Tracks 键关联的字典中的名称,找到重复的乐曲,并用音轨长度作为附加准则来检测重复的乐曲,因为名称相同、但长度不同的音轨,可能是不一样的。

        要找到两个或多个播放列表之间共同的音轨,你需要将音乐收藏导出为播放列表文件,收藏每个播放列表的音轨名称,作为集合进行比较,通过发现集合的交集来找到共同的音轨。

        在收集音乐收藏数据的同时,我们将使用强大的 matplotlib  matplotlib 绘图软件来创建一些图,我们可以直接绘制直方图来显示音轨时长的分布,绘制散点图来比较乐曲评分与长度。

1.31  查找重复

 首先可以用 findDuplicates() 方法来查找重复的曲目,如下所示

解析iTunes播放列表 itunes播放列表文件夹_解析iTunes播放列表_02

        将将代码的主 for 循环放在 try 语句块中,这是因为一些乐曲音轨可能没有定义乐曲名称,在这种情况下,跳过该音轨,在 except 部分只包含pass(什么也不做)

1.3.2        提取重复

利用以下代码,提取重复的音轨 

解析iTunes播放列表 itunes播放列表文件夹_解析iTunes播放列表_03

 

 1.3.3        查找多个播放列表中的共同音轨

完整代码:

解析iTunes播放列表 itunes播放列表文件夹_经验分享_04