一、DeepDive简介
DeepDive是信息抽取的工具,它可以从各种dark data(文本、图片、表格)中将非结构数据抽取到关系数据库中。DeepDive的主要功能是抽取dark data中的实体以及实体之间的关系。
二、DeepDive安装
DeepDive有三种安装方式,Docker镜像安装、快速安装、源包安装
采用快速安装的方式进行,机器系统为CentOS-7.3.1611
1.bash <(curl -fsSL git.io/getdeepdive) deepdive //安装deepdive包
1.1 vi ~/.bash_profile //编辑bash_profile文件,将deepdive命令加入当前user环境
1.2 export PATH=~/local/bin:"$PATH" //将这句追加到bash_profile
1.3 source ~/.bash_profile //使配置生效
2.bash <(curl -fsSL git.io/getdeepdive) spouse_example //安装spouse demo包
3.安装postgre作为关系数据库(刚开始想使用mysql,但是deepdive文档中说 minimal support mysql,所以还是使用推荐的postgre),使用bash <(curl -fsSL git.io/getdeepdive) progres 安装会有各种权限的问题,建议使用root用户安装
3.1 yum install https://download.postgresql.org/pub/repos/yum/9.5/redhat/rhel-7-x86_64/pgdg-centos95-9.5-2.noarch.rpm //添加RPM
3.2 yum install postgresql95-server postgresql95-contrib //安装PostgreSQL 9.5
3.3 /usr/pgsql-9.5/bin/postgresql95-setup initdb //初始化数据库
3.4 systemctl enable postgresql-9.5.service //设置开机启动
3.5 systemctl start postgresql-9.5.service //启动服务
3.6 修改用户密码
su - postgres 切换用户,执行后提示符会变为 '-bash-4.2$'
psql -U postgres 登录数据库,执行后提示符变为 'postgres=#'
ALTER USER postgres WITH PASSWORD 'abc123' 设置postgres用户密码
\q 退出数据库
3.7 开启远程访问
vi /var/lib/pgsql/9.5/data/postgresql.conf
修改#listen_addresses = 'localhost' 为 listen_addresses='*'
3.8 信任远程连接
vi /var/lib/pgsql/9.5/data/pg_hba.conf
修改如下内容,信任指定服务器连接
# "local" is for Unix domain socket connections only
local all all md5
# IPv4 local connections:
host all all 127.0.0.1/32 md5
# IPv6 local connections:
host all all ::1/128 md5
3.9 打开防火墙
CentOS 防火墙中内置了PostgreSQL服务,配置文件位置在/usr/lib/firewalld/services/postgresql.xml,我们只需以服务方式将PostgreSQL服务开放即可。
firewall-cmd --add-service=postgresql --permanent 开放postgresql服务
firewall-cmd --reload 重载防火墙
3.9+ 重启PostgreSQL数据服务
systemctl restart postgresql-9.5.service
4 spouse测试
4.1 载入数据
4.1.1 psql -U postgres -h localhost //输入密码本地连接postgre
4.1.2 键数据库并赋予用户postgres权限
postgres=# CREATE DATABASE exampledb OWNER postgres;
postgres=# GRANT ALL PRIVILEGES ON DATABASE exampledb to postgres;
postgres=# \c exampledb;
postgres=# ALTER SCHEMA public OWNER to postgres;
postgres=# GRANT ALL PRIVILEGES ON ALL SEQUENCES IN SCHEMA public TO postgres;
postgres=# GRANT ALL PRIVILEGES ON ALL TABLES IN SCHEMA public TO postgres;
4.2 spouse项目配置
4.2.1 postgresql://postgres@localhost:5432/exampledb //打开db.url,将远程链接地址加进去
4.2.2 deepdive create table articles //创建articles表,文档说自动创建,但是尝试多次都没有建表,使用命令主动创建
4.2.3 在app.ddlog中定义如下schema,记得将原文件内容删除
articles(
id text,
content text
).
4.2.4 deepdive compile //编译
4.2.5 deepdive load articles input/articles-1000.tsv.bz2 //将1000文章载入
4.2.6 deepdive query '?- articles(id, _).' //测试,查询到一堆id代表加载成功,去postgre表中会看到数据加载进来了
4.3 对输入加工(待完成)
4.4 运行模型 (待完成)
5. 坑
5.1 在处理tsv文件时候会遇到如下问题
error while loading shared libraries: libbz2.so.1.0: cannot open shared object file
解决方法:
sudo yum install bzip2-devel
sudo ln -s `find /usr/lib64/ -type f -name "libbz2.so.1*"` /usr/lib64/libbz2.so.1.0
5.2 postgre权限问题
使用deepdive安装postgre会遇到很多权限问题,建议使用root用户自行安装,配置好远程连接权限就ok了