1 前言
今天要介绍的是一款开源的语料标注工具doccano[1]。对于NLP中常见的情感分类、命名体识别、序列到序列等的数据标注任务都可以通过doccano来完成。由于工作的关系,笔者还看到一些厂商的标注工具也是基于doccano开发的。在这个项目的另一个主页中[2],作者也介绍了该项目的四种不同的部署方法,但可能有的地方不是特别详细,因此在安装过程中还是会遇到一些问题。
在接下来的这篇文章中,笔者将对其中的Python部署方法进行介绍,对于期间可能遇到的问题也给出了相应的解决方案;同时,笔者也在原项目的基础上做了一点修改:①将一些每次都需要获取的js等文件部署到了本地以加快访问速度;②对整个doccano项目进行了汉化处理[3]。因此,下面你既可以下载笔者修改后的项目文件,也可以下载原来的工程文件。
这个地址http://124.71.156.219:8000/
是笔者已经部署好的doccano,大家可以先进行体验。用户名为admin,密码公众号后台回复doccano可以获取。
2 安装
2.1 安装Python环境
对于该项目我们首先需要一个Python3.6的环境。如果是已经安装过了conda
,那么只需要下面一条命令即可完成python环境的安装。
conda create -n docc python=3.6
如果没有conda
环境,请参见这篇文章进行安装。
注意:务必建立一个python3.6版本的虚拟环境,因为以下Python依赖包都必须建立在此基础上。
2.2 安装Python依赖包
-
下载doccano工程文件
首先,我们需要下载doccano项目文件,下面两个工程文件,下载其中一个到本地即可。
#原始项目文件 git clone https://github.com/doccano/doccano.git # 笔者汉化后的项目文件 git clone https://github.com/moon-hotel/doccano.git
-
安装Python依赖包
下载完成后进入目录
doccano/app
中安装Python依赖包,如果出现443的网络错误,重新运行即可。pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
此时,不出意外会有如下报错信息:
Error: pg_config executable not found. pg_config is required to build psycopg2 from source. Please add the directory containing pg_config to the $PATH or specify the full executable path with the option:
解决方法,以root身份运行如下命令:
完整内容点击:一站式语料标注工具(你值得拥有)
安装完成后重新运行上面的python包安装命令。但如果不出意外的话,还会有下面这个错误提示:
#include <sql.h>
^~~~~~~
compilation terminated.
error: command 'gcc' failed with exit status 1
解决方法,以root身份运行如下命令:
完整内容点击:一站式语料标注工具(你值得拥有)
安装完成后继续运行上面的python包安装命令。如果还出现了如下错误提示:
while (interp->next