一站式文本标注工具doccano(你值得拥有)

本文档详述了开源文本标注工具doccano的安装过程,包括Python环境配置、依赖包安装、前端环境设置及启动服务。同时介绍了doccano的用户管理、工程创建、数据标注和结果导出等功能,适合个人或团队进行NLP数据标注任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 前言

今天要介绍的是一款开源的语料标注工具doccano[1]。对于NLP中常见的情感分类、命名体识别、序列到序列等的数据标注任务都可以通过doccano来完成。由于工作的关系,笔者还看到一些厂商的标注工具也是基于doccano开发的。在这个项目的另一个主页中[2],作者也介绍了该项目的四种不同的部署方法,但可能有的地方不是特别详细,因此在安装过程中还是会遇到一些问题。

在接下来的这篇文章中,笔者将对其中的Python部署方法进行介绍,对于期间可能遇到的问题也给出了相应的解决方案;同时,笔者也在原项目的基础上做了一点修改:①将一些每次都需要获取的js等文件部署到了本地以加快访问速度;②对整个doccano项目进行了汉化处理[3]。因此,下面你既可以下载笔者修改后的项目文件,也可以下载原来的工程文件。

这个地址http://124.71.156.219:8000/是笔者已经部署好的doccano,大家可以先进行体验。用户名为admin,密码公众号后台回复doccano可以获取。

2 安装

2.1 安装Python环境

对于该项目我们首先需要一个Python3.6的环境。如果是已经安装过了conda,那么只需要下面一条命令即可完成python环境的安装。

conda create -n docc python=3.6

如果没有conda环境,请参见这篇文章进行安装。

注意:务必建立一个python3.6版本的虚拟环境,因为以下Python依赖包都必须建立在此基础上。

2.2 安装Python依赖包

  • 下载doccano工程文件

    首先,我们需要下载doccano项目文件,下面两个工程文件,下载其中一个到本地即可。

    #原始项目文件
    git clone https://github.com/doccano/doccano.git
    
    # 笔者汉化后的项目文件
    git clone https://github.com/moon-hotel/doccano.git
    
  • 安装Python依赖包

    下载完成后进入目录doccano/app中安装Python依赖包,如果出现443的网络错误,重新运行即可。

    pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
    

    此时,不出意外会有如下报错信息:

    Error: pg_config executable not found.
    pg_config is required to build psycopg2 from source.  Please add the directory
        containing pg_config to the $PATH or specify the full executable path with the
        option:
    

    解决方法,以root身份运行如下命令:

完整内容点击:一站式语料标注工具(你值得拥有)

安装完成后重新运行上面的python包安装命令。但如果不出意外的话,还会有下面这个错误提示:

#include <sql.h>
              ^~~~~~~
    compilation terminated.
    error: command 'gcc' failed with exit status 1

解决方法,以root身份运行如下命令:

完整内容点击:一站式语料标注工具(你值得拥有)

安装完成后继续运行上面的python包安装命令。如果还出现了如下错误提示:

while (interp->next
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值