deepseek 训练数据
时间: 2025-02-08 10:07:44 浏览: 563
### DeepSeek 训练数据源及其格式
DeepSeek 是一种用于药物设计的人工智能平台,其训练数据主要来源于多种生物医学数据库以及实验产生的结构化和非结构化的生物学数据[^4]。这些数据经过预处理后被转换成适合机器学习模型输入的形式。
#### 数据来源
1. **公共数据库**
- PubChem 和 ChEMBL 提供了大量的化合物活性数据集。
- Protein Data Bank (PDB) 收录了蛋白质三维结构信息。
2. **内部实验室数据**
- 来自合作研究机构或企业自身的高通量筛选结果。
- 实验室生成的小分子与靶点相互作用记录。
3. **文献挖掘**
- 使用自然语言处理技术从科学论文中提取有用的信息并构建知识图谱。
#### 数据格式
为了适应不同的应用场景,DeepSeek 的训练数据通常会被整理为如下几种常见格式:
- CSV 文件:存储表格形式的数据,每一列代表特定属性,如化合物ID、SMILES字符串表示法下的化学结构描述符等。
- HDF5 或者 Feather 格式的二进制文件:当面对大规模数值型特征矩阵时更为高效;这类文件可以快速读取大尺寸数组而不占用过多内存资源。
- JSON/XML 文档:适用于保存层次化的配置参数设定或是复杂的对象关系映射。
对于图像类别的任务,则会采用标准图片文件夹组织方式,其中每张图片按照类别分开放置于不同子目录下,并通过路径关联至相应的标签信息。
```python
import pandas as pd
from rdkit import Chem
from rdkit.Chem import PandasTools
# 加载CSV格式的分子数据
df_molecules = pd.read_csv('molecule_data.csv')
PandasTools.AddMoleculeColumnToFrame(df_molecules,'smiles','mol')
# 显示前几条记录
print(df_molecules.head())
```
阅读全文
相关推荐


















