Skip to content

Study数据采集

获取study ID

#具体参数见--help
python ./study/get_study_id.py -q 'sus scrofa' -s '2024/08/05' -e '2123/08/05' -l './study_id_list.txt'
#get_study_id_all.py则是检索IAnimal数据库包含物种所有的study id

Note

利用'get_summary1'和'get_summary2'会自动拆分检索结果,所以并不需要对时间进行分段处理,但是'get_summary0'不会拆分检索结果(太大会导致超时),故'get_study_id_all.py'中对时间进行了分段处理(虽然get_summary0是备选方案)

下载study XML

#具体参数见--help
python ./study/get_xml.py -l './study_id_list.txt' -d './myxml'

归档study

// 直接使用/Task/meta_mv 在线接口
{
  "src_path": "/public/idata/storage/meta/meta_20240910",
  "dst_path": "/public/idata/storage/meta",
  "worker": "storage_mu01_main",
  "force": false
}

解析Study

利用parse_xml.py脚本将指定study文件解析后存入数据库

#具体参数见--help
python ./study/parse_xml.py -s './studys.txt' -l './parse_xml.log'

清洗base

利用clean_base.py脚本清洗数据库中指定study的run

#具体参数见--help
python ./study/clean_base.py -s './studys.txt' -l './clean_base.log'

创建样本

利用create_sample.py脚本将指定study中所有run构建成样本(run代表的不是样本,exp更像生物学样本)

#具体参数见--help
python ./study/create_sample.py -s './studys.txt' -l './create_sample.log'

本文阅读量  次
本站总访问量  次
Authors: Wind