【译】使用Spark SQL 运行大规模基因组工作流 - 代码天地

【译】使用Spark SQL 运行大规模基因组工作流

编程语言 2019-10-16 10:01:20 阅读次数: 0

编译:

诚历，阿里巴巴计算平台事业部 EMR 技术专家，Apache Sentry PMC，Apache Commons Committer，目前从事开源大数据存储和优化方面的工作。

使用Spark SQL 运行大规模基因组工作流

在过去十年中，随着基因组测序价格下降，可用基因组数据的数量逐渐激增。研究人员现在已经能够从英国生物银行等项目的数十万人群中探测遗传变异和疾病之间的关联。这些分析将使人们更深入地了解疾病的根本原因，从而治疗当今一些主要的疾病问题。但是，目前用来分析这些数据集的工具还没有跟上数据增长的步伐。

许多用户习惯于使用命令行工具（如plink或单节点Python和R脚本）来处理基因组数据。但是，单节点工具暂时还不足以达到TB级甚至更高级别的程度。目前Broad研究所的Hail项目建立在Spark之上，可以将计算分配到多个

猜你喜欢

转载自yq.aliyun.com/articles/720894

【译】使用Spark SQL 运行大规模基因组工作流

GWAS_Flow：使用GPU加速大规模数据的全基因组关联分析

[译]使用sql创建后门

Spark SQL CLI 运行

Spark 04 Spark SQL 使用

基因组注释之软件使用

【Spark九十四】spark-sql工具的使用

spark streaming 中使用 spark sql

Spark SQL整合Hive使用

使用IDEA开发Spark SQL

Spark Sql Dsl Sql

【译】Spark NLP使用入门

Spark学习笔记：Spark Streaming与Spark SQL协同工作

Spark SQL

Spark SQL 工作流程源码解析（三）analysis 阶段（基于 Spark 3.3.0）

Spark SQL中的Catalyst 的工作机制

Spark SQL运行原理解析

SparkSql整合Hive,使用idea运行,启动时报:"org.apache.spark.sql.hive.HiveSessionStateBuilder"

【译】SQL Pivot介绍

基因组浏览器使用 (EPGG)

使用BRAKER2进行基因组注释

工作流使用

在zepplin 使用spark sql 查询mongodb的数据

Spark SQL和Hive使用场景？

spark sql基本使用方法介绍

elasticsearch使用spark sql来实现join

spark-sql cli 参数及使用

Spark SQL与DataFrame详解以及使用

数据挖掘工具---Spark SQL使用

使用Spark SQL进行Cassandra Join (Java)

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)