PiFlow是一个简单易用,功能强大的大数据流水线系统,混合型科学大数据流水线系统,包含丰富的处理器组件,提供Shell、DSL、Web配置界面、任务调度、任务监控等功能! ![]() PiFlow特色简单易用 可视化配置流水线 监控流水线 查看流水线日志 检查点功能 扩展性强: 支持自定义开发数据处理组件 性能优越: 基于分布式计算引擎Spark开发 功能强大: 提供100+的数据处理组件 包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等 集成了微生物领域的相关算法 PiFlow使用方法解压piflow-server-v0.9.tar.gz: tar -zxvf piflow-server-v0.9.tar.gz 编辑配置文件config.properties 运行、停止、重启PiFlow Server start.sh、stop.sh、 restart.sh、 status.sh 测试 PiFlow Server 设置环境变量 PIFLOW_HOME vim /etc/profile export PIFLOW_HOME=/yourPiflowPath/bin export PATH=PATH:PIFLOW_HOME/bin 运行如下命令 piflow flow start example/mockDataFlow.json piflow flow stop appID piflow flow info appID piflow flow log appID piflow flowGroup start example/mockDataGroup.json piflow flowGroup stop groupId piflow flowGroup info groupId 如何配置config.properties #spark and yarn config spark.master=yarn spark.deploy.mode=cluster #hdfs default file system fs.defaultFS=hdfs://10.0.86.191:9000 #yarn resourcemanager.hostname yarn.resourcemanager.hostname=10.0.86.191 #if you want to use hive, set hive metastore uris #hive.metastore.uris=thrift://10.0.88.71:9083 #show data in log, set 0 if you do not want to show data in logs data.show=10 #server port server.port=8002 #h2db port h2.port=50002 常见的网络操作系统有UNIX、Netware、Windows NT、Linux等,网络软件的漏洞及缺陷被利用,使网络遭到入侵和破坏。 |