线下Meetup:在数智化转型背景下,火山引擎VeDI的大数据技术揭秘

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

近日,联合火山引擎开发者社区,火山引擎数智平台(VeDI)《数智化转型背景下的火山引擎大数据技术揭秘》主题Meetup暨超话数据特别场正式在深圳举办,邀请到了Datasail、DataLeap、 ByteHouse、EMR、LAS等多条数智平台(VeDI)产品线的专家带来大数据技术干货分享。

如今各个企业面临的是更变幻莫测的市场、更复杂的内部架构、更进退失据的现状。在这种现状下各个企业如何顺利的完成数字化转型?

今年4月上海举办的春季 FORCE 原动力大会上,火山引擎正式提出了“数据飞轮”的数字化建设模式,获得了业界广泛关注。火山引擎数据飞轮是企业数智化升级的新范式,基于对字节跳动十余年数据驱动实践经验的提炼,以数据消费为核心驱动力,使企业数据流充分融入业务流,实现数据资产的业务应用的飞轮效应。其中数据资产轮的理念是在被频繁数据消费的推动下,变得更高质量、更低成本、更快响应的支撑业务应用。

这里涉及资产丰富、质量优化、研发提效三个核心齿轮:

  • 资产丰富:数据消费推动更丰富的数据资产融合统一的建设

  • 质量优化:数据消费推动数据资产建设治理具备更高的质量

  • 研发提效:数据基础建设过程中的成本优化和效率提升

全域数据集成 DataSail是火山引擎数智平台下数据采集和同步引擎,支持全场景异构数据源集成,助力企业数据资产融合统一建设,本次活动上火山引擎DataSail高级研发工程师李延加分享了DataSail CDC数据整库实时入仓入湖方面的实践。


在线数据库数据导入到数仓分析的链路已经存在多年,随着近年来实时计算的发展,业界期待有延迟更低、运维更便捷、效率更高的CDC同步通道。李延加在现场介绍了DataSail实现CDC整库实时同步的技术方案和业务实践。


随着数字化转型的推进以及业务数仓建设不断完善,大数据开发体量及复杂性逐步上升,如何保证数据稳定、正确、持续产出成为数据开发者核心诉求,也成为平台建设面临的挑战之一。

火山引擎DataLeap 产品经理黄虹现场分享了字节跳动基于大数据研发治理套件DataLeap的DataOps实践,阐述了DataOps理念在字节的具象以及DataOps敏捷规范研发平台。DataOps是数据开发的新范式,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集开发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量,才能实现高质量数字化发展。

数据基础建设过程中的成本优化和效率提升是困扰在很多大数据相关企业的难题,本次活动上基于研发提效的角度,来自 ByteHouse、EMR、LAS研发和产品专家从不同技术细节方向给大家带来干货分享。

火山引擎 ByteHouse 产品经理孔柏林现场分享了基于ByteHouse引擎的增强型数据导入技术实践,作为一款云原生数据仓库ByteHouse基于自研引擎HaUniqueMergeTree,构建增强MaterializedMySQL、HaKafka引擎,实现数据生产-应用一体化,通过案例分析与总结让与会者理解一体化解决方案的实践及业务价值。


目前大数据量分析场景下面临着如下核心挑战:HDFS与对象存储之间的语义差异;存算分离之后带来的较大性能损耗。火山引擎 EMR 研发工程师吴志平从基于Proton的存算分离角度带来了相关技术实践。

云原生开源大数据平台EMR团队针对这些挑战自研了Proton加速引擎,深度优化对象存储读写能力,与Hive/Spark/Trino等计算引擎集成后,在不改变用户使用习惯的前提条件下,可提供对象存储数据集的透明加速服务。在离线场景下,其性能基本持平存算一体架构。


当前Spark、Presto等引擎原Java执行的性能优化进入瓶颈期,无法满足业务需求,而基于向量化和编译优化的native引擎,可获两倍性能加速比,降低资源成本。

火山引擎LAS高级研发工程师杨嘉义在现场向大家介绍了火山引擎LAS底层的湖仓一体加速引擎Bolt的架构及在在LAS的应用实践,据了解Bolt已经在字节跳动内部SparkSQL、Presto大规模上线,加速效果显著,其特色有:面向多场景统一加速、端到端向量化执行。

本次 Meetup 不仅为技术爱好者们提供了一个互动交流的平台,也让大家更深入地了解了火山引擎数智平台(VeDI)各产品在数智化转型时代背景下,如何更高质量、更低成本、更快响应的支撑业务应用。

期待下一次的 Meetup,让我们再次相聚,共同探讨技术的魅力。

点击跳转大数据研发治理套件 DataLeap了解更多


http://www.niftyadmin.cn/n/5051425.html

相关文章

数组06-滑动窗口

目录 LeetCode——209. 长度最小的子数组 分析: LeetCode——844. 比较含退格的字符串 分析: LeetCode——209. 长度最小的子数组 给定一个含有 n 个正整数的数组和一个正整数 target 。 找出该数组中满足其总和大于等于 target 的长度最小的 连续…

Centos 7分区失败,进入 dracut 页面,恢复操作

1. 问题场景: 分区失败,重启了虚拟机,导致系统进入 dracut 页面。开机显示 直接回车,等待重启失败的页面 自动进入了 dracut 模式(救援)。 2. 临时解决进入系统 查了一下:如果出现 “dracut” 提示、进入 dracut…

距PMP考试仅剩60天,如何备考?

相信大家都在期待国庆假期的到来~但同时要告诉大家的是,距离11月25日的PMP考试仅剩60天。那么在这两个月内,如何高效复习才能稳稳通过考试呢? 学习方法:提前预习,中期学习,针对性刷题,后期冲刺 …

【装机】通过快捷键设置BIOS从U盘启动

当要重装系统的时候,是否会遇到一个问题,进入bios的时候就开始凌乱了,因为不懂得怎么用bios设置u盘启动.不要着急,下面来一波小白装机教程 总的来讲,设置电脑从U盘启动一共有两种方法: 第一种:开机时候按快捷键,然后选择U盘启动第…

logback日志是怎么保证多线程输出日志线程安全的

logback中的单例模式 logback日志框架使用了单例设计模式来进行日志输出。在logback中,Logger类是一个关键的组件,它负责记录和输出日志消息。 Logger类使用了单例设计模式,确保在一个应用程序中只存在一个Logger实例。这样做的好处是可以确…

如何在 Spring MVC 中处理表单提交

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…

项目文章| PBJ(IF:13.8)发表稻曲病菌效应因子Uv1809增强组蛋白去乙酰化抑制水稻免疫的分子机制

稻曲病菌(Ustilaginoidea virens)感染引起的稻曲病(RFS)不仅严重影响水稻生产而且威胁人类健康。病原体侵染植物的过程中,植物进化出独特的先天免疫系统。已知组蛋白乙酰化相关酶参与植物免疫调控过程,那么…

单层和多层中的应力和分层控制

引言 类金刚石碳(DLC)膜具有诸如高硬度和低摩擦系数的优异特性,并且在切削工具、金属模具和机器部件中具有应用。不幸的是,它们通常表现出低粘合强度由于高的内部压缩应力,导致从衬底上剥离。英思特已经尝试了各种方法来降低内应力&#xff…