开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1630
内容
13
活动
5410
关注
|
1天前
|
分布式计算 运维 搜索推荐
|

立马耀:通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统,驱动个性化推荐业务

蝉妈妈旗下蝉选通过迁移到阿里云 Serverless Spark 及 Milvus,解决传统架构性能瓶颈与运维复杂性问题。新方案实现离线任务耗时减少40%、失败率降80%,Milvus 向量检索成本降低75%,支持更大规模数据处理,查询响应提速。

34 2
|
1天前
|
SQL 分布式计算 Serverless
|

鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用

鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强SLA保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。

53 1
|
2天前
|
存储 运维 Serverless
|

千万级数据秒级响应!碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践

碧桂园服务通过引入 EMR Serverless StarRocks 存算分离架构,解决了海量数据处理中的资源利用率低、并发能力不足等问题,显著降低了硬件和运维成本。实时查询性能提升8倍,查询出错率减少30倍,集群数据 SLA 达99.99%。此次技术升级不仅优化了用户体验,还结合AI打造了“一看”和“—问”智能场景助力精准决策与风险预测。

40 14
|
28天前
|
存储 分布式计算 OLAP
|

百观科技基于阿里云 EMR 的数据湖实践分享

百观科技为应对海量复杂数据处理的算力与成本挑战,基于阿里云 EMR 构建数据湖。EMR 依托高可用的 OSS 存储、开箱即用的 Hadoop/Spark/Iceberg 等开源技术生态及弹性调度,实现数据接入、清洗、聚合与分析全流程。通过 DLF 与 Iceberg 的优化、阶梯式弹性调度(资源利用率提升至70%)及倚天 ARM 机型搭配 EMR Trino 方案,兼顾性能与成本,支撑数据分析需求,降低算力成本。

136 4
|
2月前
|
存储 JSON 分布式计算
|

StarRocks + Paimon 在阿里集团 Lakehouse 的探索与实践

阿里集团在推进湖仓一体化建设过程中,依托 StarRocks 强大的 OLAP 查询能力与 Paimon 的高效数据入湖特性,实现了流批一体、存储成本大幅下降、查询性能数倍提升的显著成效: A+ 业务借助 Paimon 的准实时入湖,显著降低了存储成本,并引入 StarRocks 提升查询性能。升级后,数据时效提前60分钟,开发效率提升50%;JSON列化存储减少50%,查询性能提升最高达10倍;OLAP分析中,非JOIN查询快1倍,JOIN查询快5倍。 饿了么升级为准实时Lakehouse架构后,在时效性仅损失1-5分钟的前提下,实现Flink资源缩减、StarRocks查询性能提升(仅5%

203 4
|
3月前
|
存储 分布式计算 物联网
|

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。

257 2
|
3月前
|
机器学习/深度学习 分布式计算 大数据
|

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

面对机器学习场景下的训练瓶颈,微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark,微财突破了单机训练使用的数据规模瓶颈,大幅提升了训练效率,解决了存算分离架构下 Shuffle 稳定性和性能困扰,为智能风控等业务提供了强有力的技术支撑。

212 15
|
4月前
|
SQL 弹性计算 分布式计算
|

阿里云 EMR 发布托管弹性伸缩功能,支持自动调整集群大小,最高降本60%

阿里云开源大数据平台 E-MapReduce 重磅推出托管弹性伸缩功能,基于 EMR 托管弹性伸缩功能,您可以指定集群的最小和最大计算限制,EMR 会持续对与集群上运行的工作负载相关的关键指标进行采样,自动调整集群大小,以获得最佳性能和资源利用率。

201 15
|
4月前
|
JSON 前端开发 搜索推荐
|

关于商品详情 API 接口 JSON 格式返回数据解析的示例

本文介绍商品详情API接口返回的JSON数据解析。最外层为`product`对象,包含商品基本信息(如id、name、price)、分类信息(category)、图片(images)、属性(attributes)、用户评价(reviews)、库存(stock)和卖家信息(seller)。每个字段详细描述了商品的不同方面,帮助开发者准确提取和展示数据。具体结构和字段含义需结合实际业务需求和API文档理解。

195 37
|
5月前
|
弹性计算 运维 监控
|

EMR管控平台全面升级:智能化助力客户实现在离线混部和降本增效

本次介绍EMR开源大数据平台2.0的最新特性,基于微服务架构,提供更稳定高效的服务。平台升级主要体现在智能化和Serverless两个方面。智能化功能利用大语言模型提升运维效率,推出一键诊断和根因分析,缩短问题定位时间。全托管弹性伸缩根据业务动态自动调整资源,提高资源利用率。即将推出的EMR on ACS产品形态支持离在线业务混部,进一步优化资源使用,帮助用户实现降本增效。

152 10
|
5月前
|
JSON 搜索推荐 API
|

拍立淘API是基于图像识别技术的服务接口,支持淘宝、1688和义乌购平台。

拍立淘API是基于图像识别技术的服务接口,支持淘宝、1688和义乌购平台。用户上传图片后,系统能快速匹配相似商品,提供精准搜索结果,并根据用户历史推荐个性化商品,简化购物流程。开发者需注册账号并获取API Key,授权权限后调用接口,返回商品详细信息如ID、标题、价格等。使用时需遵守频率限制,确保图片质量,保障数据安全。

216 5
|
5月前
|
Serverless BI
|

有奖实践,基于EMR StarRocks实现游戏玩家画像和行为分析

阿里云EMR-StarRocks联合镜舟科技,基于EMR-StarRocks实现游戏实时湖仓分析,免费试用物化视图、Paimon写入查询等新能力,前45位赢取StarRocks定制T恤、Lamy钢笔,小米充电宝,阿里云拍拍灯等活动礼品,前500位均可获得创意马克杯。

164 7
|
6月前
|
SQL 流计算 关系型数据库
|

基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析

阿里云OpenLake解决方案建立在开放可控的OpenLake湖仓之上,提供大数据搜索与AI一体化服务。通过元数据管理平台DLF管理结构化、半结构化和非结构化数据,提供湖仓数据表和文件的安全访问及IO加速,并支持大数据、搜索和AI多引擎对接。本文为您介绍以Flink作为Openlake方案的核心计算引擎,通过流式数据湖仓Paimon(使用DLF 2.0存储)和EMR StarRocks搭建流式湖仓。

731 5
|
6月前
|
分布式计算 资源调度 Hadoop
|

【赵渝强老师】部署Hadoop的本地模式

本文介绍了Hadoop的目录结构及本地模式部署方法,包括解压安装、设置环境变量、配置Hadoop参数等步骤,并通过一个简单的WordCount程序示例,演示了如何在本地模式下运行MapReduce任务。

151 0
|
7月前
|
SQL 分布式计算 Serverless
|

EMR Serverless Spark:一站式全托管湖仓分析利器

本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成

359 2
|
7月前
|
SQL 存储 缓存
|

降本60% ,阿里云 EMR StarRocks 全新发布存算分离版本

阿里云 EMR Serverless StarRocks 现已推出全新存算分离版本,该版本不仅基于开源 StarRocks 进行了全面优化,实现了存储与计算解耦架构,还在性能、弹性伸缩以及多计算组隔离能力方面取得了显著进展。

629 6
|
7月前
|
SQL 存储 缓存
|

阿里云EMR StarRocks X Paimon创建 Streaming Lakehouse

讲师焦明烨介绍了StarRocks的数据湖能力,如何使用阿里云EMR StarRocks构建基于Paimon的极速实时湖仓,StarRocks与Paimon的最新进展及未来规划。

253 3
|
7月前
|
人工智能 自然语言处理 BI
|

从数据积累到大模型的智能飞跃,你准备好了吗?

在数据驱动的时代,人工智能(AI)正重塑世界。蚂蚁集团的师文汇在「DATA+AI」论坛上发表演讲,阐述了《数据驱动的AI原生应用与开放框架》。他指出,AI应用经历了从数据积累到大模型的智能飞跃,数据已成为智能应用成功的关键。师文汇强调,构建智能应用需结合优质大模型与行业数据。演讲还介绍了AI原生应用的研发变革与挑战,包括编程模型转变、研发范式的不确定性及与现有系统的交互等问题。此外,他还分享了AI原生应用框架的思考与探索,提出了泛ETL、实验反馈机制及应对不确定性等解决方案,并展示了DB-GPT在政企、金融等多个领域的应用案例。

354 5
|
7月前
|
人工智能 数据可视化 前端开发
|

DB-GPT v0.6.0 版本更新,发布六大核心新特性!

DB-GPT v0.6.0 版本已发布,这是一个开源的AI原生数据应用开发框架,带来了多项新特性,包括AWEL协议升级至2.0,支持复杂编排;改进的数据应用创建与生命周期管理,支持多模式构建;GraphRAG增强图社区摘要与混合检索,图索引成本降低50%;丰富的Agent Memory类型;支持Text2NLU与Text2GQL微调;GPT-Vis前端可视化升级。这些更新助力企业快速构建智能数据应用,推动数字化转型。

439 3
|
8月前
|
存储 人工智能 分布式计算
|

云栖实录 | 阿里云 OpenLake 解决方案重磅发布:多模态数据统一纳管、引擎平权联合计算、数据共享统一读写

阿里云 OpenLake 解决方案重磅发布,构建大数据、搜索、AI 一体化的能力体系,实现多模态数据统一纳管、多种计算引擎平权计算、大数据 AI 一体化开发,助力企业基于数据资产构筑竞争力。

717 10
|
8月前
|
SQL 分布式计算 Serverless
|

阿里云 EMR Serverless Spark 版正式开启商业化

阿里云 EMR Serverless Spark 版正式开启商业化,内置 Fusion Engine,100% 兼容开源 Spark 编程接口,相比于开源 Spark 性能提升300%;提供 Notebook 及 SQL 开发、调试、发布、调度、监控诊断等一站式数据开发体验!

295 3
|
8月前
|
JSON API 开发者
|

小红书 API 接口使用指南:笔记详情数据接口的接入与使用

小红书是一款广受喜爱的生活方式分享社交平台,涵盖旅行、美食等领域。其API允许开发者批量获取笔记内容、图片链接及用户互动数据,助力内容分析与营销策略优化。要使用API,需先注册开发者账号并通过认证获取密钥;随后依据官方文档构建与发送HTTP请求,最后处理JSON格式响应数据。整个过程中,请务必遵循平台使用条款,尊重用户隐私权。

1277 0
|
8月前
|
SQL 存储 NoSQL
|

阿里云 EMR StarRocks 在七猫的应用和实践

本文整理自七猫资深大数据架构师蒋乾老师在 《阿里云 x StarRocks:极速湖仓第二季—上海站》的分享。

535 2
|
9月前
|
SQL 大数据 数据管理
|

EMR Serverless StarRocks体验测评

【8月更文挑战第14天】EMR Serverless StarRocks体验测评

169 0
|
9月前
|
分布式计算 Serverless 数据处理
|

EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务

Apache Airflow 是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务,以实现任务调度和执行的自动化,帮助您更有效地管理数据处理任务。

330 0
|
9月前
|
人工智能 JSON 算法
|

不是吧?这么好用的开源标注工具,竟然还有人不知道…

LabelU是一款专为AI项目设计的强大多模态数据标注工具,支持图像、视频、音频等多样化数据类型。它提供灵活的标注工具与自定义配置选项,让用户根据需求定制高效标注流程。特色功能包括一键载入预标注结果以简化修正工作,以及支持JSON、COCO等多种格式的导出选项。LabelU既可本地部署确保数据安全,也提供在线版本方便快速上手。此外,OpenDataLab还开源了Label-LLM对话标注工具和MinerU文档处理工具,进一步丰富了数据准备的工作流。欢迎访问[LabelU](https://github.com/opendatalab/labelU)了解更多详情,并为这些优秀工具点赞支持!

360 0
|
10月前
|
分布式计算 Spark 关系型数据库
|

阿里云E-MapReduce在 SPARK 任務在不知道 EMR master ip addres

64 2
|
10月前
|
弹性计算 分布式计算 运维
|

迟来的EMR Serverless Spark评测报告

本文是一篇关于阿里云EMR Serverless Spark产品评测的文章,作者分享了使用体验和理解。EMR Serverless Spark是阿里云提供的全托管、一站式的Spark数据计算平台,简化了大数据处理流程,让用户专注于数据分析。文章提到了产品的主要优势,如快速启动、弹性伸缩、高资源利用率和低成本。

371 8
|
10月前
|
存储 JSON 分布式计算
|

DataWorks操作报错合集之在处理元数据存储时发生报错:ODPS-0010000,该如何处理

DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。

195 1
|
10月前
|
分布式计算 Java Serverless
|

EMR Serverless Spark 实践教程 | 通过 spark-submit 命令行工具提交 Spark 任务

本文以 ECS 连接 EMR Serverless Spark 为例,介绍如何通过 EMR Serverless spark-submit 命令行工具进行 Spark 任务开发。

582 7
|
10月前
|
存储 SQL 缓存
|

【报名中】阿里云 x StarRocks:极速湖仓第二季—上海站

阿里云 x StarRocks:极速湖仓第二季,7月20日阿里巴巴上海徐汇滨江园区,现场签到丰富奖品等你拿,不见不散!

390 7
我要发布