InfoQ中文版

2021-02-27 23:20    2021-02-28 07:35

美团酒旅数据治理实践

本文主要介绍美团酒旅数据治理的历程和实践经验,以及业务发展各个阶段中数据体系遇到的问题和解决方案。最后,将探讨数据治理在现阶段的建设思路和发展方向。背景介绍数据治理这个话题这两年非常火热,很多公司尤其大型互联网公司都在做一些数据治理的规划和动作。为什么大家都要做数据治理?我个人的理解是,从数据产生、采集、生产、存储、应用到销毁的全过程中,可能在各环节中引入各种问题。初始发展阶段,这些数据问题对我们的影响不大,大家对问题的容忍度比较高。但是,随着业务发展数据质量和稳定性要求提升,并且数据积累得越来越多,我们对一些数据的精细化要求也越来越高,就会逐渐发现有很多问题需要治理。

OCR技术的未来发展与演进 | InfoQ大咖说

直播内容:随着人工智能的热度上升,图像识别这一细分领域也渐渐被人们所关注。在很多公司的业务中,有很多需要对图片进行识别的需求。 为了帮助业务实现对这些图片、文档的识别和结构化,业界进行了一系列的实践和探索,最终确定了一些可行的方法。 实践过程中,可能遇到过一系列问题和难点。本次分享,我们将结合目前的业务需求,说说爱奇艺在探索中遇到的痛点和难点以及识别技术中的一些细节。本期,爱奇艺智能平台部助理研究员 Harlon 现身大咖说,与我们分享 OCR 技术的未来发展与演进。直播大纲:主流的 OCR 技术有哪些?开源工具怎么选?识别率如何进一步提高?未来发展方向是什么?

国内有哪些值得开发者关注的技术团队? | InfoQ推荐

2021年2月5日,以“开发者共创生态计划”为主题的“InfoQ的朋友们第十五期”栏目在线上顺利举行,这是InfoQ 为长期支持我们的伙伴和客户们提供的新分享平台,号召和鼓励大家一起加入到社区中共建开发者生态。有人说,未来十年,最大的确定性就是数字化技术的普及,整个社会的经济和生活必将全面数字化,技术创新已经成为时代发展的推手。5G、云原生、区块链、AI 等新基建的到来,让技术未来的发展方向初现端倪。

学会这招,你也可以让商品定价准确率提升50%

背景闲鱼是国内最大的闲置二手交易社区,有着数以亿计的商品。其中,商品定价决定了一件商品是否能快速地卖出。然而,闲鱼的大部分卖家都是个人卖家,他们通常缺乏相关的知识,因此需要商品定价指导来帮助他们更快地卖出。同时,也可以让买家看到更多更合理价格的商品,提升买卖效率。商品规模闲鱼现阶段积累了几亿件的商品,覆盖了手机、3C数码、个护美妆、女士服装、宠物/用品、园艺植物、长租房源、摩托车/用品、珠宝首饰、票务娱乐、游戏等类目。商品特性闲鱼是二手电商,与淘宝不同点在于它的商品有二手属性,商品属性由新品属性和二手属性共同构成。此外,闲鱼还存在着大量的卡券、玉石等非标品。

赔偿9200万美元!TikTok与美国用户和解隐私诉讼

TikTok 同意支付 9200 万美元,与美国用户和解隐私诉讼。路透社 2 月 26 日消息,根据当地时间周四提交给美国伊利诺伊州法院的文件,字节跳动已同意价值达 9200 万美元的集体诉讼和解,以解决美国部分 TikTok 用户提出的数据隐私索赔。法庭文件显示,和解协议是在 “专家领导查看 TikTok 内部源代码”和进行广泛的调解努力之后达成的。和解协议仍需法院批准。TikTok 周四表示:“虽然我们不同意原告的指控,但我们不愿经历冗长的诉讼程序,而是希望将注意力集中在为 TikTok 社区建立安全和快乐的体验上。

台积电被传因产能爆满暂停客户报价,全球芯片短缺危机下的最大赢家?

全球缺芯危机下,台积电成了“全村”的希望。传台积电暂停报价日前,据集微网消息,近期汽车市场回暖带动车用半导体需求激增,晶圆代工产能供不应求。市场传出,台积电近日已暂停对客户端报价。台媒经济日报报道称,市场传出,台积电因产能爆满,没有产能可提供客户,加上评估晶圆代工市场价格走势紊乱,近期已暂停对客户端报价。但与台积电合作长达30年的IC设计厂商表示,并未发现台积电有暂停报价的情况,台积电仍在服务客户。但在晶圆厂产能供需吃紧的背景下,也不排除台积电对新增订单或新客户无法满足需求的可能。

要打造高效团队,你必须掌握这种方法

打造高效团队是每个管理者都渴望的事情,这个过程中有哪些实用的技巧?有什么方法能够快速地让团队成员发挥出最大作用?在 2020 年 11 月 19 日举行的全球技术领导力峰会 GTLC 上海 & 苏州站中,前美篇首席架构师 张超 带来了分享《如何通过深度沟通打造高效能团队》,探讨了深度沟通的使用方法,以及它在高效团队中的功用。

玩物得志 CTO 张淼:如何搭建闪电式发展团队?

互联网公司的成长离不开每位技术管理者的赋能,但是他们有着不同的团队管理方法与偏好。有的管理者喜欢团队慢慢积累沉淀,有的管理者却希望自己的团队爆炸式增长,不过想要支撑得起公司业务爆炸式的增长,需要有一定的方法,TGO 鲲鹏会邀请了一位有着这样经历的嘉宾,为大家揭秘“闪电级技术团队”的成长之法。在2020年GTLC 全球技术领导力峰会 · 南京站上,玩物得志 CTO 张淼从招聘与团队架构入手,为大家阐述闪电团队效能提升以及成长赋能的方法。

AI、IoT、区块链、自主系统、下一代计算如何引领未来供应链发展

京东推出《技术重构社会供应链 - 未来科技趋势白皮书》,一承京东一贯务实聚焦业务的专注与务实,京东对前沿技术洞察紧密围绕京东集团供应链业务的主阵营,解析数智化科技助力下,如何达成数智化社会供应链“5 个 DEEP”属性实现产业数智化变革。研判未来十年,推动 5D 属性实现的五大关键技术,以及在供应链新生态下,京东在五大落地场景的务实作为。通过本篇文章了解技术新趋势,未来业务创新形态,让你在同质化竞争中快人一步。

手把手带你搞定4大容器网络问题

本文最初发布于Ivan Velichko的个人博客,经原作者授权由InfoQ中文站翻译并分享。使用容器总是感觉像变魔术一样。对那些了解其内部原理的人来说,它是一种很好的方式;而对那些不了解其内部原理的人来说,这是一种可怕的方式。幸运的是,我们研究容器化技术的内部原理已经很长一段时间了。我们甚至发现,容器只是隔离的、受限制的Linux进程,镜像并不是运行容器所必须的,相反——要构建一个镜像,我们需要运行一些容器。现在,让我们来解决下容器网络问题。或者,更准确地说,是单主机容器网络问题。在本文中,我们将回答以下问题:如何虚拟化网络资源,使容器认为它们中的每一个都有一个专用的网络堆栈?

腾讯云如何破解落地难题,成功实践DevSecOps?

最近几年,国内越来越多的企业和软件开发团队开始践行 DevOps 的研发模式。随着 DevOps 的发展,研发安全保障的思维和技术也在进一步演化,其中,一个重要思想是 DevSecOps。但是,行业中关于 DevSecOps 的具体实践分享比较少,很多企业只能“摸着石头过河”。DevSecOps 诞生的背景是什么?它如何在企业落地?企业怎样在内部塑造 DevSecOps 的文化?......针对上述问题,InfoQ 记者采访了腾讯云产品安全负责人、腾讯安全云鼎实验室安全总监 Fooying。

太秀了!用Excel也能实现和Python数据分析一样的功能!

如题。点击查看原文>

程序员的“黄金时代”,死去又重来?

“我认为过去几十年的黄金时代已经过去了,那种当一名程序员就能找到工作的日子已经过去了。编程现在更像是会读书能写字。你必须具备这样的能力。”硅谷技术布道者 Tim O'Reilly如此评价软件行业的未来。 伟大的经济学家凯恩斯在90多年前曾预言:到20世纪末,人类将每周工作15个小时。但在2021年的今天,人们不仅没有实现每周工作15个小时,甚至有时候一天就要工作15个小时。 按照著名人类学家大卫·格雷伯(David Graeber)“垃圾工作(Bullshit Job)”理论,大多数的软件开发工作可能会被认为是“垃圾工作”。(垃圾工作指那些虽然纷纷涌现但并不一定都能为生活带来太大价值的工作。

苏宁基于服务层知识图谱的真假告警判定

一、概述在第一篇文章《苏宁基于知识图谱的大规模告警收敛和根因定位实践》中,我们详细阐述了如何构建基础设施层的知识图谱,得到了很多同行的反馈,在实际的线上环境取得了很好的告警收敛效果。但是,线上的异常事件还有另一个非常重要来源:基于AI的异常检测。(注意:我们的AI异常检测复现了亚马逊诸多模型并且进行改进,通过集成算法做母模型取得了与亚马逊模型相当的水准) 异常检测虽然是通向AIOps的重要一环,但是由于其预测/检测的不确定性,会存在一定的误告警,当大规模使用在生产环境中时,误告警的数量开始不断叠加,很可能形成告警风暴,这是一个突出及困难的问题。

数据驱动的京东精细化消费者运营平台

互联网下半场,随着互联网渗透率提升,人口红利消失,传统的以流量为中心的营销方式难以支撑品牌在电商平台的高速增长,新形势下,品牌该如何寻找新的增长动力?以大数据和AI算法驱动的消费者精细化运营,是京东平台为品牌提供的新答案。在本次分享中,将介绍京东在构建品牌消费者精细化运营平台的过程中,相关行业思考、技术应用和产品形态,为听众解码品牌在互联网下半场的新增长动力。围绕以下三方面进行介绍:互联网下半场的营销生态消费者精细化运营重新定义营销京东消费者精细化运营平台的三次进阶互联网下半场的营销生态1.

Base-x 编码的奥秘

Base Encoding 是一组二进制转文本的编码模式(Encoding Scheme),常见的有 Base64、Base58、Base32、Base16。大家不仅疑惑为什么需要二进制转文本这种编码模式呢?常见误解之一就是既然所有的编码最终都会变成 0 和 1,那么分成 ASCII 和 Base64 编码是不是就没有必要呢?Base 编码的历史1970~1980 年代,DEC(和其他公司)生产的“微型计算机”使用的字符编码为 ASCII。每个字节使用 7 位,给出 128 个可用值。这足以满足大写和小写拉丁字母,数字,标点,一些常见的数学符号,货币符号和控制字符的需要。

千行百业如何建设5G网络?华为推出5G toB公网专用风筝方案

2021年, 是5G toB规模商用元年。运营商亦面临着从哪个行业开始切入,从哪个场景开始做起等问题。其次,面对各行各业千差万别的联接诉求,如何建设这张5G toB网络,既能兼顾运营商所倡导的“集约化”运营、又能满足垂直行业的安全隔离诉求?《5G toB核心网建设白皮书》中提到,5G toB市场具备高度差异化的联接诉求、确定性的联接能力、边缘计算能力等市场特征。根据不同行业的安全隔离和成本诉求,需要有不同程度的网络共享/独占模式。而边缘计算MEC的部署位置一方面取决于网络共享/独占模式,另一方面取决于业务对时延的要求。

数字世界的“高速入口”:华为发布F5G超级站点

ETSI(欧洲电信标准协会)于2020年2月正式发布了F5G(第五代固定网络)代际标准,F5G标志着固定网络领域第一次有了清晰的代际划分,也意味着网络市场正在从“带宽红利”向“体验红利”转变。过去一年,全球已有超过60家运营商加入F5G产业组织。目前国内政策也在积极推动F5G光纤升级。光纤宽带已被纳入“新基建”范畴,国家发改委、工信部多次发文要求加快推动光纤网络升级,打造数字化新基建以促进传统产业的转型升级。在2月24日上海举办的MWC 2021大会上,华为面向全球运营商,发布了“F5G超级站点”解决方案。

最强“打工人”:库克喜提8亿年终奖

库克的丰收2020:年薪涨近30%,喜提8亿年终奖,苹果重登季度销量冠军库克收获8亿年终奖在2月23日举行的线上苹果公司股东大会上,苹果股东投票批准了针对苹果高管的薪酬计划,其中包括首席执行官蒂姆·库克的薪酬计划。文件显示,库克的整体薪酬在2020年增长了28%,达到1476万9259美元。其中包括300万美元的基本工资,1073.1万元的绩效奖励和超过103.82万美元的其他补贴。针对库克的一揽子股票计划是,如果苹果达到某些业绩目标,该计划将使他获得100万股新股。据此方案,库克将得到100万股苹果股票的奖励。如果按照2月24日的美股收盘价计算,这笔年终奖价值1.25亿美元(约8亿人民币)。

EdgeRec:边缘计算在推荐系统中的应用

推荐系统在今天互联网产品和应用中起着举足轻重的地位。一般的推荐系统是基于云端计算中心到边缘 ( 比如手机、平板电脑等 ) 的结构,这其中会由于网络带宽和延迟等导致结果的延迟。边缘的实时计算可以利用用户的实时信息提供更好的推荐。本次分享题目为 “EdgeRec:边缘计算在推荐系统中的应用”。主要内容包括:边缘计算背景介绍端上重排系统端上混排系统端上训练与千人千模边缘计算背景介绍1. 边缘计算 v.s.

数十亿用户数据,上千个用户标签维度,用户分析怎么做?

1月14日,Kyligence 产品经理陈思捷开启了我们在 2021 年的首场线上分享,为大家介绍了用户行为分析的应用场景、以及通过一些行业案例展示如何使用 Kyligence 进行用户行为分析,最后用 Demo 演示了具体的行为分析过程。文章末尾也可以直接观看整个 Demo 过程,更有大家在会上的 Q&A 解答,感兴趣的小伙伴别错过啦。用户行为分析是什么?用户行为是指用户为使用产品或获取服务而进行的一系列行动。以网站或者手机应用为例,用户点击按钮、跳出网页、注册等都属于用户行为,而用户行为分析是指对用户行为数据进行分析。为什么大部分企业都需要做用户行为分析呢?快速决策。

量子比特编码:如何用量子计算机汇编语言编程

量子汇编语言“Jaqal”由美国桑迪亚国家实验室(Sandia National Laboratories)在其 QSCOUT 平台上开发。QSCOUT 的离子阱(ion trap)利用电磁场来维持一条镱 -171 离子链,它的作用是充当量子比特。2 月推出的离子阱拥有 3 个量子比特,2021 年将升级到可容纳 10 个量子比特。程序命令激光器向离子发射紫外光脉冲,以控制它们的方向和量子状态。可以说,在没有量子计算软件和硬件的情况下,量子计算还不算成熟。桑迪亚国家实验室位于美国新墨西哥州阿布奎基,该实验室进行一个开源量子计算机的项目,目的是通过定制的量子计算汇编语言来解决这一问题。

解读云原生技术

云原生的技术体系看似纷乱繁杂,但在不同视角都体现着“牵一发而动全身”的主线。从时间线来看,容器技术的发展催生了云原生思潮,在底层解决了资源供给问题,随后开源的 Kubernetes成为容器编排的标准规范。点击查看原文>

半年招聘筛选了400+份简历,告诉你怎么写容易被撩!

简历是对个人能力的包装,也是用于建立在面试官和求职者的桥梁。当然面试也是一场战斗,要在简历中给面试官留好坑和雷,这样大家才有撩下去的动力!点击查看原文>

当我们谈数字化转型时,我们在说什么

什么是数字化?说白了,就是使用数字化信息来使既定的工作方式更简单、更高效。那什么是数字化转型呢?数字转型的目的和核心都是实现业务转型、创新和增长,而我们的基石就是数字化技术。因此,企业做数字化转型,无非就三个目的:业务转型、业务创新、企业增长。什么是数字化转型?自党的十八大以来,习总书记指出:“世界经济数字化转型是大势所趋,新的工业革命将深刻重塑人类社会”“要促进数字经济和实体经济深度融合”。随着大数据、云计算、人工智能等新一代信息技术的快速发展,正在催生出许多新的生产方式、产业形态、商业模式和经济增长点。

vivo AI计算平台弹性分布式训练的探索和实践

背景2018年底,vivo AI 研究院为了解决统一高性能训练环境、大规模分布式训练、计算资源的高效利用调度等痛点,着手建设AI计算平台。经过两年的持续迭代,平台建设和落地取得了很大进展,成为 vivo AI 领域的核心基础平台。平台从当初服务深度学习训练为主,到现在演进成包含 VTraining、VServing、VContainer 三大模块,对外提供模型训练、模型推理和容器化能力。VTraining是一站式的通用训练平台,支持多种框架的大规模分布式训练,并配备PB级别规模的分布式存储。

多媒体内容理解在美图社区的应用实践

移动互联网时代,图像和短视频等多媒体内容爆发,基于计算机视觉的AI算法是多媒体内容分析的基础。在美图社区智能化发展的过程中,视频和图像分类打标、去重以及质量评估的结果,在推荐、搜索以及人工审核等多个场景下都有应用。本文主要介绍美图社区图像和短视频分析,如何减少短视频去重在美图社区误召以及OCR在内容审核的应用以及落地。多媒体内容理解美图社区和多数社区一样,包含图片、文字、音频、视频等多种形态的数据。社区内容五花八门、质量层次不齐、数据分布极度不均匀,这给内容理解带来了很大的挑战。总体来说,多媒体内容理解的应用分为四个方向:内容审核、内容质量、内容标签和特征工程。1.

拥抱Golang和云原生的日志系统实践

引言在大多数的业务系统的构建和开发之中,日志作为系统运行背后的产出,描述着我们系统的行为和状态,是开发和运维人员对系统进行观察和分析的基石。在系统状态比较微小和原始的状态下,日志可能仅仅是为了打桩和调试而存在的,或独立、或单一的记录,但随着我们系统不断的复杂化、模块化,服务与服务之间的配合不断的密切化、分布化,我们对于日志描述的精准化、规范化、可观察化的需求就愈发凸显。本文是《微服务中台技术解析》系列文章第七篇,将简要介绍 FreeWheel 核心业务系统团队经过多年的思考、开发、迭代之后形成的日志系统实践。

阿里深度树匹配召回体系演进

目前不管是广告还是推荐业务,最底层的技术都是检索,由于候选集合非常大,可能从千万甚至亿级别取出数十个用户感兴趣的商品。在算力和时间复杂度的约束下,往往采用分阶段漏斗的算法体系。具体来说就是分成召回 ( match ) 以及排序 ( rank )。本文主要介绍阿里在match阶段的最新实践——深度树匹配,分成几个部分:检索召回技术现状深度树匹配(TDM)技术演进TDM业务应用实践总结与展望检索召回技术现状1. 互联网业务中检索召回技术的发展对于match这一部分来说,我们的核心问题是要从一个大规模的候选集合里面高效检索出topK。单点计算消耗和所需计算次数决定了系统性能边界。

为什么说开发者指标是不可靠的?

如果你曾经管理过软件项目,你可能会问自己:我们团队如何才能更快地前进?现在前进的速度有多快?面对这类问题,我们倾向于依赖指标。毕竟,我们在开发软件时经常并且已经成功地使用了指标。我们有性能、生产负载和运行时间指标,还有一些基于用户行为的指标,如转化率和留存率。这些指标不仅提供了可见性,更重要的是,它们创造了一个反馈循环。为了对一些东西加以改进,我们可以做出一个变更,并用指标来衡量改进的程度。开发者的智慧告诉我们,每一个软件性能优化都必须从指标开始。既然指标如此有用,我们就不能把它们应用到软件开发速度中吗?

多目标推荐场景下的深度学习实践

58 同城作为一个 UV 千万量级的APP,覆盖了租房,招聘,二手房,二手车,本地生活,新房,新车等多个业务。在首页这个复杂的业务推荐场景下,我们面临着多业务融合挑战。如何利用从双通道到多通道到多场景适配的深度学习模型,实现涉及连接效率提升,增加商业收入,提高用户体验,优化用户流程,支持运营活动的各种目标的平衡。本文将以58同城首页猜你喜欢为例,将具体介绍实践多业务融合推荐场景下的深度学习模型应用,以及相关的工程实践。多业务融合的挑战在多业务融合的推荐场景下,召回策略,重台策略,展示样式,排序模型都会面临多业务所带来的挑战:① 召回策略:会涉及到多个召回通道的业务适配。

教你用5步检测出企业网络中的恶意爬虫

恶意爬虫(bot)在企业网络的安全漏洞中起到至关重要的作用。这已经不是什么秘密。爬虫经常被恶意软件利用,在企业网络中传播。但检测和移除恶意爬虫却很复杂,这是由于操作环境中的许多日常进程,诸如软件更新,用的都是爬虫。直到最近,一直都没有什么有效的方式让安全团队能区分出“好爬虫”和“坏爬虫”。开源源码和社区规则声称它们可以辨别爬虫,但收效甚微;误报太多。最后,安全分析专家会因为追踪分析“好爬虫”触发的无关紧要的安全警报而疲于奔命。在Cato,我们保护客户网络时也面临相同问题。

为什么预计算技术代表大数据行业的未来,一文读懂

了解 Kylin 的技术同仁,一定对预计算这个概念不陌生。业内对于预计算的价值一直褒贬不一,今天笔者将结合自己的十多年的工作经验,从预计算的历史、原理到企业的应用,以及未来的发展来为大家带来更为全面的解读。预计算的早期形式预计算是一种用于信息检索和分析的常用技术, 其基本含义是提前计算和存储中间结果,再使用这些预先计算的结果加快进一步的查询。其实在我们不知道预计算的时候,我们就已经使用过预计算了。 预计算的历史大概可以追溯到 4000 年前古巴比伦人最早使用的乘法表。

利好信息不断,国产基础软件的变局到了吗?

对话嘉宾 | 星环科技 CEO 孙元浩采访 | 极客邦科技 CEO 霍泰稳整理、编辑 | 冯垚2013 年, 孙元浩离开了就职 10 年的英特尔,同年创办星环科技,正式开启了基础软件国产化之路。英特尔 10 年,他经历了从底层 BIOS 到操作系统内核再到编译器的磨练,创业之后便专注于数据库领域。7 年时间,星环科技已全面覆盖基础软件领域的产品和服务。知名分析机构 Wikibon 更将星环科技评价为“产品策略对西方供应商非常具有指导意义的中国公司”。孙元浩表示:“颠覆发生时,大家都在同一起跑线上,这正是我们超越的机会。

AWS EMR在搭建大数据平台ETL中的应用实践

AWS Elastic MapReduce(EMR)是Amazon提供的托管集群平台,用户可以非常方便的使用EMR搭建起一套集群,用来支撑大数据框架的应用,如Apache Spark、Hive、Flink、Presto等等。因为EMR具有很好的可配置性和伸缩性,使用者可以灵活的根据自己的需求进行定制,在满足生产需求的同时,减低对基础设施的运维成本。FreeWheel大数据团队在搭建数据仓库的过程中,在EMR的使用上积累了大量的实践和运维经验,本文将从EMR实践的角度出发,讲述FreeWheel Transformer团队在搭建ETL pipeline的过程中是如何玩转EMR的,以期抛砖引玉。

一种面向自然场景下的低质文本识别方法

本文共分为六个部分,第一个部分是关于图匠数据公司的介绍,第二部分针对自然场景OCR识别技术的简介,第三部分关于深度学习OCR技术的简介,第四部分是深度学习超分辨率技术的简介,第五部分结合我们今年在ECCV会议上发表的一篇文章,plugnet,介绍关于低质文本文字识别方面的工作,第六部分是工作总结。图匠数据公司介绍首先是关于图匠数据公司的介绍。图匠数据的英文名叫ImageDT。它是一家全球零售与消费品行业的AI商业服务领导者,成立于2016年11月,经过近几年的迅速发展,已经经历了五轮的头部基金融资,目前推出了啄木鸟,天鹰,保罗三款核心业务产品。点击查看原文>

© 云聚网互联网资讯 我要投稿 云聚网博客 DeepHub IMBA