世界微速讯:4.9万亿元,历史新高!
网版权文章,未经授权禁止转载
前面说了,第一阶段我们是做销售的应用,早期我们是做标品。紧跟潮流,不断将大数据、AI等新技术融入CRM场景,赶上技术赋予的市场红利迎来第一波增长,先后斩获联想、上海电气、海康威视、施耐德电气等500强企业客户。
另外,2020年的时候,海康威视选择了销售易,通过海康销售易把国际化的这块能力给强化了。这与从管理角度思考,它能给公司带来真正的帮助与价值,差别太大。AI科技评论:这个理念在当时应该挺超前的,什么时候提出来的?史彦泽:2011年,销售易成立,那时候我们的名字叫做仁科互动,人和科技是互动的,客户关系不再是原来的一个流程,客户不只是里面的一个记录,而应该是活的,通过AI、大数据天然地把客户联系在一起。除了数据之外,我们还有AI算法,就是推荐,围绕客户获取的过程,再给你做推荐。销售易有两条路线创新,一条是守正,原来Salesforce、 SAP等公司有的能力,我们必须得搞好这条线
网原创文章,未经授权禁止转载网版权文章,未经授权禁止转载对业内非常关心的成本问题,尤洋表示,大模型训练的一个巨大负担是训练计算量太大。
以下是圆桌讨论部分内容,雷峰网(公众号:雷峰网)根据现场速记做了不改原意的缩写。尤洋:站在我们角度看,主要是训练计算量太大,解决的有效方式主要有三个角度:一是不改变硬件条件下试试能否加速收敛。我们最近在分析这件事,比如,让一个 agent 去执行一个命令的时候,这个命令本身可能是一段文字。参与本次圆桌论坛的嘉宾有:尤洋:新加坡国立大学校长青年教授,潞晨科技创始人季昕华:UCloud董事长星爵:Ziliz 创始人兼 CEO围绕大模型基础设施建设面临的挑战、如何降低大模型训练成本等话题,参会嘉宾进行了热烈讨论。
但是在大模型里面,数据有可能是程序的一个执行命令,这方面,目前也没有太多人研究。毕竟,未来推理成本可能会远大于训练成本。
陈昱:数据的确是一个非常重要的话题,那下面这两个问题其实是和数据相关的。第三,要比以往有更强的有效利用硬件的能力。由于训练一般分阶段,因此公司可以选择租用模式。根据大会安排,峰会首日进行到下午16时,以大模型时代的超级基建为主题的圆桌论坛,在云启资本合伙人陈昱主持下正式开启。
这里,对于场景的劫持会更严重一些。第三,大模型的输出目前是童言无忌的,没有做权限的隔离,这里的风险是非常大的。这也引申出了另外一个问题,之前很多非AI的GPU 之所以很难用来训练大模型的,往往就是因为没有很好的高速互联。星爵则强调了数据方面的问题。
第一,大模型是把数据和程序结合在一起的,而在传统的计算机里面,程序和数据是分开的。据统计,目前国内已经有100余家大模型,这也成为本次大会探讨的主要议题之一。
首先,第一个问题是,在当前的技术水平下面,大模型的基础设施建设会有什么挑战?尤洋:我个人觉得,首先,通信的基础设施非常重要。圆桌结尾,电脑报创始人陈宗周发表了总结感言,他对各位嘉宾的演讲和工作成果都给予了盛赞。
可以把整个的这个神经网络看作一个encode。最后,在大家的掌声中,大模型时代的超级基建圆桌论坛环节正式结束,大会首日活动也由此画上圆满句号。这些问题都会使得整个训练周期会变得非常长。当然我相信英伟达应该还是有很好的前瞻性。而在过去十多年,非结构化数据的管理能力主要由谷歌、微软等大公司掌握。比如说,我们把大模型划分到了很多GPU服务器,把它划分成很多块,本质上其实我们最终都是要汇总的。
同时,他也给出了相应的解决方式。星爵:我们一般会说 AI有三个技术支柱,就是算法、算力和数据。
陈昱:接下来,这个问题是跟钱相关的。陈昱:感谢各位嘉宾的时间,谢谢大家。
陈老师还特别提到,很多讲者已经把事业做得非常庞大,但依然非常谦逊,中间更是有不少人是年轻一代的榜样。季总怎么看这方面问题。
不论做训练还是推理,电费大约占总成本的15%左右,优刻得乌兰察布数据中心能够把电费单价从1块钱/度降低到3毛钱/度。季昕华:在国内,我们服务了五六十家做大模型的公司。无论底层的云,尤教授的软件,还是向量数据库,都有很大的成本优化空间。三是工程问题,就是整个卡之间的网络链接、数据存储性能问题,以及整个训练过程掉卡问题。
四是通过压缩模型等手段,来降低推理成本。星爵:从我们现在看到的应用来讲,向量数据其实已经做了一层类似的数据加密。
新AI时代对数据管理的要求也会变得更大,如何更好地做好智能的数据基建是一个很大的挑战。刚才两位都提到了芯片、算力这方面的基础设施,我想强调下数据层面的问题。
季昕华:我们认为整个大模型有四个方面的安全挑战。陈昱:谢谢雷峰网举办这么好的一个活动。
从这个层面来讲,向量数据库已经实现了一定程度的数据脱敏。第二,是数据劫持问题,通过 promote 进行劫持,这方面不少人都在做研究。这里,我就想请各位谈一下怎么去帮大家省钱的。所以,文字和程序之间可以被套用,存在很大的风险。
比如说,在数据进入我们向量数据库以前,会有一个 transformation 的过程,把图片、视频、文本等向量化,向量化本身的话会用一个大模型的方式去提取一个embedding。过去一段时间,ChatGPT将人工智能推向热潮。
所以,我们主要还是在软件层面上看能不能使它的训练的更高效、更快,从而去降低成本。星爵则从数据层面给出了相应得方案。
另外,安全问题也是蛮突出的,这些问题都会影响到大模型的训练以及未来应用百度将继续致力于围绕生成式AI和大语言模型构建新引擎,推动长期增长。