券商之家
全国站

国产开源MoE模型DeepSeek-V2震撼来袭,性能直追GPT-4,大模型价格战一触即发!

来源:中国银河
2024-08-23 15:16:20
摘要
事件:5月7日,知名私募巨头幻方量化旗下的AI公司DeepSeek发布全新第二代MoE大模型DeepSeek-V2。性能直逼GPT-4Turbo,综合能力位于大模型第一梯队。DeepSeek-V2是一个参数为2360亿的MoE模型,每个token仅激活210亿参数,支持128K的上下文长...

事件:5月7日,知名私募巨头幻方量化旗下的AI公司DeepSeek发布全新第二代MoE大模型DeepSeek-V2。

性能直逼GPT-4Turbo,综合能力位于大模型第一梯队。DeepSeek-V2是一个参数为2360亿的MoE模型,每个token仅激活210亿参数,支持128K的上下文长度。1)纵向对比:对比去年11月发布的DeepSeek67B性能取得显著提升,训练成本节省了42.5%,KV缓存减少了93.3%,最大生成吞吐量提高到了5.76倍。2)横向对比:上下文长度对标GPT-4Turbo(128K);中文综合能力(AlignBench)超越Llama3,在开源模型中表现最强,与文心4.0等闭源模型在评测中处于同一梯队,仅次于GPT-4Turbo;英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B处于同一梯队,超过MoE开源模型Mixtral8x22B。此外在知识、数学、推理、代码等方面也有出色的性能。

DeepSeek-V2训练计算量降低,推理能力表现高效。DeepSeek-V2训练数据集是由8.1Ttoken的高质量、多源预训练语料库组成,采用的Transformer架构中由一个注意力模块和一个前馈网络(FFN)组成,并且在注意力机制和FFN方面采用了创新架构:一方面设计了MLA(Multi-headLatentAttention),利用低秩键值联合压缩来消除推理时键值缓存的瓶颈,DeepSeek-V2消耗的显存(KVCache)只有同级别Dense模型的1/5-1/100,每token成本大幅降低;另一方面,FFN采用高性能MoE架构DeepSeekMoE,以经济的成本训练强大的模型。我们认为,DeepSeek-V2大幅提升训练效率,训练所需计算量约为GPT-4的1/20,但性能基本上相差无几,目前来看参数是影响大模型性能的关键因素之一,除此之外,架构优化能有效提升降低训练成本,提升训练效率,将成为另一个影响大模型性能的关键因素。

API价格降至约GPT-4Turbo百分之一,大模型价格战即将拉开帷幕,利好AI应用层快速渗透。目前DeepSeek-V2API定价为每百万token输入1元、输出2元(32K上下文),几乎低于所有市面上主流大模型价格,约为GPT-4Turbo的1/100。我们认为,DeepSeek-V2提升数据集质量及优化架构,成本大幅降低,在价格方面提升竞争力,大模型将逐渐进入价格战时期,AI应用将快速渗透。

投资建议:国产大模型迭代加速,训练成本降低,进一步加速应用端落地,而应用端推广又将进一步催生算力新需求。建议重点关注:1、国产算力:海光信息、中科曙光、神州数码、曙光数创、润泽科技;2、大模型及多模态:科大讯飞、昆仑万维(传媒覆盖)、万兴科技、拓尔思、海康威视、大华股份、商汤-W(0020.HK);3、AI医疗:嘉和美康、卫宁健康;4、AI办公:金山办公、彩讯股份;5、AI教育:科大讯飞、欧玛软件、拓维信息;6、AI法律:通达海、金桥信息、华宇软件;7、AI金融:恒生电子、财富趋势、同花顺;8、AI能源:国网信通、国能日新等。

风险提示:技术研发进度不及预期风险;供应链风险;政策推进不及预期风险;消费需求不及预期风险;行业竞争加剧风险。

  【点击查看研报:PDF原文】

免责声明
本站所有收录的券商、游资及发布的图片、内容,均收集整理自互联网或自媒体,仅供参考。目的在于促进信息交流,不作为任何投资和交易的根据,据此操作风险自担。我们尊重作者版权,版权归属于原作者,不保证该信息的准确性、真实性、完整性、有效性、及时性、原创性等。

大家都在看

【法院公告】上海一中院关于“银来系”集资诈骗案件投资人信息登记核对平台使用的相关说明

【法院公告】上海一中院关于“银来系”集资诈骗案件投资人信息登记核对平台使用的相关说明

上海一中院正在办理的(2023)沪01执1799号案件,被执行人为上海银来投资(集团)有限公司、蒲晓东、夏小平等。经生效刑事判决认定,银来集团通过虚构或放大应收债权、投资项目、投资规模与盈利能力等形式,由银来资产
2024-08-21
赛科希德:2024年上半年净利润6272.33万元 同比增长4.15%

赛科希德:2024年上半年净利润6272.33万元 同比增长4.15%

  中证智能财讯赛科希德(688338)8月22日披露2024年半年报。2024年上半年,公司实现营业总收入1.59亿元,同比增长12.40%;归母净利润6272.33万元,同比增长4.15%;扣非净利润6226.36万元,同比增长3.63%;经营活动产生的现金流量
2024-08-21
【动态】多地发现电诈黑灰产“洗钱”新形式

【动态】多地发现电诈黑灰产“洗钱”新形式

近日,北京市公安局丰台分局成功破获多起电诈案件,抓获犯罪嫌疑人15名。据了解,这些团伙通过组织他人在黄金店铺大量购买黄金制品,以此转移电信诈骗案的涉案款项。2024年初,温州市公安局鹿城区分局绣山派出所接到上...
2024-08-21
子公司借款逾期、被申请破产 棒杰股份跨界光伏命运多舛

子公司借款逾期、被申请破产 棒杰股份跨界光伏命运多舛

  跨界不足两年,“追光者”棒杰股份(002634.SZ)的跨界梦或将破碎。   8月21日,棒杰股份发布公告称,扬州棒杰新能源科技有限公司(以下简称扬州棒杰)在银行、融资租赁公司等金融机构累计逾期的借款金额合计约1.66
2024-08-21
良品铺子:副总经理刘玲女士辞职

良品铺子:副总经理刘玲女士辞职

  良品铺子(SH 603719,收盘价:10.23元)8月21日晚间发布公告称,良品铺子股份有限公司董事会于2024年8月20日收到副总经理刘玲女士的书面辞职报告,刘玲女士提出辞去公司副总经理职务,辞职后不在公司担任其他职务。由于...
2024-08-21
浩洋股份:目前公司业务以国外市场为主,国内市场为辅

浩洋股份:目前公司业务以国外市场为主,国内市场为辅

  每经AI快讯,有投资者在投资者互动平台提问:董秘好。公司上半年国外销售额下滑了8%,是什么原因导致的?   浩洋股份(300833.SZ)8月21日在投资者互动平台表示,目前公司业务以国外市场为主,国内市场为辅,不同的
2024-08-21
【深度】中国「杀猪盘」魔爪伸向全球 近4年欧美人士被骗金额惊人

【深度】中国「杀猪盘」魔爪伸向全球 近4年欧美人士被骗金额惊人

據美媒報導,以往在中國和東南亞常見的「殺豬盤」網路愛情騙局,近年隨著中國在2021年禁止加密貨幣交易等因素,受害者從中國人和東南亞人轉向了美國。據一項研究統計,近四年歐美受害者被詐騙金額至少150億美元。據報
2024-08-21
【判例】“招转培”诈骗 一案三审,从十年八个月到实报实销

【判例】“招转培”诈骗 一案三审,从十年八个月到实报实销

【涉案罪名】诈骗罪改为合同诈骗罪【涉案金额】182万余元【判决刑期】十年八个月到四年六个月【辩护律师】 高正纲,安徽金亚太律师事务所刑辩分所副主任、刑事业务中心副主任 花文静,安徽金亚太律师事务所刑辩分所知
2024-08-21
北京首秀 特斯拉Optimus人形机器人将亮相世界机器人大会

北京首秀 特斯拉Optimus人形机器人将亮相世界机器人大会

  8月20日,北京商报记者从特斯拉获悉,在今年8月21日—25日举办的2024年世界机器人大会上,特斯拉Optimus人形机器人、赛博越野旅行车、FSD(完全自动驾驶能力)将悉数亮相,其中Optimus人形机器人将迎来北京首秀。   据了...
2024-08-20
【关注】乒乓球运动员倪夏莲奥运后被千尺学堂签约了!量子之歌旗下千尺学堂品牌体验官从倪萍变成了倪夏莲!预测下一位体验官还姓“倪”

【关注】乒乓球运动员倪夏莲奥运后被千尺学堂签约了!量子之歌旗下千尺学堂品牌体验官从倪萍变成了倪夏莲!预测下一位体验官还姓“倪”

量子之歌很多人可能无感,但是启牛大家都知道,因为广告此前投放非常迅猛,是搞财商课的一家机构,量子之歌旗下除了启牛、还有讲真、千尺,包括另一家拾青学堂也是和量子之歌存在千丝万缕的关系,老板此前是也是启牛...
2024-08-21