时间: 2024-09-01 11:09:39 | 作者: 工会活动
一、 本公司董事会、监事会及董事、监事、高级管理人员保证半年度报告内容的真实性、准确性、完整性,不存在虚假记载、误导性陈述或重大遗漏,并承担个别和连带的法律责任。
截至2024年6月30日,公司尚未实现盈利,主要系公司专注于大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具等基础软件领域研发。大数据基础软件行业属于技术密集型行业,具有研发投入高、研发周期长、技术壁垒高的特点。公司坚持“自主研发、领先一代”的技术发展策略,目前公司正处于快速成长期,在研发、销售及管理等方面投入较大,公司目前的营业收入规模比较小,尚未形成突出的规模效应,不能完全覆盖各项期间费用及成本的投入。报告期内,为不断寻求技术突破以加强产品竞争力,公司持续加大研发投入力度,不断寻求技术突破以加强产品竞争力。同时,公司加强销售和售前队伍的建设,进行有关垂直行业的市场开拓、客户挖掘及行业深耕,以保证公司业务的持续稳定增长。
研发投入和市场拓展是公司立足于长远发展而进行的投入,是支撑公司长远健康发展的基石。公司目前募投项目进展顺利,公司将持续聚焦研发技术创新、加速产品落地、拓展市场占有率,提升公司的核心竞争力。
公司已在本报告中详细阐述公司在经营过程中可能面临的风险,敬请查阅本报告第三节“管理层讨论与分析”中“五、风险因素”相关的内容。
五、 公司负责人孙元浩、主管会计工作负责人李一多及会计机构负责人(会计主管人员)苏昕声明:保证半年度报告中财务报告的真实、准确、完整。
本报告所涉及的公司未来规划、发展的策略等前瞻性陈述,不构成公司对投入资产的人的实质承诺, 请投资者注意投资风险。
十一、 是不是真的存在半数以上董事没办法保证公司所披露半年度报告的真实性、准确性和完整性 否
星环信息科技(上海)股份有限公司,由星环信息科技(上海) 有限公司于 2020 年 12 月整体变更设立的股份有限公司
财政部于2006年2月15日颁布的《企业会计准则》及其应用 指南和其他相关规定,和相关规定、指南的不时之修订
用户用以对计算机的数据库来控制、更新、扩充、传送和其 他操作的软件系统
涉及关系型/非关系型、集中式/分布式、多模型、云原生等一 种或多种数据管理模式的软件集合
Structured Query Language,结构化查询语言的缩写,用于 存取数据及查询、更新和管理关系数据库系统
处理海量、个性化、多样化的数据存储、计算及流数据实时计 算等场景为主的一套基础设施
用商品化互连网络把商品化计算机作为基本单元连接起来,配 置松散耦合的计算机软件,以协作完成计算工作的计算机系统
面向主题、不可更新、随时间一直在变化的数据集合,用于支持 企业或组织的决策分析处理。为便于多维分析和多角度展现 而将数据按特定的模式进行存储所建立起来的关系型数据库
一个以原始格式存储数据的存储库或系统。它可以按原样存储 数据,而无需事先对数据来进行结构化处理
一种面向特定应用的、更小更集中的数据仓库,主要是针对具体 的、部门级别的应用
主要对来自交易数据库或其他数据源的历史数据进行高效地 批量查询或分析,大多数都用在企业内部数据决策分析、数字化运 营等领域
实时的、面向应用的数据库,响应及时性要求很高,具备快速 读写单个数据行的能力,同时保证数据完整性
OLAP(Online Analytical Processing),指联机分析处理, 基于数据仓库中的海量数据来进行的联机的复杂查询和多维分 析处理
一种在统一、综合的平台下同时支持多种不同的数据模型的数 据库,数据模型可包括传统的关系模型和NoSQL数据模型(文 档模型,键值模型,图模型),多模型数据库拥有一种或多种 查询语言
一种以闪存为存储介质,针对闪存高性能读写特点而设计的数 据库,主要使用在于对复杂查询有较高性能要求的场景
一种以具有时间标签特征(按照时间顺序变化)的数据作为基 本存储和处理单元的数据库,主要使用在于金融交易数据分析、 传感器数据分析等场景
以对象作为存储基本单元的技术,用于解决分布式场景下文件 目录带来的性能问题,拥有扁平化、便于扩展、简单访问的特 点。
NotOnly SQL,泛指非关系型的数据库,数据存储可以不需要 固定的表格模式,一般有水平可扩展性的特征
计算机的一种布置方式,将一个硬件或软件组件分布在不同主 机上,主机之间利用互联网连接,彼此之间仅仅通过消息传递进 行通信和协调
是指文件系统管理的物理存储资源不一定直接连接在本地节 点上,而是通过计算机网络与节点(可简单的理解为一台计算 机)相连;或是若干不同的逻辑磁盘分区或卷标组合在一起而 形成的完整的有层次的文件系统
计算机的一种布置方式,由一台或多台主计算机组成中心节 点,数据存储以及总系统的业务单元都集中部署于该中心节 点,系统所有的功能均由中心节点集中提供
以非关系模型(文档模型、键值模型、图模型)数据作为基本 存储和处理单元的数据库
人工智能(Artificial Intelligence),是研究、开发用于模 拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一 门技术科学
专门研究计算机如何模拟或实现人类的学习行为,以获取新的 知识或技能,重新组织已有的知识结构使之不断改善自身的性 能
数据模型是数据特征的抽象,它从抽象层次上描述了系统的静 态特征、动态行为和约束条件,为数据库系统的信息表示与操 作提供一个抽象的框架。数据模型所描述的内容有三部分,分 别是数据结构、数据操作和数据约束
由个人或企业拥有或者控制的,能够为公司能够带来未来经济利益 的,以物理或电子的方式记录的数据资源
事务的参与者、支持事务的服务器、资源服务器以及事务管理 器分别位于不同的分布式系统的不同节点之上
数据云是采用云原生技术打造的 PaaS 云,它以数据为中心, 提供完整的数据、应用和智能的开发工具,实现数据和应用互 通互联的云技术,可以更好地加速数字化建设
通过网络以按需、易扩展的方式获得所需的资源(硬件、平台、 软件)。提供资源的网络被称“云”。“云”中的资源在使用 者看来是可以无限扩展的,并能随时获取,按需使用
云原生技术有利于各组织在公有云、私有云和混合云等新型动 态环境中,构建和运行可弹性扩展的应用。云原生的代表技术 包括容器、服务网格、微服务、不可变基础设施和声明式API
云服务提供商部署 IT 基础设施并进行运营维护,将基础设施 所承载的标准化、无差别的 IT 资源提供给公众客户的交付模 式
IT基础设施的所有权属于该企业或机构,但外包给专业服务商 进行部署和托管的云服务模式
用户同时使用公有云和私有云的模式。一方面,用户在本地数 据中心搭建私有云,处理大部分业务并存储核心数据;另一方 面,用户利用互联网获取公有云服务,满足峰值时期的 IT 资源 需求
PaaS(Platform as a Service),平台即服务的缩写,构建在 IaaS之上,除了基础架构之外,还提供软件应用的开发组件和 运行环境通常还具备相应的存储接口
IaaS(Infrastructure as a Service),基础架构即服 务的缩写,即通过虚拟化技术将服务器等计算平台和存储和网 络资源一起打包,通过API接口的方式提供给用户
一个标准化的软件单元,它将代码及其所有依赖关系打包,以 便应用程序从一个计算环境可靠快速地运行到另一个计算环 境
在公有云、混合云和私有云上提供基于容器技术的服务,即允 许将一个程序运营的所有代码和相关操作系统通过容器封装 后实现灵活的部署及运用
指软件架构支持一个实例服务多个用户(Customer),每一个 用户被称之为租户(Tenant),软件给予租户可以对系统来进行 部分定制的能力
数据中台是在政企数字化转型过程中,对各业务单元业务与数 据的沉淀,构建包括数据技术、数据治理、数据运营等数据建 设、管理、使用体系,实现数据赋能
Application Programming Interface的简称,即应用程序编 程接口,是一些预先定义的函数,目的是提供应用程序与开发 人员基于某软件或硬件得以访问一组例程的能力,而又无需访 问源代码
中央处理器(Central Processing Unit)的简称,是计算机的 主要设备之一,功能主要是解释计算机指令和处理计算机软 件中的数据
图形处理器(Graphics Processing Unit)的简称,又称显示 核心、视觉处理器、显示芯片或绘图芯片。是一种专门在个人 计算机、工作站、游戏机和一些移动电子设备(如平板电脑、智能 手机等)上进行图像和图形运算的处理器芯片
将应用程序按功能逻辑划分为更小的服务单位,其间通过轻量 级数据通路做灵活连接组合,提供基于负载的架构弹性伸缩及 更高的系统级容错能力
一种保护隐私安全的分布式的机器学习框架,能够让各参与方 在不共享数据的前提下,联合进行机器学习。在保护用户隐私、 企业数据安全、符合政府法规的基础上,联邦学习可从技术角 度打破数据孤岛,实现AI协作
一种保证两个或多个数据提供方在不泄露敏感数据的前提下 进行联合计算的技术和系统。在隐私计算的框架下,参与方的 数据不出本地,各方能对密文数据做多元化的分析计算并验证计算结 果,保证在所有的环节中数据可用不可见
Procedural Language/SQL,过程化SQL语言,在普通SQL语 句的使用上增加了编程语言的特点
I(Input)即输入,O(Output)即输出,IO即(数据的)输 入及输出
一种逻辑数据层,用于集成孤立存在于不同系统中的所有企业 数据,管理统一后的数据以实现集中化安全和治理,并将这些 数据实时交付给业务用户
即第五代移动通信技术,是最新一代蜂窝移动技术,具有高速 率、高可靠、超带宽、低时延、低功耗等特征,可提高数据传 输速率、减少延迟、减少相关成本、提高系统容量并实现大规模设 备连接
实时的、面向应用的分布式数据库,响应及时性要求很高,具 备快速读写单行数据的能力,同时保证数据完整性
在信息技术领域,高可靠性(high reliability)指的是运行 时间能够很好的满足预计时间的一个系统或组件
灾难备援,指的是利用科学的技术方法和方法,提前建立系统 化的数据应急方式,以应对灾难的发生
一种开源的分布式大数据处理方式,可以使用户在不了解分布 式底层细节的情况下开发分布式程序,充分的利用集群进行高速 运算和存储
把高级计算机语言编写的程序代码翻译成为计算机可以运行 的二进制机器语言代码的技术
一种嵌入在应用程序中的组件,可通过预定义的语义模块编写 业务决策,从而将业务决策和应用程序代码分离
面向不同计算平台和应用环境,使用信息系统模块设计、开发和评 价的工程化技术和方法。以工程化作为基本出发点的数据处 理、分析和应用方法与技术
根据服务器池中的负载,对服务器池中的计算资源量进行增加 或者减少的调整
分布式数据存储、点对点传输、共识机制、加密算法等计算机 技术的新型应用模式
一种将原始数据进行转换,使其符合业务逻辑要求,从而提升 机器学习性能的过程
Hadoop Distributed File System,是指一种被设计成适合运 行在通用硬件上的开源分布式文件系统
通过新技术、数字工具与数据能力重塑产品/服务的所有的环节, 降低与用户之间的摩擦,提升用户价值的运营效率
关于某数据的名字、意义、描述、来源、职责、格式、用途以 及与其他数据的联系等的信息
企业资源计划(Enterprise Resource Planning),是指建立 在信息技术基础上,集信息技术与先进管理思想于一身,以系 统化的管理思想,为企业员工及决策层提供决策手段的管理平 台
Office Automation,即办公自动化,企业内部的信息化平台
医院信息系统(Hospital Information System),利用计算机 软硬件技术、网络通信技术等现代化手段,对医院及其所属各 部门的人流、物流、财流进行综合管理,对在医疗活动各阶段 产生的数据来进行采集、储存、处理、提取、传输、汇总、加工 生成各种信息,从而为医院的整体运行提供全面的、自动化的 管理及各种服务的信息系统
Java Script Object Notation缩写,是一种轻量级的数据交 换格式。它基于ECMAScript(欧洲计算机协会制定的js规范) 的一个子集,采用完全独立于编程语言的文本格式来存储和表 示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交 换语言。易于人阅读和编写,同时也易于机器解析和生成,并 有效地提升网络传输效率
一种用于数据共享的密码学技术,可分享数据库的一些统计特 征,而不泄露单条明细数据
具有信息自感知、自决策、自执行等功能的先进制作的完整过程、系 统与模式的总称
一门面向对象的编程语言,具有功能强大和简单易用两个特 征,是静态面向对象编程语言的代表
Database Platform as a Service,数据库平台即服务
将服务器、网络、储存设施、操作系统平台于一身的软硬件一 体化解决方案,可降低IT复杂性
一种在单台计算机上同时运行多个逻辑计算机的技术,每个逻 辑计算机可运行不同的操作系统,并且应用程序都可以在相互 独立的空间内运行而互不影响
一种压缩的、高性能的、高可扩展性的基于 Google 文件系统 (Google File System,GFS)的数据存储系统,用于存储大规 模结构化数据
在图拓扑中,链路查询指以一个或多个顶点为起点,经由节点 之间的联结边,查找距离为K的节点和路径,查询难度随K值 增加上升。在一般图拓扑中,通常认为六层及以上的链路查询 为深度链路查询
Artificial Intelligence Generated Content,生成式人工 智能
检索增强生成,Retrieval-Augmented Generation,一种利用 从外部来源获取的事实来提高生成式 AI 模型的准确性和可靠 性的技术,它对大语言模型输出来优化,使其能够在生成响 应之前引用训练数据来源之外的权威知识库。
International Business Machines,国际商业机器公司,一 家信息技术和业务解决方案提供商
一家提供商业智能和分析软件及解决方案、智能领域专业咨询 服务、基于SAS解决方案的专业培训和技术上的支持等服务的公司; SAS(语言)指SAS公司开发的一门用于统计分析的程序语言; SAS(软件)指SAS公司开发的数据分析软件
由TPC发布的一款端到端人工智能基准测试集。该基准衡量端 到端机器学习或数据科学平台的性能。基准开发的重点是模拟 与当前生产数据中心和云环境相关的代表性行业人工智能解 决方案的行为。
由TPC发布的一款用于评测决策支持系统的标准SQL测试集, 这个测试集包含对大数据集的统计、报表生成、联机查询、数 据挖掘等复杂应用,测试用的数据和值不是均匀分布的,接近 于真实数据,TPC-DS测试数据集的规模为TB级。
IDC(International Data Corporation,国际数据公司),一 家国际数据集团旗下全资子公司,提供信息技术、电信行业和 消费科技市场的咨询、顾问和活动服务
一家 IT 研究与顾问咨询公司,为客户提供客观、公正的论证 报告及市场调查与研究报告,协助客户进行市场分析、技术选择、项 目论证、投资决策
数据量单位,1TB约为1,000GB,1PB约为1,000TB,1EB约为
Independent Software Vendors,独立软件开发商
一家领先的AI研究和部署公司,专注于开发和推广人工 智能技术,并通过开放的研究和合作,促进人工智能技术的普 及和应用。
总体拥有成本,涵盖了从采购、部署、运维到退役整个生命周 期内的所有成本。
Change Data Capture,一种用于实时捕获数据库变更的技术
一种在SSD上构建的近邻图索引,能够迅速准确地进行大规模 数据最近邻搜索
Transwarp Technology(Shanghai)Co.,Ltd.
2024年1月11日,经公司2024年第一次临时股东大会审 议通过,公司注册地址由“上海市徐汇区虹漕路88号B 栋11-12楼”变更为“上海市徐汇区虹漕路88号3楼、B 栋11楼”。
并办理工商备案登记、修订及制定公司部分内部 管理制度的公告》《2024年第一次临时股东大会决议 公告》
报告期内,受宏观经济环境影响,客户数字化预算执行节奏放缓,采购决策以及验收流程延长。在严峻的市场形势压力下,公司依然展现出坚韧的业务执行力,公司上半年营业收入14,014.55万元,较上年同期微幅增长。
目前公司正处于快速成长期,在研发、销售等方面需要持续投入,公司的营业收入规模比较小,虽然已经实现了核心技术的产业化应用,但规模效应还有待逐步提升,公司的营业收入规模比较小,不能完全覆盖各项期间费用及成本的投入。
计入当期损益的政府补助,但与公司正常经 营业务紧密关联、符合国家政策规定、按照 确定的标准享有、对公司损益产生持续影响 的政府救助除外
除同公司正常经营业务相关的有效套期保值 业务外,非金融企业持有金融实物资产和金融负 债产生的公允市价变动损益以及处置金融资 产和金融负债产生的损益
企业取得子公司、联营企业及合资经营企业的投 资成本小于取得投资时应享有被投资单位可 辨认净资产公允市价产生的收益
对于现金结算的股份支付,在可行权日之 后,应付职员薪酬的公允市价变动产生的损 益
对公司将《公开发行证券的公司信息公开披露解释性公告第1号——非经常性损益》未列举的项目认定为的非经常性损益项目且金额重大的,以及将《公开发行证券的公司信息公开披露解释性公告第 1号——非经常性损益》中列举的非经常性损益项目界定为经常性损益的项目,应说明原因 √适用 □不适用
公司是一家企业级大数据基础软件开发商,围绕数据的集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期提供基础软件及服务,已形成大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具的软件产品矩阵,支撑客户及合作伙伴开发数据应用系统和业务应用系统,助力客户实现数字化转型。
公司主要提供两大类的产品和服务:第一类是大数据基础软件业务,包含基础软件产品和与产品相关的技术服务;第二类是应用与解决方案,主要是针对大数据应用场景,提供大数据存储、处理以及分析等相关场景下的咨询及定制开发等服务的解决方案;除上述两类业务以外,公司依据客户及项目需求销售少量第三方软件、硬件等其他业务。
公司的第一类大数据基础软件业务中所包含的基础软件产品,主要由下列三大类产品矩阵所构成:
TDH 是公司自主研发的一站式大数据基础平台,包括多个大数据存储与分析产品,能够存储PB级别的海量数据,可以处理包括关系表、文本、时空地理、图数据、文档、时序、图像、向量等在内的多种数据格式,提供高性能的查询搜索、实时分析、统计分析、预测性分析等数据分析功能。
TDC 是一款基于容器技术的数据云平台,支持将大数据基础平台、分布式关系型数据库、智能分析工具等大数据软件以PaaS云服务的方式提供给客户,满足客户对数据平台的多租户、弹性可扩展和使用灵活性的要求,可以在一个云平台上支撑大量的用户需求和数字化应用,适用于建设大型企业的数字化基础设施、城市大数据中心的数据平台、企业级数据应用云以及跨多数据中心的数据平台等场景。
ArgoDB 是面向数据分析型业务场景的分布式闪存数据库产品,主要用于构建离线数据仓库、实时数据仓库、数据集市等数据分析系统。
KunDB是一款兼容Oracle和MySQL的分布式交易型数据库,集中式与分布式一体化,可快速由集中式扩展为分布式,主要用于支持操作型业务场景(如ERP、OA、HIS等)和高并发场景(如消费者的手机APP应用、居民码查询等)的核心数据系统的构建。
TDS是公司研发的一款用于大数据开发的工具集。TDS内置多个数据工具产品,为企业构建数据仓库、数据湖、数据中台,提供高效的数据集成、数据治理、数据资产管理、数据标签与服务、数据共享与交易等工具,提高开发者对数据系统的建设效率,提升业务客户对数据资产的利用效率,帮助客户实现数据对业务的赋能。
Sophon是一款一站式人工智能平台,它能够在统一的平台上,端到端对多种模态数据完成(i)数据(含语料数据、知识数据)的接入、清洗、生成、标注、评估、存算、推理和辅助决策;(ii)模型(含传统机器学习模型、深度学习模型、大模型等)的训练、构建、组装、测试、管理和持续迭代;(iii)智能体和应用的搭建、优化和运营;到(iv)数据要素流通的各个过程。同时,Sophon也能为不同的智能数据分析业务提供便捷的存、算资源管理和调度、监控、安全、审计等企业级功能。Sophon内置了多类机器学习算法,并支持多种主流机器学习计算框架、算法和人工智能模型在Sophon平台运行,能够赋能用户更高效地进行大模型和智能体的开发和应用、大规模复杂数据分析和预测性分析,从而敏捷化加速和辅助业务决策,提高企业的数字化运营能力和智能化决策能力。
公司主要销售大数据基础软件业务相关的软件产品和技术服务,以及为客户提供应用与解决方案。其中,大数据基础软件业务是公司的主要盈利来源。报告期内,公司大数据基础软件产品包括大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具。根据不同客户或项目需求,公司大数据基础软件业务主要以软件产品授权的方式交付,少量情况下也提供软硬一体交付方式,此外,根据部分项目具体需求,公司为大数据基础软件产品或相关的软硬一体产品配套提供相关的技术服务。报告期内,公司主要通过永久授权模式向客户销售软件产品,授权收入按照每个客户及具体项目需求,按照授权数量收取软件授权费。技术服务及应用与解决方案按项目计价模式或人月计价模式收费,其中维保类服务通常按服务期限收费。公司持续进行新客户的开发、销售,并随着公司客户积累及客户大数据相关信息系统建设需求,向老客户提供已购产品扩容、新软件产品销售、提供技术服务及应用与解决方案的方式,实现老客户对公司产品或服务的复购。
公司秉承“自主研发、领先一代”的技术发展策略,由公司总经理作为公司研发工作总负责人,负责技术和产品研发的统筹安排,技术和产品研发的具体工作由产品研发部门落实完成。为保证研发质量,推动技术创新,公司针对技术研发过程制定了详细的流程管理制度,主要是通过产品研发生命周期管理和软件工程过程管理两大类流程,控制开发各环节的工作质量,提高开发作业能力和研发工作效率,保证产品和技术的先进性。
按照每个客户类型不同,公司销售模式分为直接销售和渠道销售两种模式。其中: (1)直销模式指公司直接面向最终用户进行签约,并向最终用户直接交付公司产品与服务的销售模式。在直销模式下,公司销售团队主要负责新客户的拓展以及存量客户的需求挖掘。公司总部及各地的子公司、分公司等本地化机构具备良好的销售及综合服务能力; (2)渠道销售模式指公司与项目合作伙伴和经销商等生态合作伙伴直接签约,通过与生态合作伙伴合作向终端用户交付公司产品与服务的销售模式。其中,项目合作伙伴最重要的包含直接面对中大型终端用户的系统集成商或应用开发商,拥有丰富的行业服务经验和(或)自有的IT产品,能够与公司协作形成具有实际应用价值的产品或解决方案。项目合作伙伴通常根据终端用户的需求采购公司的产品,并结合其自有IT产品或其他厂商产品(如有)销售交付给终端用户。经销商为行业内有着非常丰富软件推广经验的合作伙伴,与公司签署有效的合作伙伴协议或框架协议,并在合作伙伴合作协议或框架协议中约定了销售业绩或市场占有率或产品数量等指标。公司与经销商客户之间均为买断式销售,经销商客户在采购公司产品后,向最终用户、系统集成商或应用开发商进行销售。
(1)自用采购主要为公司日常经营和研发过程中所需的服务器、办公设备等相关硬件和少量技术服务以及办公用品,由采购部门依据内部需求执行采购流程;
为了提升项目收益率、提高交付效率以及缩短实施周期,公司会向技术服务供应商采购技术服务。公司技术服务采购分为工时计价和项目计价两种方式。公司采购的物料主要为软硬件一体机的硬件设备及通用工具软件。
对于项目采购,公司成立了内部制度规范采购行为,由采购部门依据客户需求执行采购流程。
公司制定了《项目外采管理办法》《内部采购管理及供应商管理制度》等相关制度规范采购行为。
依据国家统计局《国民经济行业分类》(GB/T4754-2017),公司所处行业属于软件和信息技术服务业(I65)。根据《战略性新兴起的产业分类(2018)》,公司所属行业为“新一代信息技术产业”之“新兴软件和新型信息技术服务”之“新兴软件开发”之“基础软件开发”。
近年来随着网络、移动互联网、物联网、5G等信息通信技术及产业的持续不断的发展,全球及中国的数据量均爆发式增长。数据资源总体呈现出“4V”的特点,即海量的数据规模(Volume)、多样的数据类型(Variety)、价值密度低(Value)、快速的数据流转(Velocity)。在大数据时代下,以集中式架构关系型数据库为代表的传统数据管理软件在处理大数据场景时不能很好适应数据的“4V”特性,面临较多技术挑战。随信息技术的发展,数据处理需求的变化推动了数据管理软件技术的变革,从技术发展趋势来看,数据管理软件技术依次按照“关系型、集中式”向“非关系型、分布式”并进一步向“多模型、云原生”这三个阶段进行演变。随技术不断成熟,分布式架构将慢慢的变成为主流。自底向上,传统的集中式资源管理调度逐渐向基于云原生技术的分布式统一资源管理平台发展;数据管理软件技术架构也会因为计算模式的转变出现重大变革,传统的集中式数据库逐渐向分布式、多模型数据库发展;传统数据分析软件逐渐向新型的分布式数据开发和智能分析软件发展。
当前,中国大数据软件领域处于发展的历史机遇期,我国格外的重视大数据在经济社会持续健康发展中的作用。根据国家互联网信息办公室发布的《数字中国发展报告(2022年)》,2022年我国大数据产业规模增加到1.57万亿,在2021年的基础上同比增加18%。根据工信部印发的《“十四五”大数据产业高质量发展规划》,在“十三五”时期,我国大数据产业快速起步,但任旧存在一些制约因素,目前国内的技术支撑不够强,基础软件等关键领域与国际领先水平存在一定差距。在工信部印发的《“十四五”软件和信息技术服务业发展规划》中相关联的内容亦指出,要聚力攻坚基础软件,对数据库等关键基础软件补短板。
传统数据库以集中式架构为主,集中式架构由一台或多台主计算机组成中心节点,数据存储以及总系统的业务单元都集中部署于该中心节点中,系统所有的功能均由中心节点集中处理。
每个终端或客户端仅仅负责数据的录入和输出,而数据的存储与控制处理完全交由主机完成。分布式架构下,软件组件分布在不同主机上,主机之间利用互联网连接进行通信和协调。
随着海量及异构数据的数据分析需求量开始上涨,需要的计算、存储和IO等资源也在极速增加。集中式架构通过改善硬件配置来提升存储和解决能力,但单台主机可配置的资源存在上限,因此传统的集中式架构软件难以满足海量及异构数据的数据集的处理和分析需求。而为了处理 TB 以及PB级别以上的数据规模,分布式的架构将数据分散在网络上多个通过高速网络互联的节点上联合计算。因为数据分布在不同节点,在进行计算任务时,任务也会被切分成多个子任务,分发到多个节点上一起进行计算,能充分的利用整个集群各个节点的计算资源、存储资源和IO资源,可线性提升集群的存储和解决能力。因此,分布式架构能较好地处理该类问题,这也是分布式架构相对于传统单机架构的核心优势。
在大数据场景下,分布式系统在扩展性、容错性、经济性、灵活性、可用性和可维护性方面有着非常明显优势,能够较好地满足大数据分析的需求。此外,近年来,分布式技术持续不断的发展,在提供高弹性、支持高并发的同时,支持关系型数据库中强事务性的特性,成为大数据技术的重要发展方向。
②数据管理软件国产化趋势明显,国产大数据产品有望实现换道超车 国内数据管理软件基本被Oracle、IBM和微软为代表的国外关系型数据库厂商主导,国产软件产品渗透率低。随着国内客户逐渐重视数据与信息安全,国产软件产品在关键领域实现替代成为其中重要环节,慢慢的变多的客户慢慢的开始或计划相关软硬件的采购计划。
大数据时代下,数据管理软件正在慢慢地由集中式架构软件向分布式架构软件演进,国产大数据产品有望实现换道超车,对国外数据管理软件进行替代。从功能来看,基于新兴分布式架构的国产大数据产品已经能满足市面上绝大多数数据应用场景基础需求。但国产大数据产品能否在市场之间的竞争中胜出、占据更多的市场占有率,仍然取决于国产大数据产品能否构建自主研发的生态和产品的全球竞争力。目前,为保障国家信息安全,自主研发的国产大数据生态体系正在形成,此前国产软硬件发展面临的格局分散、生态基础不完善、规模用户群体缺乏等障碍正被逐步攻克。
随着国产大数据生态体系进入快速协同发展阶段,国产大数据产品与服务迎来较好的发展机遇。
数据模型是决定数据库系统逻辑的主要的因素,并从根本上决定以何种方式存储、组织和操作数据,包括传统的关系模型和NoSQL数据模型(文档模型、键值模型、图模型等)。大多数数据库管理系统只能支持一种或少数几种数据模型,因此企业通常只可以使用多种数据库产品联合的方案来应对日渐增长的异构数据模型处理需求。
随着大数据厂商技术实力的提升,逐渐出现了可提供多数据库模型的大数据平台技术。相比多种数据库产品的集成方案,多种数据库模型统一的大数据平台的优势包括:(1)提升场景效率。同一份数据可以分别采取了多种数据模型存放,解决不同场景的处理效率问题;(2)统一分析管理。关联不同模型的数据,统一分析管理;(3)降低运维成本。不需要维护多种数据库,降低运维成本;(4)降低数据持有成本,同一份数据在不同的数据模型当中不需要全量存储,不同模型只需要存储必要的数据内容即可,在查询时能够最终靠关联的方式获取全量信息。
未来多模型数据平台将通过逐步的提升计算、存储引擎的解决能力,从操作响应速度、数据并发能力、数据管理成本等多个角度优化企业的数据需求,成为多模大数据平台的重要发展趋势。
云原生的代表技术包括容器、服务网格、微服务、不可变基础设施和声明式API,这些技术可构建容错性好、易于管理和便于观察的松耦合系统。结合可靠的自动化手段,云原生技术使工程师能够轻松地对系统作出频繁和可预测的重大变更。云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。面对客户日渐增长的海量数据、多种数据结构的实时化、智能化处理需求,云原生的大数据平台架构凭借计算存储解耦、资源池化、Serverless等核心技术,提供了高弹性拓展、海量存储、多种数据类型处理及低成本计算分析的能力。相比传统数据库,云原生数据库及数据管理平台天然具备灵活性,可提供强大的创新能力、丰富多样的产品体系、经济高效的部署方式和按需付费的支付模式。
⑤国家加速数据要素市场建设,推动数据安全流通技术的商业化加速 2021年12月12日,国务院发布《“十四五”数字化的经济发展规划》,其中强调“充分的发挥数据要素作用”。随着《要素市场化配置综合改革试点总体方案》《关于加快建设全国统一大市场的意见》《关于构建数据基础制度更好地发挥数据要素作用的意见》《关于征求
意见的函》等有关政策不断落地,彰显数据要素的重要性。报告期内,国家也不断推出支持大数据相关行业和数据要素市场发展,支持数据安全流通技术发展的有关政策。2023 年 1 月,工信部等十六部门联合印发《关于促进数据安全产业高质量发展的指导意见》,提出到2025年,数据安全产业基础能力和总实力显著地增强,产业规模超过1500亿元,年复合增长率超过30%,到2035年,数据安全产业进入繁荣成熟期。2023年3月,十四届全国人大审议通过国务院机构改革方案,正式成立国家数据局,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字化的经济、数字社会规划和建设等。(未完)