(图片来源:unsplash)
钛媒体 App 8 月 16 日消息,国内 AI 创业公司 「上海秘塔网络科技有限公司」(简称 「秘塔科技」) 发布声明称,知网近日发函警告 AI 搜索初创公司秘塔科技,未经许可在 AI 搜索结果中呈现学术文献题目、目录及摘要内容,构成严重侵权,侵权告知函长达 28 页。
秘塔科技表示,《中国学术期刊 (光盘版)》 电子杂志社有限公司作为中国知网 CNKI 系列数据库编辑出版单位,对该数据库 (包括题录摘要数据及全文数据) 享有所有权利。秘塔科技通过秘塔 AI 搜索官网及 APP 向用户提供该学术文献题录及摘要数据,且数据量巨大。知网称,此行为未经许可,严重侵犯了知网合法权益。知网方面要求秘塔科技立即停止在搜索服务中提供其学术文献题录及摘要数据,同时,不希望知网网站被秘塔科技搜索到,并立即断开与知网网站的链接。「如需商务合作,请与我司联系」。
对此,秘塔科技表示,依照学术规范,文献的摘要和题录应具有独立性和自明性,能够使读者不阅读全文就能获得必要的信息。秘塔 AI 搜索的 「学术」 版块仅收录了论文的文献摘要和题录,并未收录文章内容本身,阅读正文需通过来源链接跳转至网站获取。知识的价值在于流动,学术文献作为汇集了人类智力成果的重要载体,具有极强的不可替代性。科学文献若成为一种奢侈品,既不利于知识的公平获取,也不利于科学研究的发展。
秘塔科技强调,即使不理解这一行为,但公司尊重知网的选择。从即日起,秘塔 AI 搜索将不再收录知网文献的题录及摘要数据,转而收录其他中英文权威知识库的文献题录及摘要数据,也欢迎其他数据库来合作探讨。
据悉,秘塔科技成立于 2018 年,公司 CEO 闵可锐此前为猎豹移动公司的首席科学家,现任北京大学法律人工智能实验室首席智能科学家。
2018 年,秘塔陆续推出法律 AI 翻译产品 「秘塔翻译」,纠错校对产品 「秘塔写作猫」;又在 2022 年推出文章生成产品 「量子速写」,上线一周内日活过万。
今年 3 月以来,由秘塔科技打造的 「秘塔 AI 搜索」 突然爆火,引起市场关注,当月网站访问量超过 700 万次。据网站访问数据监测平台 Similar Web 显示,秘塔搜索 3 月的访问量在中国一批 AI 产品中排名第三,仅次于百度文心一言和月之暗面 Kimi;当月增速达到 550%。
今年 8 月,秘塔科技宣布完成超 1 亿人民币的 A 轮融资,由蚂蚁集团领投,投后估值达 1.5 亿美元 (约合人民币 10.77 亿元)。而秘塔之前的老股东有明势资本、猎豹移动和丰元资本等。
从产品角度来说,和传统搜索引擎相比,AI 搜索直接为用户给出问题答案并附加来源链接。而秘塔 AI 搜索官网提供 「简洁」「深入」「研究」 三种回答模式,搜索范围可设置 「全网」、「文库」、「学术」、「播客」 等来源。
针对告知函后续,据南方都市报,秘塔科技首席运营官王益为表示,知网并未在告知函中具体指出侵犯何种权益。秘塔 AI 搜索知网的 「学术」 板块也是能给知网带来流量的,一些用户通过秘塔 AI 搜索激活自己的知网账号,为知网付费,本身是一件知网受益的事情。鉴于知网要求断开链接,「我们也就不强行有交集了」。
据王益为透露,此前 AI 搜索结果不只是链接知网一家,但其他的中英文权威数据库目前均未提出断开链接的要求。而断开知网链接后并不影响秘塔产品的使用体验。
钛媒体 App 了解到,知网母公司同方知网 (北京) 技术有限公司,近期与华为打造了一个名为中华知识大模型 (华知大模型),可支撑知识服务、科学研究、探究学习、生产经营、辅助诊疗、智慧司法等领域场景。
同方知网总经理张宏伟在今年 7 月透露,知网是业界领先的数字出版和知识服务的企业,用户遍布全球 90 多个国家,教育、科研、智库、政府、企业、科研机构基本上都是知网用户,尤其在国内教育科研机构基本上 100% 市场占有率。目前,同方知网隶属于中国核工业集团,是一家央企,该机构和全球 70 多个国家、两万多家出版机构都建立了合作关系,初步建成世界知识大数据的体系,运营着全球最大的中文知识资源库。
张宏伟指出,基于华知大模型,公司对知网全线产品进行深层改造,从加工、标注到面向各个行业的服务平台增加这一工具,进行了全线改造。自今年 5 月中旬正式对公众开放以来,华知用户量迅猛增长,目前个人用户已经突破 1000 万。
不过,知网曾屡次被罚,行业对其发展模式存在一定质疑。2022 年 12 月 26 日,市场监管总局依法作出行政处罚决定,责令知网停止违法行为,并处以其 2021 年中国境内销售额 17.52 亿元 5% 的罚款,计 8760 万元;2023 年 9 月,国家互联网信息办公室对知网 (CNKI) 依法作出网络安全审查相关行政处罚的决定,责令停止违法处理个人信息行为,并处人民币 5000 万元罚款,援引包括其运营的手机知网、知网阅读等 14 款 App 都被指存在相关问题,以及违反必要原则收集个人信息、未经同意收集个人信息、未公开或未明示收集使用规则、未提供账号注销功能、在用户注销账号后未及时删除用户个人信息等。
中国政法大学比较法学研究院教授刘文杰认为,摘要是论文内容尤其是思想观点的集中归纳,如果为网络用户提供搜索服务,而抓取网上公开数据以提供论文摘要,应属于著作权法上的合理使用,通常不构成侵犯著作权。
日前,国际著名期刊 《自然》(《Nature》) 杂志编辑伊丽莎白·吉普尼 (Elizabeth Gibney) 发布文章表示,当前有越来越多的学术出版商正在将研究论文授权给科技公司,用于训练 AI 模型。有学术出版商借此赚取了 2300 万美元,而作者却收入为零。这些交易在很多情况下并未征求作者的意见,引发了部分研究人员的强烈不满。
「如果你的论文还没有被用作 AI 训练数据,很可能很快就会成为训练的一部分。」 伊丽莎白·吉普尼在文中指出,当前学术论文作者在面对出版商出售其版权作品时几乎无权干涉。对于公开发表的文章,也没有现成机制来确认这些内容是否被用作 AI 训练数据。在大语言模型使用中,如何建立更加公平的机制保护创作者的权益,值得学术界和版权界广泛讨论。
大语言模型 (LLM) 通常依赖从互联网上抓取的大量数据进行训练。这些数据包括数十亿片段的语言信息 (称为 「标记」),通过分析这些标记之间的模式,模型得以生成流畅的文本。学术论文因其内容丰富、信息密度高,相比大量普通数据更有价值,是 AI 训练中的重要数据来源。Mozilla 基金会数据分析师斯特凡·巴克 (Stefan Baack) 分析指出,科学论文对大语言模型的训练有很大帮助,尤其是在科学主题上的推理能力方面。正是由于数据的高价值,各大科技公司纷纷斥巨资购买数据集。
上海大邦律师事务所高级合伙人、律师游云庭表示,秘塔 AI 搜索的 「学术」 版块最大的问题在于可以完整展现文章内容,「论文 PDF 在研究结果里,虽然不能下载,但用户在结果页里点 PDF 的链接,是可以查看这篇文章全文的,这侵犯了这篇文章的信息网络传播权。」 但如果吸收了文章精华后, AI 用自己的方式转述给用户,根据 《著作权法》 规定,为了说明某个问题合理引用部分作品内容的,属于合理使用。
对于大模型用论文数据做训练,游云庭表示,这种行为并不侵权中国知网。根据 《著作权法》,训练的过程是复制和学习,复制是将文章从网络复制到服务器里训练,学习是否属于侵权,目前在法律上没有明文判决可以判断。但不管是复制权、学习,还是涉及到的著作权的其他权利,中国知网都不是论文权利人。
张宏伟坦言,AI 大模型时代,知网需要建立生态与合作。
「如果说没有上游、没有出版业、没有数据产业持续供给,高质量数据实际上我们人工智能产业是很难持续高质量的发展,我们要解决这样一个问题实际上需要我们全行业来考验智慧,我们需要协同发力,共同共建一个 AIGC 时代的好的生态来共同促进这个产业高质量发展。我们知网愿意在这个方面和大家一起合作,来促进产业持续的、高质量的发展。」 张宏伟表示。
(本文首发于钛媒体 App,作者|林志佳,编辑|胡润峰)