9月17日,北京康夫子科技有限公司(以下简称“康夫子”)创始人&CEO张超在其官方公众号“康夫子”上发布了一则《对某些“AI”公司来讲,也许只需要一个前端就够了......》的文章,指出近日某家发布融资消息的AI医疗公司涉嫌抄袭其产品内容。
张超称,该公司的创始人曾主动与他接触过,“通过不同的三个人引荐,认识了康夫子三个合伙人”,文章提到,“本着开放、真诚的态度,我们曾在产品、场景、未来想象空间上做了很多介绍”,但很遗憾地发现,原来对方“意不在此”。
原文指出,“据判断,该产品至少80%的数据、素材、逻辑都是抄袭我们左手医生开放平台。对于剩下20%的工作,主要来自对我们数据的二次加工”。
据悉,早在去年,张超就发现有大量爬虫爬取康夫子的知识图谱,“但是因为没有证据说明,所以也只能就此作罢。但是从那之后,我们就在康夫子知识图谱中引入了大量‘标记’”,而这些“标记”却也出现在了涉嫌抄袭的这家公司的产品里。
对此行为,张超及团队都感到非常愤怒,并严厉谴责,“你们可以使用,但要通过我们的左手医生开放平台。你们可以致敬,但不可以抄袭。我们可以开放,但你们不可以窃取”。
同时表示,对方以此抄袭力度,只需一个前端,再基于其他公司的开放平台封装一下,就可以“忽悠投资市场”了。
静态知识库、底层知识图谱等内容涉嫌抄袭
对此,猎云网第一时间连线了康夫子创始人&CEO张超,在接受猎云网的独家采访时,张超表示,涉嫌抄袭的正是9月13日宣布获得熊猫资本近千万元天使轮融资的互联网AI医疗服务公司慧医大白。
在慧医大白的官网介绍中,其成立于2018年,是一家专注医疗健康行业的人工智能公司。根据融资通稿内容,慧医大白主要定位于AI家庭医生,提供的是“在家庭医生的场景下,一款集语义理解、知识图谱、对话管理等技术于一身的B2B2C产品”。
康夫子成立于2015年4月,是一家旨在通过“AI+数据”打造智能机器人全科医生的创业公司,主要专注于人工智能技术在医疗健康领域的应用,通过构建医疗知识图谱,打造精准的人机对话模型,并推出病历结构化、临床决策支持系统和全科机器人医生三项针对医疗咨询和问诊的服务。
从产品类型来看,慧医大白和康夫子都有家庭智能导诊业务。对于公众号中提到的涉及“产品、素材、逻辑”的抄袭行为,张超告诉猎云网,“静态知识库、底层知识图谱等方面,很多地方基本上就是复制粘贴过去的。例如静态知识图库,我们其实在页面上做了几十处‘标记’,我测试的时候还比较疑惑,于是找来张冲(康夫子联合创始人,前百度高级研发工程师),让他把所有我们‘标记’的页面拿出来让我看一下,结果发现,那些我们做过‘标记’的地方,对方都没有删除”。
据张超介绍,康夫子原本建立的静态知识图库内容主要根据大量医疗文献和几百万份病例报告,并结合百科内容,在专业团队的指导下,进行编辑整理、编排,“在这些页面里,我们会写‘康夫子医疗大数据分析提示你….’,而‘康夫子’这几个字,竟然也出现在了他们(慧医大白)知识图库的内容里”。
张超和团队发现,慧医大白的静态知识库内容中糖尿病、消化不良、低血压、先兆流产、肺炎、胃溃疡、腰肌劳损、湿疹、牙龈炎、神经衰弱、肠炎这几类疾病介绍中都有“康夫子”的字样出现。
图片由康夫子提供
而就在猎云网发稿前登陆慧医大白公众号测试却发现,糖尿病、消化不良、低血压、先兆流产、肺炎、胃溃疡等这几类疾病中,关于“康夫子医疗大数据分析提示”的字样已经不见了。
图为猎云网进入慧医大白网公众号测试后的截图
底层知识图谱上,以“便血”症状为例,猎云网在康夫子的“左手医生开放平台”上进行测试,当系统问“患者是哪种情况下出现便血?”时,给出的选项包括:“饮酒”、“劳累”、“辛辣刺激”、“服消炎药”、“进食进水”、“不明原因”和“其他原因”几个选项。
而在慧医大白的“健康助理大白”上,其只是将格式进行了变化,给出的选项内容、排列顺序都没有变化。
图为猎云网在康夫子“左手医生开放平台”上测试截图
图为猎云网在慧医大白“健康助理大白”上测试截图
猎云网随后又测试了“腹泻”症状,发现慧医大白的“健康助理大白”和康夫子的“左手医生开放平台”,就“腹泻符合以下哪种描述?”、“请问腹泻毕竟接近于哪种描述”、“请问以下哪种情况出现腹泻”等问题的选项内容也都十分雷同。
此外,视力下降、视物模糊、耳鸣、呛咳、肌肉疼痛、牙疼、等多个症状的测试结果在选项内容上也并无差别。
图为猎云网在康夫子“左手医生开放平台”上测试截图
图为猎云网在慧医大白“健康助理大白”上测试截图
后台问诊数据曾多次被恶意抓取
正如张超在文章中指出,早在去年就曾发现大量爬虫抓取康夫子的知识图谱。
根据张超提供给猎云网的朋友圈截图,2017年10月24日,他透过朋友圈发文,康夫子的机器问诊数据存在被恶意抓取现象,“昨晚上线了kibana系统,中午就发现了有不少友商在抓我们机器问诊数据啊。这个抓取特征太明显了,第一条是抓取行为,最后一条是用户正常请求行为。提醒友商别抓啦,先回去把脏数据清洗了再说吧”。
由康夫子提供的后台截图发现:
第二组是用户正常请求行为,即:打开次数21868,完成次数是9008,请求次数192420;
第一组为非正常请求行为,即:打开次数26次,完成次数达2次,请求次数1401621。
这里的“打开次数”是指进入页面的次数,“完成次数”则是完成一个病历完整的导诊(通过人机不断提问和回答,得出诊断结果)次数,“请求次数”是指请求服务器测试的次数。
从第一组数据来看,康夫子的左手医生开放平台上收到“请求”1401621次,但完成只有两次。也就是说,每一次“完成”只能形成一个完整的病历结构,而不同的病因、状况下“埋藏”着庞大的结构图谱,为了能将这个庞大的数据图“挖掘”出来,需要对系统进行不断“请求”测试,修改问题的选项,以尽可能完整地抓取数据和图谱知识。
虽然后台有数据可见,但就像张超所说,当时“因为没有证据说明,所以也只能就此作罢”。
对于此次事件,张超表示十分遗憾,“如果认可我们的产品,完全可以与我们合作,没必要以这样的方式”。张超及团队同时认为,“大家一起发力,一起推动智慧医疗的建设是好事,所以我希望在医疗这个市场里的人,通过努力、研发,有一天可以共同实现真正的智能医疗。”
目前,康夫子已经对此次事件做了取证,并在北京方正公证处进行了公证。后续进展,猎云网还将持续关注。
相关报道:
要闻推荐
今日视点
热点专题
- 新闻排行
- 评测排行