韩忠恒:从《非诚勿扰》谈到Watson技术
|
张磊:除此之外,Watson还有自我学习的能力,《危险边缘》这个比赛在美国已经有几十年的历史了,他们有一个庞大的粉丝群,他们创建了一个网站,把历史比赛数据记录下来,免费公开。Watson利用过去几十年积累的数据,通过对这些数据深度挖掘,掌握了过去几十年比赛出现的规律,这一点也很关键。 张磊:我们给它输入这么大量的数据库,让它学习,这是非常大的计算工作,我们要依赖一个大规模处理的平台,来完成这个任务,所以我们采用了Power7系统。 张磊:有了这些能力之后,我们看到它是怎么把这些能力组装起来,并解答这些问题。左下脚是我们给他们灌输的大量百科知识,用自然语言处理技术,Watson可以阅读这些百科知识,变成机器可以理解的技术,储存在哪儿。右下方是《危险边缘》积累了历史数据, Watson学习了这些历史数据,就得到了一些数学模型,刻划了比赛规律。Watson 为什么答错问题,就是比赛类别在过去几十年当中对比赛影响非常小,那一题当中,恰恰比赛类别信息很重要,所以答错了。Watson实际上对历史数据有一个学习的过程,会形成这些数学模型。有了这些数学模型和知识,就会把这些模型和知识用于处理问题。有一个E码信息处理结架构,这个架构处理完就会得到一个问题的结案。通过这些讲述,大家会有一个初步的了解,Watson怎么 判别问题和回答问题。 韩忠恒:抓住问题的重点,已经是回答问题成功的一半。Watson在3秒钟就可以找到问题的答案,也是一个非常困难的事情。 我们进入下一个视频。 (播放视频) 如果你知道问答的问题,我们去搜索,用Google和百度搜索,你搜韩忠恒是谁,你会得到300到400万的答案,我们如何在3秒钟之内把8%的问题答对。 张磊,你跟我们分享一下吧。 张磊:在Watson赢得了这个比赛以后,有很多人会问我们这样的问题,Watson为什么很快找到那个答案,它和搜索引擎有什么不同。我们知道你给搜索引擎问一个问题,它会给成千上万的网页,但不知道正确的 答案是什么,它是给你大量的网页。Watson怎么能够很快在大量信息当中精确到唯一的答案呢?这依赖于视频当中提出的深度问答的框架、方法和系统。深度问答的框架、方法和系统是综合了大量分析型算法,从很多不同的角度,逐个判断搜索 回来的那些结果当中,哪些有可能是正确答案,哪些不可能是一个正确的答案,这是一个复杂的过程,我给大家解释一下。 张磊:屏幕当中是问Watson的问题,1898年5月,葡萄牙庆祝了这个开拓者到达印度的400周年。这个开拓者是谁?Watson分析了一下庆祝是这个句子的谓语,有一些关键词,右边是Watson在庞大知识库当中找到这个知识,这个知识5月嘉黎完成周年庆从葡萄牙到达了印度。Watson会分析到一些关键词和谓语,深度问答会用搜索引擎的办法进行关键词匹配,它会从关键词上匹配,这个知识能不能回答这个问题。这也是现在的搜索引擎所采用的方法。这个例子当中关键词匹配得很好,5月匹配5月,庆祝匹配5年,通过关键词的匹配,它告诉我们嘉黎就是这个开拓者,人可以很容易看出来,但是机器不知道,它只知道这个可能是正确的答案。我们还需要更加深层次的分析算法从其他角度去看,到底哪个是正确答案。 张磊:这一页我们举了一些例子,所谓深度分析算法,问题还是同一个问题,就是左边蓝颜色的部分,右边绿颜色是Watson在庞大知识库里面找到另外一条信息。 张磊:这条信息说1498年5月27日达伽马登录在卡巴马海滩,Watson会分析到谓语和关键词,我们会明显的看到,如果仅用关键词匹配,这两个东西是很难匹配,登录和到达不匹配,我们会用深度分析。深度分析有三个算法,一是时序推理,可以计算时间和问题的分析,1898年减去400,就是1498年,二是统计同义判断,这个算法阅读了大量的人类语言以后,它做过一些统计,它会发现登录和到达这个单词在意思上是相近的,三是地理上也可以推理,卡巴马海滩在印度,它会分析出达伽马是真实的答案,Watson通过大量的算法评估才能得到答案。 韩忠恒:通过你详细的解读,我了解了,关键是深问答架构。 韩忠恒:我们看下一段视频。 (播放视频) 韩忠恒:我们知道深度问答是一个架构文件,如果是一个软件,我们是不是可以用别的平台,比如说英特尔,过去几年研发当中,我们不断调优和进化,回答数据也非常快,我们可以用别的代替吗?为什么一定是Power7呢?徐宁回答一下。 徐宁:一开始研发小组尝试过用X86平台作为Watson的系统,但是发现一个问题进入到这个系统,两个小时才可以得到答案,这显然无法参加比,所以研发者就转到Power。Power7从研发开始就把大规模的并行计算作为一个主要研发方向,我们知道Power7芯片里面IBM采用了一个专利技术就是EDY,我们可以把三级缓存集中在芯片之中,我们在芯片内部可以提供超过500G 访问带宽,非常适合大规模并行预算。 徐宁:很多人没有注意过Power7里面一句话,Power7芯片可以同时支持2万个系统耦合的操作,很多人不理解耦合是什么意思?这是芯片里面一个非常关键的技术。北京现在天天堵车,堵车是什么原因呢?当我修了一路,车越来越多,一开始车跑的起来,车再多了,整个路会被堵死,一辆车都跑不动。我们耦合技术就是系统里面同样出现这样情况,应用负载越来越大,系统会被整个堵住。耦合操作相当于路上放了2万个警察,它负责协调各个进程之间的数据访问。如果我路上放了警察负责进程数据访问,负载很高的情况下,系统也可以顺利的运行。很多CPU利用大于90%,还能保证我们运行空间,这是耦合技术非常有关。 徐宁:DQA可以分析问题,需要这个系统有横向扩展能力和纵向扩展能力,Power7芯片中有很多这样的技术,其中有一个智能多线程,当你系统的线程很少的时候,一个CPU就跑一个线程,可以让你线程跑得很快,我可以用一个CPU跑两个线程,甚至四个,我们有一个工作负载优化系统,你需要线程跑得很快,我就调动很少的线程,如果你需要很大的并发量我可以调动很多的线程,你根据不同的需求,进行优化,这就是Watson研发团队为什么选择Power7系统了。 韩忠恒:太好了,Power7还是有很多的优势。过去有很多应用了Power,像深蓝用的就是Power系统,太阳火星探索器也是Power的系统。 徐宁:现在用的是我们Power7平台。 韩忠恒:希望越来越多的系统使用Power7。 韩忠恒:我们接下来再看一个视频,看看Power7的应用。 (播放视频) Watson是一种商业智能的应用,Watson背后就是Power7,其实它在很多行业里面,包括电信行业、政府行业、金融行业都发挥了Power7的功能和应用,Power7不仅仅限于游戏的应用。 张磊,继Watson这个项目当中,我们研发方面有没有新的发展方向和研发规划呢?请你透露一下。 (编辑:云计算网_韶关站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

