披露原创识别起源算法的具体细节
2015-11-14 14:25:15 | 来源:新浪微博 | 投稿: | 编辑:小柯

原标题:披露原创识别起源算法的具体细节

百度搜索团队工程师发布文章表示,百度已经抽调大量人员组成原创项目组,致力构建原创环境,推动中文互联网的前进。同时,百度披露了原创识别系统-“起源”算法的部分细节。---东莞网站优化据百度工程师称,百度原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。同时LEE表示,通过实验以及真实线上数据,百度原创识别“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。百度站长平台发布的全文内容如下:牛魔网谈谈原创项目那点事一、搜索引擎为什幺要重视原创1.1 采集泛滥化来自百度的一项调查显示,超过80%的新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艰难又具有挑战性的事情。1.2 提高搜索用户体验数字化降低了传播成本,工具化降低了采集成本,机器采集行为混淆内容来源降低内容质量。采集过程中,出于无意或有意,导致采集网页内容残缺不全,格式错乱或附加垃圾等问题层出不穷,这已经严重影响了搜索结果的质量和用户体验。搜索引擎重视原创的根本原因是为了提高用户体验,这里讲的原创为优质原创内容。1.3 鼓励原创作者和文章转载和采集,分流了优质原创站点的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性,不利于创新,不利于新的优质内容产生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是搜索引擎的一个重要任务。
http://www.nmw88.com/sitemap.xmlhkj

tags:

上一篇  下一篇

相关:

挚爱峰糖——2015第三季度整理专版

【严正申明:路人

了解马佐-顶尖烘焙西点培训机构

马佐顶尖烘焙培训机构,提供私人定制极致烘焙课程。同时也开设翻糖课程培训、茶果子课程培训、甜品饮料课程

站在世界的中心

站在世界的中心/绿亦歌大概是因为高考结束了,微博收到很多姑娘的私信,说高考失败,不知道该复读还是去读专

人类历史到了重大转折的阶段

人类历史到了重大转折的阶段 老曾阿牛这是一篇荒谬的文章,提出不为世人接受的观点,但是,我还是发表出来,

扬州2500周年城庆花絮(14)

邂逅扬州,游园惊梦扬州,景区里品读四季,风景里笑看人生!

个园抱山楼


砌一座楼,抱住了山我

恐怖主义袭击分子高喊着“为了叙利亚”

#亚军微言#当恐怖主义袭击分子高喊着“为了叙利亚”这种高大上的口号,继而心安理得的对着平民百姓实施惨无

送快递这件破事儿

第六十七章一大早徐菲的脸色就不太对,王成忠见妻子如此,关切问她怎幺了。徐菲叹了口气,如实道“我刚才趁

只能拯救你的人,只有你自己

????这个世界你谁都靠不住,只能靠自己,有时候连自己都靠不住了,那你就只能认命吧!你不要期望老天能来帮

我和他分手7个月了,但是我心里一

我和他分手7个月了,但是我心里一直有他,我也从来不想去挽回,因为我知道他不值得我这幺做,很想忘记他,可

ISIS到底要什么?

原载美国《大西洋月刊》作者:Graeme Wood翻译:乔华莘伊斯兰国并不仅仅是一群疯子聚在一起。它是一个宗教团

站长推荐: