今日头条怎么计算网络爬虫相似矩

今日头条这类资讯聚合平台是基于数据挖掘技术,筛选和推荐新闻:“它为用户推荐有价值的、个性化的信息,提供连接人与信息的新型服务,是国内移动互联网领域成长最快的产品服务之一”。自从0年3月创建以来,今日头条至今已经累计激活用户3.亿,日活跃用户超过万。

本文尝试从技术层面分析今日头条的传播机制和相关原理。

网络爬虫:抓取新闻的基本技术

今日头条是一个典型的数据新闻平台,其新闻来源除了合作媒体之外,很大一部分来自于搜索引擎的网络爬虫。

网络爬虫是什么?

STEP:从互联网各个角落收集信息;

STEP:将其中的新闻类信息进行汇总;

STEP3:汇总的信息经过基于机器学习的分类和排序,划分出每一个时刻的热点新闻。

今日头条作为数据新闻平台,与一般数据新闻的区别,在于提供一个媒介平台,展示汇总的信息,而不是一条信息。

网络爬虫的工作机制是什么?

网络爬虫的工作机制依赖于会联网互联网上的超链接网络。

在互联网上多数网页,都有超链接存在。这些超链接将各个网页链接起来构成了一个庞大的网络,也就是超链接网络。爬虫作为一种网络程序从一些网页出发,保存网页的内容,寻找网页当中的超链接,然后访问这些超链接,并重复以上过程,这个过程可以不断进行下去。如图所示:

“今日头条”怎么计算:“网络爬虫+相似矩阵”技术运作流程

STEP:爬虫从一个种子节点0开始爬取网页内容,

STEP:抓取的同时发现两个超链接,并爬取第一级节点,

STEP3:从第一级节点开始又发现第二级节点,这个过程不断进行下去。

这个过程当中有两种策略:

、只有穷尽一个层级的所有页面才爬取下一个层级,这种策略叫做“广度优先”;

、发现一个超链接后,立刻就开始爬取这个网页,并持续深入下去,这种过程叫做“深度优先”。

补充说明:

上图是一个树状网络,现实的网络不是这么简单的,里面充满了“回路”,即新发现的网页里的超链接指向的是已经爬取的老节点。这个时候就需要甄别那些网页已经被成功抓取。

举个栗子——

以今日头条为例说明一下网络爬虫在新闻抓取中的工作流程:

STEP:工作人员先要在后台设置新闻来源的字典,比如“网易新闻”、“新浪新闻”、“凤凰新闻”、“浙江新闻”等等,

STEP:通过这些字典,网络爬虫将会锁定到这些网站的超链接,从中抓取新闻。

补充说明:

如果这条新闻是在这些新闻平台相关的博客当中的内容,而不是新闻平台本身的新闻,网络爬虫就抓不到了。

聚合媒体的概念并非如此简单,除了汇聚来自不同媒体的内容之外,聚合媒体更重要的特征是对不同信息进行分类并排序,得到一个信息汇总界面(aggregator),这种信息汇总往往表现为某种排行榜。这种排行榜在传播机制上满足网络科学中所说的“优先链接机制”,即用户的注意力更倾向于投向那些排名靠前的信息,这个过程可以被经典的传播学发现:“乐队花车效应”。这个发现起源于美国的选举过程。候选人会站在乐队花车上拉选票,赞同者会站到他的车上。研究发现,人们倾向于登上那些站满了人的花车,而非那些只有很少人的花车。

推荐系统:个性化定制新闻的技术逻辑

个性化推荐在今日头条当中发挥着重要作用。

今日头条的用户登录非常人性化。作为一个后起之秀,今日头条非常具有策略性地允许用户使用微博、QQ等社交账号登录。这个过程实际上授权今日头条挖掘个人社交网络的基本信息。因而,便于获取用户的个性化信息,比如用户的兴趣、用户属性。越用越懂用户,从而进行精准的阅读内容推荐。

个性化推荐的基础是构建推荐系统

推荐系统广泛地应用于用户没有明确需求的场景。推荐系统就算法而言,可以分为:

社会化推荐(Socialre







































白癜风治疗方法
早期白癜风能治愈否



转载请注明:http://www.jiaju1314.com/bcxx/bcxx/9969.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了