夜景.jpg
当前位置:主页 > 建 筑 界 >

“今日头条”怎么计算:“网络爬虫+相似矩阵”

2017年04月07日 15:00       来源:网络整理    

“今日头条”怎么计算:“网络爬虫+相似矩阵”技术运作流程

今日头条

今日头条这类资讯聚合平台是基于数据挖掘技术,筛选和推荐新闻:“它为用户推荐有价值的、个性化的信息,提供连接人与信息的新型服务,是国内移动互联网领域成长最快的产品服务之一”。自从2012年3月创建以来,今日头条至今已经累计激活用户3.1亿,日活跃用户超过3000万。

本文尝试从技术层面分析今日头条的传播机制和相关原理。

网络爬虫:抓取新闻的基本技术

今日头条是一个典型的数据新闻平台,其新闻来源除了合作媒体之外,很大一部分来自于搜索引擎的网络爬虫。

网络爬虫是什么?

STEP 1:从互联网各个角落收集信息;

STEP 2:将其中的新闻类信息进行汇总;

STEP 3:汇总的信息经过基于机器学习的分类和排序,划分出每一个时刻的热点新闻。

今日头条作为数据新闻平台,与一般数据新闻的区别,在于提供一个媒介平台,展示汇总的信息,而不是一条信息。

网络爬虫的工作机制是什么?

网络爬虫的工作机制依赖于会联网互联网上的超链接网络。

在互联网上多数网页,都有超链接存在。这些超链接将各个网页链接起来构成了一个庞大的网络,也就是超链接网络。爬虫作为一种网络程序从一些网页出发,保存网页的内容,寻找网页当中的超链接,然后访问这些超链接,并重复以上过程,这个过程可以不断进行下去。如图所示:

爬虫

“今日头条”怎么计算:“网络爬虫+相似矩阵”技术运作流程

STEP 1:爬虫从一个种子节点0开始爬取网页内容,

STEP 2:抓取的同时发现两个超链接,并爬取第一级节点,

STEP 3:从第一级节点开始又发现第二级节点,这个过程不断进行下去。

这个过程当中有两种策略:

1、只有穷尽一个层级的所有页面才爬取下一个层级,这种策略叫做“广度优先”;

2、发现一个超链接后,立刻就开始爬取这个网页,并持续深入下去,这种过程叫做“深度优先”。

补充说明:

上图是一个树状网络,现实的网络不是这么简单的,里面充满了“回路”,即新发现的网页里的超链接指向的是已经爬取的老节点。这个时候就需要甄别那些网页已经被成功抓取。

举个栗子——

以今日头条为例说明一下网络爬虫在新闻抓取中的工作流程:

STEP 1:工作人员先要在后台设置新闻来源的字典,比如“网易新闻”、“新浪新闻”、“凤凰新闻”、“浙江新闻”等等,

STEP 2:通过这些字典,网络爬虫将会锁定到这些网站的超链接,从中抓取新闻。

补充说明:

如果这条新闻是在这些新闻平台相关的博客当中的内容,而不是新闻平台本身的新闻,网络爬虫就抓不到了。

聚合媒体的概念并非如此简单,除了汇聚来自不同媒体的内容之外,聚合媒体更重要的特征是对不同信息进行分类并排序,得到一个信息汇总界面(aggregator),这种信息汇总往往表现为某种排行榜。这种排行榜在传播机制上满足网络科学中所说的“优先链接机制”,即用户的注意力更倾向于投向那些排名靠前的信息,这个过程可以被经典的传播学发现:“乐队花车效应”。这个发现起源于美国的选举过程。候选人会站在乐队花车上拉选票,赞同者会站到他的车上。研究发现,人们倾向于登上那些站满了人的花车,而非那些只有很少人的花车。

推荐系统:个性化定制新闻的技术逻辑

个性化推荐在今日头条当中发挥着重要作用。

今日头条的用户登录非常人性化。作为一个后起之秀,今日头条非常具有策略性地允许用户使用微博、QQ等社交账号登录。这个过程实际上授权今日头条挖掘个人社交网络的基本信息。因而,便于获取用户的个性化信息,比如用户的兴趣、用户属性。越用越懂用户,从而进行精准的阅读内容推荐。

个性化推荐的基础是构建推荐系统

推荐系统广泛地应用于用户没有明确需求的场景。推荐系统就算法而言,可以分为:

社会化推荐(Social recommendation, 比如向朋友咨询);

基于内容的推荐(content-based filtering, 例如根据用户观看过的电影推荐其他与之相似的电影);

基于协同过滤的推荐(collaborative filtering,例如查看排行榜,或者找到和自己兴趣相似的用户,看看他们最近看什么电影)。

所以,可以用于构建推荐系统的信息也分为三类:好友、历史兴趣、注册信息。

友情链接/网站合作咨询: