Download - 移动互联网的业务访问特性 - ict.ac.cncjc.ict.ac.cn/quanwenjiansuo/2013-7/zgf.pdf · 务二分网络分析模型;然后对现有移动互联网的主要业务应用进行了分类,并利用从某移动通信运营商的互联网

Transcript
Page 1: 移动互联网的业务访问特性 - ict.ac.cncjc.ict.ac.cn/quanwenjiansuo/2013-7/zgf.pdf · 务二分网络分析模型;然后对现有移动互联网的主要业务应用进行了分类,并利用从某移动通信运营商的互联网

书书书

第36卷 第7期2013年7月

计  算  机  学  报CHINESEJOURNALOFCOMPUTERS

Vol.36No.7July2013

 

收稿日期:20120105;最终修改稿收到日期:20130409.本课题得到国家“九七三”重点基础研究发展规划项目基金(2012CB315803)、重庆自然科学基金项目(CSTC.2012jjB40008,CSTC.2012jjA1654)资助.赵国锋,男,1972年生,博士,教授,主要研究领域为未来互联网和移动互联网.Email:zhaogf@cqupt.edu.cn.赖雯静,女,1988年生,硕士研究生,主要研究方向为移动互联网.徐 川,男,1981年生,博士,主要研究方向为移动互联网.唐 红,女,1957年生,教授,主要研究领域为计算机网络.

移动互联网的业务访问特性赵国锋 赖雯静 徐川 唐红

(重庆邮电大学未来网络研究中心 重庆 400065)

摘 要 随着移动网络的快速发展和智能手机的不断普及,移动互联网的用户规模与日剧增,各类业务应用也层出不穷.为分析移动互联网中各类业务的访问特性,文中首先引入复杂网络的研究方法,建立了一个加权用户业务二分网络分析模型;然后对现有移动互联网的主要业务应用进行了分类,并利用从某移动通信运营商的互联网网关上采集的2010年和2011年部分数据集,基于该模型从用户访问兴趣、业务点击量特性、业务流量特性、访问关联性等方面分析了移动互联网的业务访问特性,并比较了用户访问行为的变化.结果发现:门户网站、搜索引擎、社交网站和网络文学是用户访问的主要业务类型;用户访问兴趣范围服从指数分布,用户访问的兴趣强度服从幂律分布;点击量大的网站具有流量相似性而点击量小的网站则没有,但当点击量达到一定规模时则会呈现出流量相似性;在访问关联性方面,门户网站和搜索引擎是最容易被关联访问的业务类型,其次是电子邮箱和社交网站.

关键词 移动互联网;用户行为;二分网络中图法分类号TP393   犇犗犐号 10.3724/SP.J.1016.2013.01388

犚犲狏犲犪犾犻狀犵犛犲狉狏犻犮犲犞犻狊犻狋犆犺犪狉犪犮狋犲狉犻狊狋犻犮狊犻狀犕狅犫犻犾犲犐狀狋犲狉狀犲狋ZHAOGuoFeng LAIWenJing XUChuan TANGHong

(犉狌狋狌狉犲犖犲狋狑狅狉犽狊犚犲狊犲犪狉犮犺犆犲狀狋犲狉,犆犺狅狀犵狇犻狀犵犝狀犻狏犲狉狊犻狋狔狅犳犘狅狊狋狊犪狀犱犜犲犾犲犮狅犿犿狌狀犻犮犪狋犻狅狀狊,犆犺狅狀犵狇犻狀犵 400065)

犃犫狊狋狉犪犮狋 Withtherapiddevelopmentofmobilenetworksandpopularizationofsmartphones,thescaleofmobileInternetusersisexplosivelygrowing,andvariouskindsofserviceshaveemerged.Toinvestigatethecharacteristicsofuseraccessofdifferentkindsofservices,wesetupaweighteduserservicebipartitenetworkmodel.Beforeusingourmodeltoanalyzetheuseraccesscharacteristics,wecategorizethemainservicesinmobileInternetintotwelvetypes.Then,basedontherealdatasetsrespectivelycollectedin2010and2011fromaWAPgatewayofonemainMobileTelecomCarrierinChongqingprovince,wetargettoexposethecharacteristicsofservicevisitstylesfromfouraspects:accessinterest,clicks,trafficfeatures,andaccessrelevance.Wehaveseveralinterestingfindings:(a)thetopfourservicecategoriesbeingvisitedaretheportal,search,onlinesocialnetworksandebook;(b)thenumberofservicecategoriesthatuservisitedwellfitsexponentialdistribution,whiletheuservisitingintensityfitspowerlaw;and(c)thevolumeoftrafficsonwebsiteswhoseclicksarehighwouldshowstrongselfsimilarity,butthosehavinglowclickswouldnot.However,whenthevolumeofclicksonawebsitereachesacertainhighlevel,itwouldshowtheselfsimilarity.Moreover,(d)withrespecttoaccessrelevance,whichmeanstheusers!accesstransfersamongdifferentservicecategories,wefindthattheportalandsearcharethetoptwokindsofserviceswhichtightlycorrelatedwithotherservicecategories,followedbytheemailandonlinesocialnetworks.

犓犲狔狑狅狉犱狊 mobileInternet;userbehavior;bipartitenetwork

Page 2: 移动互联网的业务访问特性 - ict.ac.cncjc.ict.ac.cn/quanwenjiansuo/2013-7/zgf.pdf · 务二分网络分析模型;然后对现有移动互联网的主要业务应用进行了分类,并利用从某移动通信运营商的互联网

1 引 言移动互联网是以移动网络作为接入网络的互联

网及其服务,包括3个要素:移动终端、移动网络和应用服务.其中,应用服务是移动互联网的核心,也是用户的最终目的[1].

移动通信和智能手机的不断普及,使移动互联网近年来得到迅速发展.中国互联网信息中心(CNNIC)的统计[2]显示,截至2011年12月底,我国手机网民规模达到3.56亿,同比增长17.5%,占整体网民的69.3%,且手机网民在手机用户中的渗透率为36.5%.如此庞大的用户群体显示了移动互联网巨大的市场潜力,引起了学术界和产业界的极大关注.

随着移动互联网的用户规模日益剧增,各类业务和应用也层出不穷.移动用户使用各类网络业务应用时,具有怎样的行为及访问特性是一个重要的问题.研究移动互联网的用户行为,了解业务应用的访问特性,对网络管理、新业务应用设计、运营决策等都具有重要意义.

由于数据获取困难等原因,对移动互联网用户行为的相关研究较少.Li等人[3]通过从某流业务提供商服务器上采集的日志记录,揭示了移动流业务与传统流业务在设备软、硬件、视频特性和用户访问模式等方面的差异.Keralapura等人[4]研究了一个3G网络中用户的浏览行为,提出了一种基于新的沙漏模型的可扩展性聚类方法,并利用该方法对用户和浏览文件分别进行了聚类.Ghosh等人[5]研究了从大量公共WiFi热点上采集的实测数据,将所有的应用场景划分为不同的商业模式(咖啡店与快餐店、酒店与书店等),分析了不同商业模式下用户的流量行为特性,主要包括ArrivalPatterns、ArrivalModels、ConnectionTimes、SimultaneousUsers4个方面.Chen等人[6]对用户移动行为模式(UMBPs)进行了研究,以帮助移动服务体系根据用户的活动位置预测和推荐适当的服务.Shafiq等人[7]通过同时从无线接入网络采集的位置信息和从核心网络采集的流量信息,研究了用户对各类应用的使用情况.Lu等人[8]提出了一种叫作MCE的在移动商务环境下挖掘和预测用户运动规律与购买交易之间相关关系的框架,以向用户推荐事先未知的商店和商品,并通过仿真验证了该方法的性能.文献[9]对移动互联网的Web浏览模型进行了研究,通过KS检测方

法,发现移动互联网的Web请求主对象大小、内嵌对象大小累积概率分布更符合帕累托分布,内嵌对象数量累积概率分布服从韦伯分布,内嵌对象间隔时间更符合对数正态分布.

二分网络是复杂网络中的重要网络模型之一,被广泛用于合作、推荐等研究,近年也被引入到网络行为学的研究领域.例如,Xu等人[10]用二分网络描述了互联网中源端与目的端之间的通信模式,并利用单模投影图对终端主机的社交行为相似性进行了研究.

本文研究移动互联网的用户访问行为特性,首先利用加权二分网络模型对移动互联网用户的业务访问行为进行建模;然后基于从某移动运营商的WAP网关上采集的实际数据集,以该模型为基础,从用户访问兴趣、业务点击量特性、业务流量特性、访问关联性等方面分析了移动互联网用户的访问特性,并揭示了用户在两年中的访问行为变化情况.主要贡献有:

(1)建立了加权用户业务二分网络模型,可以有效地刻画用户与业务之间的访问关系.模型中用户集合和业务集合分别为二分网络的一个子集,两个子集之间的逻辑连接关系表明了用户对业务的访问状况.该模型可以有效地分析用户的访问行为特性,并且可根据实际需求灵活定义边权,考察不同的用户行为指标,具有良好的扩展性.

(2)基于从某移动运营商的网关处采集的实际数据集,包括2010年和2011年两个子集,分析了移动互联网用户的访问特性,所得结果具有良好的现实参考意义.

(3)从用户访问兴趣、业务点击量特性、业务流量特性、访问关联性等方面分析了移动互联网用户的访问特性,并分析了用户访问行为的变化.

本文第2节给出一个加权用户业务二分网络模型以及模型的关键要素;第3节对实地采集的数据集进行描述;第4节对移动互联网的网站业务进行分类;第5节利用前述模型,对2010和2011两年的用户访问特性进行分析比较;第6节总结全文.

2 用户业务二分网络模型21 模型建立

移动互联网是提供各种网络应用和业务的平台,并时刻等待着移动用户进行访问.本质来看,用户对业务的访问行为由用户兴趣所驱动,一个用户

98317期 赵国锋等:移动互联网的业务访问特性

Page 3: 移动互联网的业务访问特性 - ict.ac.cncjc.ict.ac.cn/quanwenjiansuo/2013-7/zgf.pdf · 务二分网络分析模型;然后对现有移动互联网的主要业务应用进行了分类,并利用从某移动通信运营商的互联网

可能访问多种业务,一种业务也可能被多个用户访问,从而产生了用户业务的二分视角.于是,我们建立用户业务二分网络模型来刻画用户与业务之间的访问关系,以研究用户的访问行为特性.

模型用一个加权的二分图犌=〈犝,犆,犈〉来表示,图中包含两类结点:用户结点犝={狌1,狌2,…,狌犻,…,狌犿-1,狌犿}和业务结点犆={犮1,犮2,…,犮犼,…,犮狀-1,犮狀},犿和狀分别表示用户的个数和业务的种数.图的邻接矩阵为犃={犪犻犼},若用户狌犻请求业务犮犼,则用边犲犻犼连接两结点,且犪犻犼=1,否则犪犻犼=0.边权矩阵为犠={狑犻犼},边的权重狑犻犼表示用户狌犻访问业务犮犼时的行为指标,如点击量、流量等,可根据不同的需求进行变化.

图1为犿=8,狀=6且边权狑犻犼表示用户点击量的一个用户业务二分网络示例,其中,用户狌1访问犮1和犮2两类业务,请求次数分别为1和2.

图1 用户业务二分网络图示例

22 模型关键特性2.2.1 度

度用来描述图中结点的连接特性.二分网络图中结点的度定义为与该结点相连接的其它结点的数目,且所有结点的度的平均值定义为网络的平均度.分布函数犘(犽)描述了结点的度分布,表示一个随机选中的结点的度恰好为犽的概率[11].

由于二分网络中存在两类不同的结点,二者的度要分别予以讨论.这里分别用犽狌和犽犮表示模型中用户结点和业务结点的度:

犽狌犻=∑狀

犼=1犪犻犼(犻=1,2,…,犿,犼=1,2,…,狀)(1)

犽犮犼=∑犿

犻=1犪犻犼(犻=1,2,…,犿,犼=1,2,…,狀)(2)

在用户业务二分网络模型中,用户结点狌犻的度犽狌犻表示用户狌犻所请求的业务的种类数;业务结点犮犼的度犽犮犼表示请求过业务犮犼的用户数.2.2.2 点强度

对于加权网络,点强度用来表征结点间的相互作用的强弱特性.模型中结点的点强度定义为与该结点相连的所有边的权重之和.分布函数犘(狊)描述了结点的点强度分布,表示的是一个随机选中的结

点的点强度恰好为狊的概率[12].类似地,分别用狊狌和狊犮表示模型中用户结点和

业务结点的点强度:

狊狌犻=∑狀

犼=1狑犻犼(犻=1,2,…,犿;犼=1,2,…,狀)(3)

狊犮犼=∑犿

犻=1狑犻犼(犻=1,2,…,犿;犼=1,2,…,狀)(4)

在模型中,边权狑犻犼可表示用户访问行为中的各项指标,选取指标不同,则点强度的含义也不同.当狑犻犼表示用户狌犻访问业务犮犼中所产生的点击量时,用户结点狌犻的点强度狊狌犻表示用户狌犻的总请求次数;业务结点犮犼的点强度狊犮犼表示业务犮犼被请求的总次数.当狑犻犼表示用户狌犻访问业务犮犼时所产生的流量,则用户结点狌犻的点强度狊狌犻表示用户狌犻产生的总流量;业务结点犮犼的点强度狊犮犼则表示所有访问业务犮犼的用户产生的总流量.23 关联网络图

用户业务二分网络可以有效地反映移动互联网中用户对各种业务的访问统计特征.将二分网络分别向两类结点投影[13],进一步得到用户关联网络图犌狌=〈犝,犈狌〉和业务关联网络图犌犮=〈犆,犈犮〉.例如,图1中的用户业务二分网络所对应的用户关联网络和业务关联网络如图2所示.

图2 用户关联网络图和业务关联网络图示例

在用户关联网络图中,请求访问相同业务的用户狌犻和狌犼相连,边的权重狑狌犻犼代表两个用户请求的相同业务的种类数.

狑狌犻犼=0, 犻=犼

∑狀

犾=1(犪犻犾犪犼犾),犻≠烅

烆 犼(犻,犼=1,2,…,犿,犾=1,2,…,狀) (5)

  类似地,在业务关联网络图中,拥有共同用户的业务犮犻和犮犼相连,边的权重狑犮犻犼代表同时访问这两种业务的用户数:

狑犮犻犼=0, 犻=犼

∑犿

犾=1(犪犾犻犪犾犼),犻≠烅

烆 犼(犻,犼=1,2,…,狀,犾=1,2,…,犿) (6)

  本文更关心业务关联网络,因为在该网络中,不

0931 计  算  机  学  报 2013年

Page 4: 移动互联网的业务访问特性 - ict.ac.cncjc.ict.ac.cn/quanwenjiansuo/2013-7/zgf.pdf · 务二分网络分析模型;然后对现有移动互联网的主要业务应用进行了分类,并利用从某移动通信运营商的互联网

同业务之间的关联关系完全是由用户的兴趣和需求所驱动的.该模型反映了用户在各种业务之间的兴趣关联性及其强弱程度,不仅有助于进一步了解用户的群体兴趣,对于网站业务的设计、开发和优化,网站用户体验的改善,网站间合作战略的制定等应用都具有指导意义.

3 数据集31 数据集

如图3所示,在移动互联网中,用户使用移动终端访问互联网时都需要经过WAP网关,通过WAP1.X访问WAP内容服务器,WAP2.0访问Web内容服务器,并进行相应的协议和内容格式转换.在此过程中,移动终端向内容服务器发送的请求信息,以及内容服务器向移动终端发送的响应信息,都会记录到WAP网关日志里.因此,WAP网关日志记录了每个移动用户访问互联网的详细信息.

图3 移动互联网框架图

本文所用的两个数据集采自重庆某移动运营商的WAP网关,分别包括2010年4月5日至4月11日和2011年4月4日到4月10日各一周,相关数据的统计信息如表1所示.每条日志记录包括请求时间、移动电话号码、客户端IP地址、目的IP地址、目的域名、URL等36个字段.其中,移动号码用来区分用户,客户端IP地址用来区分会话,目的域名用以区分网站,URL用以区分网页.

表1 原始数据统计信息时间 用户数 记录数 时间 用户数 记录数201080690173166162011274808118929268

32 数据预处理用户访问的网页由主对象和内嵌对象两部分组

成,用户向服务器发送的请求主要是对网页主对象的请求,而该网页所包含的内嵌对象会被自动请求.为了反映用户的实际点击,我们清洗掉所有针对内嵌对象的记录,即URL后缀为CSS、PNG、GIF、JPG、BMP等的请求记录.数据清洗后,得到2010年

和2011年用户一周的总点击量分别为7584327和52860363.

文献[14]指出,在移动互联网中,用户对网站的点击量服从幂指数为0.71的幂律分布,说明用户对网站的访问呈现出较强的不均匀性,大量请求集中在少数热门网站上.统计两个数据集发现,TOP300的网站吸引了大多数的用户和访问点击,如表2所示,因此我们的分析将以TOP300网站为基础.此外,比较2010年和2011年的用户访问变化,不难发现,2011年的用户数比2010年增加了2.73倍,点击量增加了6.2倍,说明移动互联网的用户规模和用户的访问需求发展非常迅猛.

表2 犜犗犘300网站的点击流数据统计信息时间 用户数 所占比例/% 点击数 所占比例/%2010 62565 77.54 6453504 85.092011 233216 84.87 46585838 88.13

4 移动互联网业务分类由于移动互联网上的业务应用实例太多,难以

对每一个具体的业务应用进行分析,因此下面先对业务应用进行分类,然后对不同类的业务访问特性进行分析.这样一方面降低了分析的复杂性,另外也不失一般性.

传统互联网应用服务主要分为信息获取、交流沟通、网络娱乐和商务交易4大类,具体包括电子邮件、搜索引擎、社交网站等16种典型业务[15].就移动互联网当前发展格局来看,典型业务与传统互联网类似.由于移动互联网中用户的无线网络带宽有限,流量资费较高,移动终端性能低于电脑,但用户可移动性和即时性强等特点,在业务形态、应用内容、用户使用习惯、兴趣偏好等方面均存在明显差别[16].

参考传统互联网的业务类别,并结合移动互联网用户的实际数据集,我们对移动互联网的业务进行了分类.由于在移动互联网中,网络购物、网上支付、网络银行、旅游预订等业务非常少,故总称其为电子商务类业务.最终,我们将移动互联网业务分成了门户网站、搜索引擎、电子邮箱等12类典型业务应用,并且前述的TOP300网站中各类业务应用所占的比例如图4所示.可以看出,网络文学类网站最多,说明这类业务网站间竞争最激烈,而电子邮箱类网站最少.两年来各种业务应用的网站个数变化不大,音乐视频、网络新闻等的网站个数减少,网络论

19317期 赵国锋等:移动互联网的业务访问特性

Page 5: 移动互联网的业务访问特性 - ict.ac.cncjc.ict.ac.cn/quanwenjiansuo/2013-7/zgf.pdf · 务二分网络分析模型;然后对现有移动互联网的主要业务应用进行了分类,并利用从某移动通信运营商的互联网

坛、网络文学等的网站个数增加.此外发现,2010年网络文学类业务的竞争已经很激烈,而2011年其网站个数还在增加,这一方面可以说明用户对该类业务的热情继续增加,另一方面则反映出网站运营者在网站定位与网站规划时具有一定的盲目跟风性.本文的目标是对移动互联网上各类业务应用的访问状况进行分析.

图4 12类典型业务应用的网站比例图

5 模型应用本节利用用户业务二分网络模型对移动互联

网用户的访问行为特性进行分析研究.基于前文提到的TOP300网站的数据集,下面为描述方便,用“2010”和“2011”分别代表两个实测数据集,并且建立了两个对应的用户业务二分网络犌1和犌2,用户结点数分别为犿1=62565,犿2=233216,业务结点数狀1=狀2=12.这里主要从用户访问兴趣、业务点击量特性、业务流量特性、访问关联性4个方面进行分析研究,并分析比较了用户行为在2010年和2011年的变化.51 用户访问兴趣5.1.1 用户访问的兴趣范围

用户请求的业务越丰富,说明用户的兴趣范围

越广.在用户业务二分网络模型中,用户结点的度犽狌表示用户访问请求的业务种类数,可以反映用户的兴趣范围.两个二分网络犌1和犌2中用户结点的度分布分别如图5(a)、(b)所示,在半对数坐标下近似呈一条直线,服从指数为1/θ的指数分布[17],即

狆(犽狌)∝e-犽狌/θ (7)  该结果说明用户对业务的使用情况差异较大,大多数用户仅请求少数几类业务,兴趣范围比较集中.少量用户请求多种业务,兴趣范围较大,并且θ的值越小,曲线下降得越快,即兴趣范围大的用户数越少.

图5 用户业务二分网络中用户结点的度分布通过线性回归分析,求得“2010”和“2011”用户

结点度分布的参数θ分别为1.34和1.37.另外,“2010”和“2011”中用户结点的最大度分别为11和12,平均度分别为1.39和2.81.该结果表明在2011年,用户请求的业务更加多样化,用户的兴趣范围有较大的扩大.事实上,“2010”中约32%的用户只请求1类业务,90%的用户请求的业务类种数不超过4;而“2011”中只请求1类业务的用户则约占22%,比上一年大幅减少,且90%的用户请求的业务类种数不超过5,也有所扩大.5.1.2 用户访问的兴趣强度

用户的请求次数越多,说明用户对移动互联网

2931 计  算  机  学  报 2013年

Page 6: 移动互联网的业务访问特性 - ict.ac.cncjc.ict.ac.cn/quanwenjiansuo/2013-7/zgf.pdf · 务二分网络分析模型;然后对现有移动互联网的主要业务应用进行了分类,并利用从某移动通信运营商的互联网

的依赖度越高,访问兴趣强度越大.在用户业务二分网络模型中,边权狑犻犼表示用户狌犻访问业务犮犼时所产生的点击量,用户结点的点强度狊狌表示用户的总请求次数,其反映用户的兴趣强度.

如图6(a)、(b)所示,两个二分网络犌1和犌2中用户结点的点强度分布具有重尾特性,在双对数坐标下近似呈一条直线,服从幂指数为γ的幂律分布[18],即

狆(狊狌)∝狊-γ狌 (8)  说明用户的请求次数分布不均匀,存在少数非常活跃的用户,且γ值越大,这种不均匀性越强.

图6 用户业务二分网络中用户结点的点强度分布

通过线性回归分析,求得“2010”和“2011”用户结点的点强度分布参数γ分别为1.35和1.27,结果说明在2011年,用户访问请求次数分布的不均匀性有所减弱,“2010”中约20%的用户产生了83.28%的请求,而“2011”中相同比例的用户产生的请求为75.72%.事实上,“2011”中请求次数小于等于10的轻度用户减少13.48%,请求次数介于10~1000之间的中度用户增加12.36%,请求次数大于1000的重度用户增加1.12%.轻度用户的明显减少与中度用户的明显增加,意味着用户的兴趣强度有所增加,用户对移动互联网的依赖度提高了.

52 各类业务的用户点击量特性在用户业务二分网络模型中,当边权狑犻犼表示

用户点击量时,我们可以得到各类业务的用户点击量特性.下面分别从各类业务的用户渗透率、用户使用率和用户粘度3个方面,分析移动互联网市场上各类业务的访问状况以及用户的访问需求和兴趣偏好变化.5.2.1 用户渗透率

业务的用户渗透率指访问该业务的用户比例,表示该业务在市场上的普及程度.在用户业务二分网络模型中,业务犮犼的用户渗透率用犝犘犮犼表示,可以通过式(9)得到.其中,度犽犮犼表示请求该业务的用户数,犿表示用户总数.

犝犘犮犼=犽犮犼/犿(犼=1,2,…,狀) (9)  如图7所示,以狓轴表示业务类编号犼,分别代表1~12类网络业务,以狔轴表示业务类的用户渗透率犝犘犮犼.从图中可以看出,1门户网站、2搜索引擎、3电子邮箱的用户渗透率较高,尤其1门户网站的用户渗透率最高,而11金融理财的用户渗透率最小.较2010年,在2011年,2搜索引擎、4网络论坛、5游戏下载、8社交网站、9网络文学、11金融理财、12其他的用户渗透率增大,而6音乐视频、7网络新闻的用户渗透率减少.

图7 各类业务的用户渗透率

5.2.2 用户使用率业务的用户使用率指用户对该业务的请求占用

户总请求的比例.在用户业务二分网络模型中,业务犮犼的用户使用率用犝犝犮犼表示,可以通过式(10)得到.其中,点强度狊犮犼表示该业务被请求的次数.

犝犝犮犼=狊犮犼∑狀

犼=1狊犮犼(犼=1,2,…,狀)(10)

  同样以狓轴表示业务类编号犼,以狔轴表示业务类的用户使用率犝犝犮犼,如图8所示.从图中我们可以看出,1门户网站、2搜索引擎、8社交网站、9网络文学的用户使用率较大,尤其1门户网站的用户使用率最大.较2010年,在2011年,2搜索引擎、5

39317期 赵国锋等:移动互联网的业务访问特性

Page 7: 移动互联网的业务访问特性 - ict.ac.cncjc.ict.ac.cn/quanwenjiansuo/2013-7/zgf.pdf · 务二分网络分析模型;然后对现有移动互联网的主要业务应用进行了分类,并利用从某移动通信运营商的互联网

游戏下载、9网络文学的用户使用率增大,而4网络论坛、6音乐视频、7网络新闻、8社交网站、10电子商务、11金融理财、12其他类型的用户使用率减小.

图8 各类业务的用户使用率

针对不同的业务类,其用户渗透率和用户使用率并未呈现正相关特性,如电子邮箱业务的用户渗透率较高但其用户使用率并不高,而网络文学的用户渗透率并不是很高,但其用户使用率却较高.5.2.3 用户粘度

业务的用户粘度定义为所有访问该类业务的用户的平均请求次数.用户对某个业务类的平均请求次数越大,说明用户对该类业务的兴趣和偏好越大.因此,粘度越高的业务越能体现其价值.在用户业务二分网络模型中,业务犮犼的用户粘度用犝犛犮犼表示,可以通过式(11)得到.其中,点强度狊犮犼表示该类业务被请求的次数,度犽犮犼表示请求该类业务的用户数.

犝犛犮犼=狊犮犼犽犮犼(犼=1,2,…,狀) (11)

  各类业务的用户粘度如图9所示:9网络文学的用户粘度最大,6音乐视频的用户粘度最小.较2010年,在2011年,1门户网站、2搜索引擎、9网络文学的用户粘度增大,而4网络论坛、8社交网站、10电子商务、11金融理财的用户粘度减小.

图9 各类业务的用户粘度综合以上分析结果,可以得出如下结论:移动互

联网中,信息获取类和交流沟通类应用更受用户青睐,网络娱乐与商务交易类的应用发展相对缓慢,这

与CNNIC统计调查报告[19]中所得结论相符,证实文中的用户业务二分网络模型可以较为准确地揭示移动互联网用户的访问现状.不难发现,信息获取类应用主要以门户网站、搜索引擎类业务为主,交流沟通应用主要以社交网站类业务为主,而网络文学类业务是目前移动互联网用户使用的典型网络娱乐应用.53 各类业务的用户流量特性

在用户业务二分网络模型中,当边权狑犻犼表示用户流量时,我们可以得到各类业务的用户流量特性.从前文分析可以看到,门户网站、搜索引擎、社交网站和网络文学是用户访问的主要业务类,因此,本节以这4类业务为代表,从各类业务的流量分布特性和流量相关性两个方面进行分析.5.3.1 流量分布特性

在用户业务二分网络模型中,当边权狑犻犼表示用户流量时,业务结点犮犼的点强度狊犮犼表示所有访问业务犮犼的用户产生的总流量.为了研究不同类型业务的用户流量特性,我们以3min为一个时间片,统计二分网络犌1和犌2中门户网站、搜索引擎、社交网站和网络文学4类主要业务结点的点强度狊犮犼(即流量),结果分别如图10(a)、(b)所示.

图10 4类主要业务结点的点强度(流量)分布

从图中我们可以看出,同类业务每天的用户流量分布呈现出相似性,而各类业务的流量整体分布

4931 计  算  机  学  报 2013年

Page 8: 移动互联网的业务访问特性 - ict.ac.cncjc.ict.ac.cn/quanwenjiansuo/2013-7/zgf.pdf · 务二分网络分析模型;然后对现有移动互联网的主要业务应用进行了分类,并利用从某移动通信运营商的互联网

趋势基本一致,在上午8∶30和晚上10∶30左右均出现较为明显的峰值.这意味着人们在上班途中和睡觉之前习惯通过移动互联网访问各类网络业务,造成用户流量增大,这与终端的可移动性是密不可分的.同时,我们发现,各类业务的用户流量还存在随机的突发性.

为了验证同类业务中不同业务实例每天的用户流量分布是否都具有这种相似性,我们对网络文学类业务中,点击量大小不同的4个网站每天的用户流量进行了考察,结果如图11所示.

图11 网络文学类中不同网站的用户流量分布

由图11(a)、(b)可以看出,在2010年,点击量较大的两个网站“起点”(qidian.com)与“书旗”(shuqi.com)每天的用户流量分布具有相似性,而点击量较小的两个网站“风语网”(fywap.com)与“红袖添香”(hongxiu.com)每天的用户流量分布未

呈现出相似性.如图11(c)所示,在2011年,当用户点击量增大后,“风语网”(fywap.com)与“红袖添香”(hongxiu.com)每天的用户流量分布也呈现出相似性.于是,我们推测,当某网站的用户点击量达到一定规模以后,其每天的用户流量分布将具有相似性.这不仅有助于我们预测用户流量行为的趋势,更能应用于拥塞控制、服务质量保证等实际应用.

此外,我们还发现“起点”(qidian.com)和“红袖添香”(hongxiu.com)的用户流量在2010年4月10日或11日的某些时刻出现了异常的大幅度增加,这可能是周末访问用户增多形成FlashCrowd或是恶意攻击所造成的.5.3.2 流量相关性

为了进一步研究各类业务用户流量分布趋势的相关性,我们引入Pearson相关系数[20]予以验证.Pearson相关系数狉用来衡量两组变量犡(狓1,狓2,…,狓犖)和犢(狔1,狔2,…,狔犖)之间的相关性,其范围在-1~1的闭区间中.若两组变量正相关则狉>0,且正相关性越大狉的值越大;若负相关则狉<0,且负相关性越大狉的值越小.狉的计算公式如下:

狉= ∑(狓犻-狓)(狔犻-狔)∑(狓犻-狓)2∑(狔犻-狔)槡 2

(犻=1,2,…,犖)

(12)  我们求出2010和2011两年一周中每天每两类业务之间用户流量分布趋势的Pearson相关系数,发现其全部大于0,且在0.2~0.9之间.再分别求出每两类业务之间Pearson相关系数一周内的平均值,结果如图12所示.图中,两类业务相交围成的矩形区域的像素代表这两类业务之间用户流量分布趋势的Pearson相关系数,颜色越深,其值越大.例如,2010年,网络文学与搜索引擎这两类业务之间Pearson相关系数的值为0.41,而2011年,其值增大为0.81.

图12 4类主要业务用户流量分布趋势的相关性

结果显示,两类不同业务的用户流量趋势是正相关的,进一步说明各类业务的用户流量分布规律

59317期 赵国锋等:移动互联网的业务访问特性

Page 9: 移动互联网的业务访问特性 - ict.ac.cncjc.ict.ac.cn/quanwenjiansuo/2013-7/zgf.pdf · 务二分网络分析模型;然后对现有移动互联网的主要业务应用进行了分类,并利用从某移动通信运营商的互联网

是一致的.较2010年,在2011年,除社交网站以外(2011年社交网站用户流量的突发性过多),其它3类业务两两之间的正相关性均有所增加.54 各类业务的访问关联性

对网络新闻感兴趣的用户,还对哪些类的业务感兴趣呢?业务关联网络图用以反映各类业务之间的用户兴趣关联性,业务结点之间的逻辑连接反映了访问不同业务类型的用户之间的兴趣关联性及其强弱程度.

基于2.3节方法,按如下步骤分别得到“2010”和“2011”的有向业务关联网络图犌′犮1和犌′犮2.

①将用户业务二分网络犌1和犌2分别向业务结点进行投影,得到无向业务关联网络犌犮1和犌犮2;

②将无向网络转换为有向网络,边权狑′犮犻犼通过式(13)计算,则狑′犮犻犼表示业务类犮犻和业务类犮犼的用户兴趣关联度,其值越大,这种关联度越大.值得注意的是,边权矩阵并不是对称的,即业务类犮犻的用户对业务类犮犼的兴趣度与业务类犮犼的用户对业务类犮犻的兴趣度并不一定相同.

狑′犮犻犼=0, 犻=犼狑犮犻犼/犽犮犼,犻≠烅烄烆 犼 (13)

  ③为使结果图显示得更加清晰以便观察分析,这里仅仅保留与每个结点相连的,从该结点出发指向其它结点的边中边权最大的3条边,而略去其它边,得到有向业务关联网络犌′犮1和犌′犮2,分别如图13(a)、(b)所示.

为了直观地反映各类业务的用户渗透率,用面积大小不同的实心圆来表示业务结点.结点的面积越大,对应业务类的用户渗透率也就越高.边的权重狑′犮犻犼表示业务类之间的访问关联性,用百分数形式表示并标示于边的右侧靠近结点犮犻处.例如,在图13(a)的犌′犮1中,87.7%的访问电子邮箱的用户还会访问门户网站,而22.9%的访问门户网站的用户还会访问电子邮箱.

在有向关联网络图中,结点的入度越大,说明该结点在网络中越重要.无论是在犌′犮1还是在犌′犮2中,门户网站和搜索引擎的入度都是最大的,且均为11,即其他业务类与这二者的用户兴趣关联度都较高,说明这是用户最普遍使用的两种业务,其次是电子邮箱和社交网站.

对比犌′犮1和犌′犮2发现,较2010年,2011年的电子邮箱入度由7变为6,音乐视频入度由2变为0,说明其他业务类与这两类业务的用户兴趣关联度有所

(a)2010年有向业务关联网络图犌′犮1

(b)2011年有向业务关联网络图犌′犮2图13 有向业务关联网络

减弱,尤其是后者;相反,社交网站的入度由4变为7,说明其他业务类与该类业务的用户兴趣关联度明显增加.另外,对比边的权重,可以进一步得出各种业务类间用户兴趣关联度的变化情况.以社交网站为例,除电子商务和游戏下载类业务与其用户兴趣关联度明显增加外,网络文学与其用户兴趣关联度略有减少,其它变化均不明显.

6 总 结移动互联网的用户和业务应用规模都在迅速扩

展,研究用户的访问行为特性非常重要,但是由于很难获取实际的数据集,相关的研究工作较少.本文基于某移动运营商互联网网关日志数据集,分析移动互联网用户的访问行为特性.建立了用户业务加权二分网络模型,并利用模型从用户访问兴趣、业务点击量特性、业务流量特性、访问关联性等方面研究分析了移动互联网用户对各类业务的访问特性,并分析了用户访问行为的变化情况.

研究发现:(1)用户访问的兴趣范围及兴趣强度分布不均匀:用户访问的兴趣范围服从指数分布,

6931 计  算  机  学  报 2013年

Page 10: 移动互联网的业务访问特性 - ict.ac.cncjc.ict.ac.cn/quanwenjiansuo/2013-7/zgf.pdf · 务二分网络分析模型;然后对现有移动互联网的主要业务应用进行了分类,并利用从某移动通信运营商的互联网

大部分用户访问的业务种类较为集中而少数用户访问的业务种类较为丰富;用户访问的兴趣强度服从幂律分布,少数用户产生了大量的请求.(2)移动互联网中网络娱乐和商务交易类应用较信息获取和交流沟通类应用而言,发展相对缓慢,且门户网站、搜索引擎、社交网站和网络文学是用户访问最多的业务类型.(3)同类业务每天的用户流量分布具有相似性,而不同业务类的用户流量分布趋势正相关;同类业务中不同网站每天的用户流量分布特性不同:点击量大的网站每天的用户流量分布具有相似性而点击量小的网站不具相似性,但当其点击量达到一定规模之后,也会呈现出这种相似性.(4)门户网站和搜索引擎是最容易被关联访问的业务类型,其次是电子邮箱和社交网站.

用户业务加权二分网络模型有助于分析移动互联网用户的访问特性,了解用户的兴趣偏好和访问关联性,对网络运营商制定运营决策、内容服务商设计和优化业务应用、网站运营者改善用户体验等很有帮助.此外,模型的边权可以灵活定义,以考察不同的用户行为指标,可拓展应用到用户聚类、关键客户分析及应用分析等方面.

参考文献

[1]LuoJunZhou,WuWenJia,YangMing.MobileInternet:Terminaldevices,networkandservices.ChineseJournalofComputers,2011,34(11):20292051(inChinese)(罗军舟,吴文甲,杨明.移动互联网:终端、网络与服务.计算机学报,2011,34(11):20292051)

[2]CNNIC.29thstatisticalreportoninternetdevelopmentinChina.ChinaInternetNetworkInformationCenter(CNNIC),2011(inChinese)(第29次中国互联网络发展状况统计报告.中国互联网络信息中心(CNNIC),2011)

[3]LiFei,GuoL,ShenBo,ChenSongQing.Aserver’sperspectiveofInternetstreamingdeliverytomobiledevices//ProceedingsoftheINFOCOM.Orlando,USA,2012:13321340

[4]KeralapuraR,NucciA,ZhangZhiLi,GaoLiXin.Profilingusersina3Gnetworkusinghourglasscoclustering//ProceedingsoftheMobiCom.Chicago,Illinois,USA,2010:341352

[5]GhoshA,JanaR,RamaswamiV,etal.ModelingandcharacterizationoflargescaleWiFitrafficinpublichotspots//ProceedingsoftheINFOCOM.Shanghai,China,2011:29212929

[6]ChenTzungShi,ChouYenSsu,ChenTzungCheng.Miningusermovementbehaviorpatternsinamobileservice

environment.IEEETransactionsonSystems,Man,andCybernetics,2012,42(1):87101

[7]ShafiqMZ,etal.Characterizinggeospatialdynamicsofapplicationusageina3Gcellulardatanetwork//ProceedingsoftheINFOCOM.Orlando,USA,2012:13411349

[8]LuEHC,LeeWC,TsengVSM.Aframeworkforpersonalmobilecommercepatternminingandprediction.IEEETransactionsonKnowledgeandDataEngineering,2012,24(5):769782

[9]ZhaoGuoFeng,ShanQing,XiaoShaSha,XuChuan.ModelingwebbrowsingonmobileInternet.IEEECommunicationsLetters,2011,15(10):10811083

[10]XuKuai,WangFeng.BehavioralgraphanalysisofInternetapplications//ProceedingsoftheGLOBECOM.Houston,USA,2011:15

[11]HuYiHong,ZhuDaoLi.Empiricalanalysisoftheworldwidemaritimetransportationnetwork.PhysicaA,2009,388(10):20612071

[12]WuXiaoFei,YuKe,WangXin.OnthegrowthofInternetapplicationflows:Acomplexnetworkperspective//ProceedingsoftheINFOCOM.Shanghai,China,2011:20962104

[13]AllaliO,MagnienC,LatapyM.Linkpredictioninbipartitegraphsusinginternallinksandweightedprojection//ProceedingsoftheINFOCOM,ComputerCommunicationsWorkshops(INFOCOMWKSHPS).Shanghai,China,2011:936941

[14]XuChuan,WangMei,TangHong.AnalysisonuserclickbehaviorinthemobileInternet.InternationalJournalofDigitalContentTechnologyanditsApplications,2011,5(6):1623

[15]RenYong,LiYiPeng.OnthecomplexityofInternetinformationsharing.ComplexSystemsandComplexityScience,2010,7(23):165172(inChinese)(任勇,李一鹏.互联网信息共享的复杂性研究.复杂系统与复杂性科学,2010,7(23):165172)

[16]MobileInternetwhitepaper.ChinaAcademyofTelecommunicationResearchofMIIT,2011(inChinese)(移动互联网白皮书.工业和信息化部电信研究院,2011)

[17]RodopluV,VadvalkarSS,AminzadehGohariA,ShynkJJ.EmpiricalmodelingandestimationofendtoendVoIPdelayovermobilemultihopwirelessnetworks//ProceedingsoftheGLOBECOM.Miami,FL,USA,2010:16

[18]MartonCsernai,AndrsGulys,GborRétvri,etal.TheskeletonofInternet//ProceedingsoftheGLOBECOM.Miami,USA,2010:15

[19]StatisticalreportonmobileInternetdevelopmentinChina.ChinaInternetNetworkInformationCenter(CNNIC),2012(inChinese)(中国移动互联网发展状况统计报告.中国互联网络信息中心(CNNIC),2012)

[20]YamagishiK,KawanoT,HayashiT.HybridvideoqualityestimationmodelforIPTVservices//ProceedingsoftheGLOBECOM.Honolulu,USA,2009:15

79317期 赵国锋等:移动互联网的业务访问特性

Page 11: 移动互联网的业务访问特性 - ict.ac.cncjc.ict.ac.cn/quanwenjiansuo/2013-7/zgf.pdf · 务二分网络分析模型;然后对现有移动互联网的主要业务应用进行了分类,并利用从某移动通信运营商的互联网

犣犎犃犗犌狌狅犉犲狀犵,bornin1972,Ph.D.,professor.HisresearchinterestsincludefutureInternetandmobileInternet.

犔犃犐犠犲狀犑犻狀犵,bornin1988,M.S.candidate.HercurrentresearchinterestfocusesonmobileInternet.

犡犝犆犺狌犪狀,bornin1981,Ph.D..HiscurrentresearchinterestfocusesonmobileInternet.

犜犃犖犌犎狅狀犵,bornin1957,Ph.D.,professor.Herresearchinterestiscomputernetworks.

犅犪犮犽犵狉狅狌狀犱  Thankstothefastdevelopmentofinformationtechnology,theuserscaleofmobileInternethasincreasinglyexpanded.Atthesametime,variouskindsofserviceshaveemerged.Therefore,thereisanurgentneedtograsppeople!sserviceaccesscharacteristicsinmobileInternet,whichisofgreatvaluefornetworkmanagement,newapplicationdesign,decisionsupport,andsoon.

Inthispaper,theauthorsconstructaweighteduser

servicebipartitenetworkmodeltodescribeandanalyzetheuseraccessbehaviorinmobileInternet.Usingthismodel,theyanalyzethecharacteristicsofuseraccessbehaviormainlyfromfouraspects:useraccessinterest,serviceclickscharacteristics,servicetrafficcharacteristics,anduseraccessrelevance,andrevealthechangesofaccessbehaviorfrom2010to2011,basedontherealdatasetscollectedfromaMobileTelecomCarrier.

8931 计  算  机  学  报 2013年


Top Related