记住该记住的,忘记该忘记的。改变能改变的,接受不能改变的! 本站域名:www.xyzlotus.cn

毕业设计四:会话识别

上一篇 / 下一篇  2008-05-11 17:00:32 / 个人分类:数据挖掘

毕业设计四:会话识别

 

1、 页面归类

首先根据广西大学网站的拓扑以及导航,将页面归为如下24类。在分类的过程中,我基于如下考虑:

1)、凡是链接到其他网站、域名或者页面(域名前缀非www.gxu.edu.cn)的,不予考虑;(2)、主要根据网站各个栏目以及学校的机构设置来分,这样显得更有意义,也比较明确。

分类如下:

/*******************************************/

//主页     /040310/

INDEX_PAGE

//通知公告   /wygl/

TZGG    

//视频会议   /edumeeting/

SPHY

//人才需求   rcxq/

RCXQ

 

//西部培训   /xbjy/

XBJY

//宣传部 /administration/xcb/

XCB

/******************************************/

//西大概览   xxgk/

XXGK   

//教务处    /administration/jwc/

JWC 

//国际交流处  /administration/gjc/

GJC

//科技处    /administration/kjc/

KJC 

//学工部    /administration/xgb/

XGB

//学院     /college/

COLLEGE

 

//人事处    /administration/rsc/

RSC

//财务处    /administration/cwc/

CWC

//学生资助中心 /administration/xszzzx/

XSZZZX    

//计生办    /administration/gxdxjsb/

JSB

 

 

/****************公共服务**************/

//新闻中心   /administration/xwzx/ 

XWZX

//信息网络中心(校园网) /xyw2005/

XYW

//生活指南   xysh/

XYSH

 

 

 

/*************************************/

//校园文化  xywh/

XYWH

 

//重点实验室 /2003kxyj/

SYS

 

//人才培养  rcpy/

RCPY

 

//图书馆 /lib/

LIB 

 

//服务专栏  /fwzl/ /gxu/school/telephone/ /email /rule/ /service-n/  /users/

FWZL

2、 创建USER_SESSION

create table USER_SESSION

(INDEX_PAGE     NUMBER(8,0),

TZGG           NUMBER(8,0),

SPHY            NUMBER(8,0),

RCXQ           NUMBER(8,0),

XBJY            NUMBER(8,0),

XCB             NUMBER(8,0),

XXGK          NUMBER(8,0),

JWC             NUMBER(8,0),

GJC       NUMBER(8,0),

KJC       NUMBER(8,0),

XGB             NUMBER(8,0),

COLLEGE            NUMBER(8,0),

RSC       NUMBER(8,0),

CWC            NUMBER(8,0),

XSZZZX       NUMBER(8,0),

JSB        NUMBER(8,0),

XWZX          NUMBER(8,0),

XYW            NUMBER(8,0),

XYSH           NUMBER(8,0),

XYWH          NUMBER(8,0),

SYS       NUMBER(8,0),

RCPY           NUMBER(8,0),

LIB        NUMBER(8,0),

FWZL           NUMBER(8,0)

);

3、 创建USER_IP

用来保存对应会话的IP地址。

create table user_ip

 (user_ip varchar2(20)

 );

4、 编写存储过程,进行会话识别

由于该日志没有ageng域,所以只能通过IP来识别用户。

如果IP相同,则认为是同一个用户。若同一个用户连续访问两个页面的时间超过30分钟,则认为开始了一个新的会话。不同用户访问的页面当然属于不同的会话。

将识别出来的会话保存在user_session表中,对应的IP地址保存在user_ip中。

CREATE OR REPLACE PROCEDURE preprocess_proc IS

.......

 

END;

5、 会话识别的结果

SQL> select count(*) from user_session;

 

 COUNT(*)

----------

     3615

 

SQL> select count(distinct user_ip) from user_ip;

 

COUNT(DISTINCTUSER_IP)

----------------------

                 2782

 

USER_SESSION

 

 

USER_IP

 

 

 


TAG:

 

评分:0

我来说两句

显示全部

:loveliness: :handshake :victory: :funk: :time: :kiss: :call: :hug: :lol :'( :Q :L ;P :$ :P :o :@ :D :( :)

日历

« 2008-05-17  
    123
45678910
11121314151617
18192021222324
25262728293031

数据统计

  • 访问量: 948
  • 日志数: 27
  • 文件数: 3
  • 建立时间: 2007-12-17
  • 更新时间: 2008-05-11

RSS订阅

Open Toolbar