毕业设计四:会话识别
1、 页面归类
首先根据广西大学网站的拓扑以及导航,将页面归为如下24类。在分类的过程中,我基于如下考虑:
(1)、凡是链接到其他网站、域名或者页面(域名前缀非www.gxu.edu.cn)的,不予考虑;(2)、主要根据网站各个栏目以及学校的机构设置来分,这样显得更有意义,也比较明确。
分类如下:
/*******************************************/
//主页 /040310/
INDEX_PAGE
//通知公告 /wygl/
TZGG
//视频会议 /edumeeting/
SPHY
//人才需求 rcxq/
RCXQ
//西部培训 /xbjy/
XBJY
//宣传部 /administration/xcb/
XCB
/******************************************/
//西大概览 xxgk/
XXGK
//教务处 /administration/jwc/
JWC
//国际交流处 /administration/gjc/
GJC
//科技处 /administration/kjc/
KJC
//学工部 /administration/xgb/
XGB
//学院 /college/
COLLEGE
//人事处 /administration/rsc/
RSC
//财务处 /administration/cwc/
CWC
//学生资助中心 /administration/xszzzx/
XSZZZX
//计生办 /administration/gxdxjsb/
JSB
/****************公共服务**************/
//新闻中心 /administration/xwzx/
XWZX
//信息网络中心(校园网) /xyw2005/
XYW
//生活指南 xysh/
XYSH
/*************************************/
//校园文化 xywh/
XYWH
//重点实验室 /2003kxyj/
SYS
//人才培养 rcpy/
RCPY
//图书馆 /lib/
LIB
//服务专栏 /fwzl/ /gxu/school/telephone/ /email /rule/ /service-n/ /users/
FWZL
2、 创建USER_SESSION表
create table USER_SESSION
(INDEX_PAGE NUMBER(8,0),
TZGG NUMBER(8,0),
SPHY NUMBER(8,0),
RCXQ NUMBER(8,0),
XBJY NUMBER(8,0),
XCB NUMBER(8,0),
XXGK NUMBER(8,0),
JWC NUMBER(8,0),
GJC NUMBER(8,0),
KJC NUMBER(8,0),
XGB NUMBER(8,0),
COLLEGE NUMBER(8,0),
RSC NUMBER(8,0),
CWC NUMBER(8,0),
XSZZZX NUMBER(8,0),
JSB NUMBER(8,0),
XWZX NUMBER(8,0),
XYW NUMBER(8,0),
XYSH NUMBER(8,0),
XYWH NUMBER(8,0),
SYS NUMBER(8,0),
RCPY NUMBER(8,0),
LIB NUMBER(8,0),
FWZL NUMBER(8,0)
);
3、 创建USER_IP表
用来保存对应会话的IP地址。
create table user_ip
(user_ip varchar2(20)
);
4、 编写存储过程,进行会话识别
由于该日志没有ageng域,所以只能通过IP来识别用户。
如果IP相同,则认为是同一个用户。若同一个用户连续访问两个页面的时间超过30分钟,则认为开始了一个新的会话。不同用户访问的页面当然属于不同的会话。
将识别出来的会话保存在user_session表中,对应的IP地址保存在user_ip中。
CREATE OR REPLACE PROCEDURE preprocess_proc IS
.......
END;
5、 会话识别的结果
SQL> select count(*) from user_session;
COUNT(*)
----------
3615
SQL> select count(distinct user_ip) from user_ip;
COUNT(DISTINCTUSER_IP)
----------------------
2782
USER_SESSION:
USER_IP: