èŠ‚ç‚¹æ–‡çŒ®

åŸºäºŽé—å¿˜ç‰¹æ€§çš„æ•°æ®æµæ¦‚è¦ç»“æž„åŠå…¶åº”ç”¨ç ”ç©¶

Research on Amnesic Synopsis of Data Stream and Its Applications

åˆ†é¡µä¸‹è½½
åˆ†ç« ä¸‹è½½
æ•´æœ¬ä¸‹è½½
åœ¨çº¿é˜…è¯»
ä¸æ”¯æŒè¿…é›·ç‰ä¸‹è½½å·¥å…·ï¼Œè¯·å–æ¶ˆåŠ é€Ÿå·¥å…·åŽä¸‹è½½ã€‚

ã€ä½œè€…ã€‘ é™ˆåŽè¾‰ï¼›

ã€ä½œè€…åŸºæœ¬ä¿¡æ¯ã€‘ å¤æ—¦å¤§å¦ ï¼Œ è®¡ç®—æœºè½¯ä»¶ä¸Žç†è®ºï¼Œ 2008ï¼Œ åšå£«

ã€æ‘˜è¦ã€‘ éšç€è®¡ç®—æœºç½‘ç»œå’Œå„ç±»ç”µåè®¾å¤‡åº”ç”¨çš„è¶Šæ¥è¶Šå¹¿æ³›,è¶Šæ¥è¶Šå¤šçš„æ•°æ®ä»¥è¿žç»çš„æµçš„å½¢å¼å‡ºçŽ°,å¦‚ç½‘ç»œè·¯ç”±ä¿¡æ¯,ä¼ æ„Ÿå™¨ç½‘ç»œé‡‡é›†çš„å®žæ—¶ä¿¡å·,è¯åˆ¸äº¤æ˜“ã€ä¿¡ç”¨å¡äº¤æ˜“ã€å•†åœºè´ç‰©äº¤æ˜“ç‰çš„å®žæ—¶è®°å½•,å› ç‰¹ç½‘ç½‘ç«™ç‚¹å‡»æµ,ç”µä¿¡ç½‘ç»œçš„ç”µè¯å‘¼å«ä¸šåŠ¡è®°å½•,èŠå¤©å®¤ã€çŸä¿¡ç‰çš„å®žæ—¶æ–‡æœ¬æµç‰,å‡äº§ç”Ÿè¿žç»ä¸æ–çš„å„ç±»æ•°æ®ã€‚è¿™äº›æ•°æ®è¢«ç§°ä¸ºæµæ•°æ®æˆ–æ•°æ®æµã€‚å› ä¸ºæ•°æ®æµå’Œä¼ ç»Ÿæ•°æ®åº“ç‰ç³»ç»Ÿä¸å¤„ç†çš„æ•°æ®çš„å·¨å¤§å·®åˆ«,è¿«ä½¿ç ”ç©¶äººå‘˜å¯¹æ•°æ®æµæ¨¡åž‹å’Œå¤„ç†æ–¹æ³•è¿›è¡Œæ·±å…¥ç ”ç©¶ã€‚æ•°æ®æµå¤„ç†çš„å…³é”®æ˜¯åº”ç”¨å•è¶Ÿæ•°æ®æ‰«æç®—æ³•,å»ºç«‹æµæ•°æ®çš„æ¦‚è¦ç»“æž„,ä»¥ä¾¿éšæ—¶èƒ½æ ¹æ®è¯¥ç»“æž„æä¾›æ•°æ®æµçš„è¿‘ä¼¼å¤„ç†ç»“æžœã€‚æ•°æ®é—å¿˜æ˜¯æ•°æ®æµçš„ä¸€ç§é‡è¦ç‰¹æ€§,åœ¨æ•°æ®æµæ¦‚è¦ç»“æž„æž„é€ ä¸åº”å……åˆ†è€ƒè™‘è¿™ç§é—å¿˜ç‰¹æ€§ã€‚æœ¬æ–‡å·¥ä½œåˆ©ç”¨è¿™ç§é—å¿˜ç‰¹æ€§,æå‡ºäº†ä¸€ç§åŸºäºŽæ•°æ®æµé—å¿˜ç‰¹æ€§çš„æ¦‚è¦ç»“æž„çš„æ¡†æž¶,ç§°ä¸ºåˆ†å±‚é—å¿˜æ¦‚è¦(Hierarchical AmnesicSynopses,ç®€ç§°HAS)ã€‚åº”ç”¨HASç»“æž„,å¯å°†åŽŸæ¥ä¸è€ƒè™‘é—å¿˜ç‰¹æ€§çš„æ¦‚è¦ç»“æž„æž„é€ æ–¹æ³•æ”¹é€ ä¸ºç»“åˆäº†æ•°æ®æµé—å¿˜ç‰¹æ€§çš„æ–¹æ³•ã€‚æœ¬æ–‡å·¥ä½œå°†HASç»“æž„åº”ç”¨äºŽç›´æ–¹å›¾ã€æŠ½æ ·ã€å°æ³¢ã€sketchã€éšæœºæŠ•å½±ç‰ä¸»è¦çš„æ•°æ®æµæ¦‚è¦ç»“æž„ä¸,å¹¶ç»™å‡ºäº†å‡ ä¸ªå…¸åž‹åº”ç”¨ã€‚æœ¬æ–‡ä¸»è¦è´¡çŒ®åŒ…æ‹¬:(1)æå‡ºäº†ä¸€ç§æ•°æ®æµæ¦‚è¦ç»“æž„çš„é€šç”¨æ¡†æž¶,HASç»“æž„ã€‚è¯¥æ¡†æž¶åµŒå…¥äº†æ•°æ®æµçš„é—å¿˜ç‰¹æ€§,å¹¶ä¸”å…·æœ‰é—å¿˜é€Ÿåº¦å’Œé‡æž„è¯¯å·®æŽ§åˆ¶çš„èƒ½åŠ›ã€‚åˆ©ç”¨è¯¥æ¡†æž¶,å¯å°†çŽ°æœ‰çš„å¤šç§å…¸åž‹æ•°æ®æµæ¦‚è¦ç»“æž„æ”¹é€ æˆå…·æœ‰æ•°æ®æµé—å¿˜ç‰¹æ€§å¤„ç†èƒ½åŠ›ã€‚(2)å®žçŽ°äº†åŸºäºŽå°æ³¢æ•°æ®åŽ‹ç¼©çš„HASç»“æž„(W-HAS),æå‡ºäº†å°æ³¢æ¦‚è¦çš„å½’å¹¶æ–¹æ³•,å¹¶è®¨è®ºäº†åœ¨åŸºäºŽè¯¯å·®å¹³æ–¹å’Œ(sse)å’ŒåŸºäºŽæœ€å¤§ç»å¯¹è¯¯å·®(max_abs)ä¸¤ç§è¯¯å·®åº¦é‡æ ‡å‡†ä¸‹çš„W-HAS,ä»¥åŠå¦‚ä½•è¿›è¡ŒW-HASä¸çš„é‡æž„è¯¯å·®æŽ§åˆ¶çš„æ–¹æ³•ã€‚(3)è®¨è®ºäº†åŸºäºŽåŠ æƒéšæœºæŠ½æ ·çš„HASç»“æž„(WS-HAS),åˆ†åˆ«å¯¹æœ‰æ”¾å›žå’Œæ— æ”¾å›žåŠ æƒéšæœºæŠ½æ ·è®¾è®¡äº†WS-HASæ¦‚è¦ç»“æž„çš„ç»´æŠ¤ç®—æ³•ã€‚(4)æå‡ºäº†ç»“åˆHASç»“æž„å’Œç›´æ–¹å›¾æ•°æ®åŽ‹ç¼©æ–¹æ³•çš„H-HASç»“æž„,è®¨è®ºäº†ç‰å®½ç›´æ–¹å›¾ä¸‹çš„H-HASç»“æž„çš„å®žçŽ°,ç”¨åŠ¨æ€è§„åˆ’æ–¹æ³•å®žçŽ°äº†æœ€ä¼˜ç›´æ–¹å›¾ä¸‹çš„H-HASç»“æž„ã€‚(5)åŸºäºŽæ•°æ®æµçš„W-HASç»“æž„,è®¨è®ºäº†æ•°æ®æµä¹‹é—´çš„è¿‘ä¼¼è·ç¦»å’Œèšç±»ä¸å¿ƒçš„è®¡ç®—,å¹¶è¿›è€Œæå‡ºäº†é€‚åˆå¹¶è¡Œå¤šæ•°æ®æµçš„K-meansèšç±»æ–¹æ³•:W-HAS-clusteringã€‚åŒæ—¶,åˆ©ç”¨æ•°æ®æµçš„é—å¿˜ç‰¹æ€§,åº”ç”¨éšæœºæŠ•å½±,æž„é€ äº†åŸºäºŽéšæœºæŠ•å½±çš„æ•°æ®æµåˆ†å±‚æ¦‚è¦ç»“æž„RP-HAS,å¹¶è®¾è®¡äº†è§„èŒƒåŒ–åŽæ•°æ®æµçš„RP-HASç»“æž„ç»´æŠ¤çš„æ–¹æ³•ã€‚æå‡ºäº†åŸºäºŽRP-HASç»“æž„çš„é€‚åˆå¹¶è¡Œå¤šæ•°æ®æµçš„èšç±»æ–¹æ³•RP-HAS-clusteringã€‚(6)è®¨è®ºäº†é«˜ç»´æ•°æ®æµä¸HASç»“æž„çš„å®žçŽ°,å¹¶å°†å…¶åº”ç”¨åˆ°æ•°æ®æµçš„åˆ†ç±»å’Œèšç±»ä¸ã€‚(7)æå‡ºäº†ä¸€ç§åŸºäºŽsketchçš„æ•°æ®æµæ¦‚è¦ç»“æž„EFM sketch,å¹¶ç”¨EFM sketchæ¥ä¼°ç®—é›†åˆçš„ç›¸ä¼¼åº¦ã€‚åœ¨HASç»“æž„çš„åŸºç¡€ä¸Š,åº”ç”¨EFM sketchåˆ†æžæ•°æ®æµä¸Šæ•°æ®çš„ç›¸ä¼¼åº¦å’Œæ¼”åŒ–ã€‚æ›´å¤š è¿˜åŽŸ

ã€Abstractã€‘ With the increasingly widespread use of computer networks and electronic equipments, many real-life applications data appeared as dynamic evolving data streams which are continuous and unbounded in nature. Such applications include stock markets, network traffic monitoring, sensor networks, internet, network security, data mining, financial monitoring, and many more. Traditional data base techniques can hardly be applied to process such high-speed and unbounded data stream directly. So researches need to work out novel processing techniques over data streams.Maintaining a synopsis data structure dynamically from data stream is vital for a variety of streaming data applications, such as approximate query or data mining. In many cases, the significance of data item in streams decay with age: this item perhaps conveys critical information first, but, as time goes by, it gets less and less important until it eventually becomes useless. This feature is termed amnesic. The dissertation proposed a Hierarchical Amnesic Synopses (HAS) which includes the amnesic feature of data stream in the generation of synopses. HAS can provide a better approximate representation for data streams with amnesic feature than conventional data stream synopses.Our major contributions in the dissertation are as follows.1. The dissertation proposed HAS structure to utilize the amnesic feature of data stream. HAS structure has the ability to control the amnesic speed and the reconstruction error.2. Discrete Wavelet Transform is often used in construction of synopses for streaming data. We proposed a Wavelet-based Hierarchical Amnesic Synopses (W-HAS). To maintain W-HAS online for evolving data streams, the paper first explored the merger process of two wavelet decompositions, and then implemented the addition of data nodes in W-HAS structure based on the merger process. Using the addition of data nodes, W-HAS grows dynamically and hierarchically. The construction methods of W-HAS under sum of squared error (sse) and maximum absolute error metrics are discussed. Further, W-HAS with error control is also explored.3. We proposed Weighted Sampling based Hierarchical Amnesic Synopses (WS-HAS). The construction method of WS-HAS for weighted random sampling with and without replacement is discussed.4. We proposed Histograms Based Hierarchical Amnesic Synopses (H-HAS). The construction methods of H-HAS using Equi-width and V-optimal histograms are discussed.5. Clustering is useful in analyzing the paralleled data streams. Using the W-HAS and the RP-HAS (Random Projections based HAS), respectively, a fast computation of approximate distances between streams and the cluster center can be implemented, and an efficient online version of the classical K-means clustering algorithm is developed.6. We proposed HD-HAS (High Dimensional HAS).7. We introduced a novel sketch, EFM sketch. EFM sketch can be used to estimate the similarity of two sets. Based on HAS structure, we discussed the analyzing method of evolvement in data stream.æ›´å¤š è¿˜åŽŸ

ã€å…³é”®è¯ã€‘ æ•°æ®æµï¼› æ•°æ®é—å¿˜ï¼› æ¦‚è¦ç»“æž„ï¼› å°æ³¢ï¼› èšç±»åˆ†æžï¼›
ã€Key wordsã€‘ data streamsï¼› amnesicï¼› Synopsesï¼› Waveletsï¼› clusteringï¼›

ã€ç½‘ç»œå‡ºç‰ˆæŠ•ç¨¿äººã€‘ å¤æ—¦å¤§å¦

ã€åˆ†ç±»å·ã€‘TP311.13
ã€è¢«å¼•é¢‘æ¬¡ã€‘5
ã€ä¸‹è½½é¢‘æ¬¡ã€‘379
æ”»è¯»æœŸæˆæžœ

çŸ¥ç½‘èŠ‚ä¸‹è½½

èŠ‚ç‚¹æ–‡çŒ®ä¸ï¼š

æœ¬æ–‡é“¾æŽ¥çš„æ–‡çŒ®ç½‘ç»œå›¾ç¤º:

æœ¬æ–‡çš„å¼•æ–‡ç½‘ç»œ

èŠ‚ç‚¹æ–‡çŒ®

èŠ‚ç‚¹æ–‡çŒ®

åŸºäºŽé—å¿˜ç‰¹æ€§çš„æ•°æ®æµæ¦‚è¦ç»“æž„åŠå…¶åº”ç”¨ç ”ç©¶

Research on Amnesic Synopsis of Data Stream and Its Applications

æœ¬æ–‡é“¾æŽ¥çš„æ–‡çŒ®ç½‘ç»œå›¾ç¤º:

åŸºäºŽé—å¿˜ç‰¹æ€§çš„æ•°æ®æµæ¦‚è¦ç»“æž„åŠå…¶åº”ç”¨ç ”ç©¶