當前位置:主頁 > 體育 > 足球 > 正文

高文:傳感網是智能城市的基礎 大數據形成決策依據

未知 2020-01-02 19:16

  2015年6月3-5日,作為云計算領域最具影響力的盛會—— 第七屆中國云計算大會在國家會議中心盛大開幕。大會以“促進云計算創新發展,培育信息產業新業態”為主題,承續前六屆的成功經驗,超過100位國內外云計算領域核心專家精彩演講,聚焦生態系統現狀和發展趨勢,交流實踐經驗,進一步推動技術創新應用。

高文:傳感網是智能城市的基礎 大數據形成決策依據

中國工程院院士 高文

  中國電子學會云計算專家委員會副主任委員,中國大數據專家委員會副主任委員,國家自然基金委副主任、中國工程院院士高文在題為《城市多媒體大數據高效存儲與處理技術》的演講中表示:最新的圖靈獎獲獎人是Dr. Michael Stonebraker,數據庫領域非常著名的專家之一,這也證明了大數據技術對產業而言非常重要。智能城市作為大數據實踐很有代表性。首先,智能城市是一個復雜信息生態系統;其次,智能城市的基礎,是城市大數據傳感網絡和大數據中心;第三,智能城市成功的前提,是政府決策的主要依據來自大數據中心。比如,李未院士的“北京天通苑軌道交通研究”,通過優化公交調度、熱點區域直達、優化作息安排、繞行其他道路等短期方案來解決擁堵,中長期是要“針對個人,可根據其出發時間和目的地,實時規劃公交路線,動態預測其到達目的地時間”。除此以外,還有廣州外地車限行對策。這些都說明大數據已經成為“智能城市”發展的助推劑。城市信息基礎設施和智能應用的橋梁是數據傳感網絡,其中,監控視頻感知網,交通客流(一卡通)感知網絡,套牌與換牌車(交通卡口)感知網絡,道路交通狀況感知網絡,城市流行病感知網絡,城市污染源感知網絡等都是重要的數據來源。從技術上來看,就是要過“三關”:存儲,AVS2監控視頻編碼壓縮標準、IEEE 1857.4;表達,MPEG CDVS、MPEG CDVA、IEEE1857.6;計算,數據關聯、機器學習、決策支持系統。最后,通過決策形成流程。

  以下為演講實錄:

  大會已經進行三天,大家前面已經接觸了很多和智慧城市有關的演講,我的演講主要集中在多媒體大數據,在智慧城市里有什么瓶頸,需要做什么技術上的儲備和處理。云計算、大數據,非常熱。計算機領域的圖靈獎相當于計算機領域的諾貝爾獎,今年的圖靈獎準備授給這位先生,Michael stonebraker,他是數據庫領域最辛勤的耕耘者之一,很多數據庫原型基本上都是在他的推動下成功的。所以把這個獎頒給他,是從一個角度證明現在大數據非常重要,大數據中的核心技術非常重要。

涩情五月  我今天主要講圍繞城市的多媒體大數據講四個方面的問題,一個是核心要義。其下有三個支撐,城市大數據的傳感網絡,數據中心,決策中心。因為后者已經脫離了技術范疇,不在展開,作為結束語。

  智慧城市核心要義

  首先,跟大家分享一下關于智慧城市的核心要義。很多專家經常把智慧城市理解為城市信息化,更多的領導也是把智慧城市理解為怎么樣讓他領導的城市完全信息化,裝上計算機,裝上很多傳感器就可以了。實際上,智慧城市它并不是一個簡單的城市的信息化,它的含義要大于這個。這里面是一個生態系統,一個復雜的信息生態系統。這個生態系統包括三個環節,第一個環節就像人的視聽、觸覺等等感知,首先它能感知這些大數據,城市信息的感知,是感知網絡。第二個核心的生態部分,就是要有一個數據中心,有一個計算能力超強的數據中心,能把感知到的數據對它進行處理。第三個要義是往往被忽略的,就是要有一個決策中心。當然現在的決策往往是在前,這也是我專門講智慧城市要遠遠大于城市的信息化的原因。以前的城市的信息化大多數是領導先定下來一個決策,先說要做一個什么,要有一個什么宏觀規劃,然后去做,所有的系統是按照前期響應的目標向那里逼近,這個思路是錯的。決策應該在后來,就像人一樣,當然人可以自上而下的決策,但是人更多的決策是反過來的,他對周圍環境有一個感知,然后經過大腦的處理,最后決定我這件事情怎么做,這是一個比較正常的環節。所以我們現在的智慧城市或者智能城市,應該按照和人比較類似的思路去對它進行管理和控制,這三個部分,特別是第三部分對于今后城市的管理是一個很有挑戰的事情。

  這樣一個智慧城市要想把它做好,有很多案例可以說明。我就簡單舉兩個例子。一個是我們北京天通苑的例子,天通苑是1999年建設的大型社區,8平方公里,現在住了90多萬人,這些人在這個集中的區域里住,很顯然會遇到一個問題就是交通問題,這些人早上上班,晚上要回到住的地方。很容易想象,容易出現擁堵,事實上確實容易出現擁堵,天通苑的人上班,交通是一個最大的問題,到底是哪里堵。原來的分析可能說天通苑,因為它是在東北角,住在那里的人很多可能是到CBD區域上班,估計那條線是比較堵的,所以專門有一條線是往CBD通的。但現在的大數據告訴我們,天通苑最主要的交通擁堵不是在那里,發生在哪里呢?現在天通苑最大兩個目的地,第一個是上地,第二個是中關村。最多的是去上地上班,恰恰在天通苑設計的時候是沒有直通車的,所以就要換乘。現在如果想從天通苑到中關村,有一條5號線,另外有一條是13號線。你要去上地,盡管從天通苑數起來沒有幾站,但是中間必須要換車,換車就是非常糟糕的一個體驗。所以很多人寧可選坐公交車不坐地鐵,因為換乘是非常糟糕的體驗。主要的交通壓力就到地面了,所以從天通苑到上地到中關村交通是非常擁堵的,開始設計的時候完全沒有想到。

  看到這個數據我們也給北京市有關部門建議,說可以修一條直通車,從天通苑第一站在上地,第二站在中關村,這可以把20%的壓力一下緩解掉了,因為現在的交通設計沒有安排快車,剛才說的是快車,第一站就是上地,第二站是中關村,沒有辦法開快車。能不能再修軌道?還得重新規劃,規劃好了就要很久的事情。這就是智慧城市里應對這樣的問題是很大的難題。如果參加過6月3號講座的,大家可能聽到李未教授做了一些研究,他們給出了很多解決方案,既然能修一條解決方案,他們給出了包括公交車怎么調度,具體的短期還可以給出一些基于大數據和數據挖掘的辦法,可以在各種各樣的優化安排上做一些安排,具體使用的工具可以使用數學的工具,包括靜態的規劃、動態規劃,把數據輸入進去挖掘這樣的工作。

  總而言之,根本上沒有辦法解決,但是作為工程技術可以找到解決方案。最根本的起來回到剛才的,有了這個數據,后面的決策流程和決策程序非常關鍵,如果北京市政府看到這個問題,想法解決還是要從根本上下工夫。

  第二個案例就是廣州限牌、限購的例子。2012年廣州就想解決擁堵問題,這個問題在哪里,核心最主要的擁堵產生根源是什么。因為很多人說,在廣州很多人開的不是廣州本地牌的車,是因為這個原因造成了廣州交通擁堵,所以有人提出一個建議,咱們來一個限制令,非廣州車牌的車,交通擁堵時間不準進廣州。大家知道外地車進北京要辦一個通行證,沒有的話就不能在這長期呆,可以在這用幾天。廣州有段時間也想實行這個政策,如果實行了結果會怎么樣,他們就做了一點分析:到底是有多少外地的車在廣州這個地方經常出入。通過大數據的分析,就把整個數據都監控起來,調進來以后進行分析,分析以后發現,外地車在廣州可分成四類,一類是本地化使用,比如說深圳的車牌在廣州使用;第二是候鳥型;第三是偶發過境;第四是常發過境,有的車很有規律,每天都從這里過。分成這四類就比較有意思了,在這四類里,后來突然發現,真正對于它本地早晚交通造成擁堵的,實際上是第一類。大家可以看到,外地車的本地化使用數量約4.7萬輛/月,只占所有外地車(約357萬輛/月)的1.31%,非主流,可忽略。實際上即使把這些外地車限制住了,高峰時間只能解決1.31%的擁堵,這個政策你采用和不采用是沒有什么大的區別。98%是沒有變化的,只有1.3%是有變化的,但是這個政策一實行以后就會造罵,”我們幫你作貢獻你們還給我們歧視“,最后決定不采用這個政策。這就是大數據幫助決策的很多事。

涩情五月  所以智慧城市的城市,或者智能城市發展,大數據是很有用的東西,關鍵你怎么用它,這是第一個問題。

  傳感器網絡是智能城市的基礎

涩情五月  第二問題,在整個智慧城市大的生態鏈里,第一個環節就是傳感器網絡,或者叫大數據傳感器網。給出這樣一個系統,智慧城市這個系統里最主要的就是把數據時時的,全方位的獲取進來,包括各種各樣的數據,比如說像車輛,你可以通過卡口,可以通過電子警察、視頻監控等等,把所有和車輛有關的數據都獲得進來,還有和生活,一些定位、地理信息、個人身份驗證,比如說交通卡、一卡通等,對于城市的安保還有一些,像公共事件、自然災害、社會安全事件,就要把這些數據都能夠時時感知到,然后把它送給你的中心。

  這樣一個監控網絡一定要形成網絡,如果形不成網絡,這個系統就是很弱的。要想形成網絡,目前的智慧城市,它的網絡都是一小片一小片的,沒有完成連接起來,這是有問題的。所以一個比較理想的感知網它是包括剛才說的所有的,每一個單獨的信息都能夠時時匯聚到數據中心,這個網絡才能真正形成。

  我們知道現在單獨的可能都在,但是要匯總起來要下一點決心,需要投入一些。比如說這個感知網絡,容易想到的像一卡通、火車、輕軌等等,目前都是在交通公司里,把它全部放到城市的數據中心里。另外,卡口的信息在交管部門都是有,但是怎么樣把它放到城市的信息中心,能夠很好地使用。我們知道新聞里經常出現一些套牌車這樣的信息,或者是有意識的跑一段,他跑一段把車牌換別的車牌再跑,一旦你換掉了車牌,基本上目標就丟掉了。但是,如果我們用剛才說的感知系統,我們就有辦法不僅感知你的車牌,而且感知你的車型,后面有一個演示專門說這個問題。

涩情五月  交通狀況的感知現在已經深入到每一個人的生活當中了,如果我們想查查堵車不堵車,哪條路堵車,馬上打開導航,打開GPS,打開手機的百度地圖你就能看到。這個信息是從哪里來的?都是從后臺統計來的,后臺把包括出租車在內的一些GPS信息,或者個人的GPS信息,它做一個數據統計分析,就看在這個區段的,這些移動的物品平均速度是多少,就把整個交通狀況統計出來了。有了這個對整個交通狀況就很容易感知,當然希望有更高的技術,除了GPS還有攝像頭的監控統計,再早一點地下還有傳感器,將來希望天上有一些視頻的感知,把這些數據都加在一起就比較準確一點。

  另外,一個城市里總是有各種各樣的流行病的產生,流行病發作到什么程度,都是通過新聞里知道,但是現在通過醫保的統計可以分析這些情況。

  還有污染,污染是面臨的很大的問題,現在污染更多的從空氣指數,從網站上看到的,但是這個信息量太小,我們說不是真正的大數據,北京市大概只有二三十個點。北京這么大城市,我覺得至少要有幾萬個點才比較有用,有十幾萬個點更好了,但是這個靠政府投入根本不行,就要通過大數據,把個人發動起來,把個人家里裝一些檢測設備,讓可信的數據入網,通過這個大數據可以看得出來這個污染源到底是從什么地方。一會兒可能是通州是污染源,一會兒說是豐臺是污染源,現在點太少,如果多了就可以檢測起來。

  在所有的感知系統里,有一個最大量的數據是視頻數據。有很多統計分析都告訴我們,現在在大數據里面,最大的部分,或者超過一半的部分是攝像頭的監控數據,但是這些數據很可惜沒有很好利用起來。舉個例子,這是我們國內的一個例子,某個城市,不方便說具體的,有可能好也可能不好。

  這個省可能了100萬個攝像頭,有10萬個是治安的攝像頭,還有3000個汽車的卡口的,而且有1億人口,有2000萬車輛,10萬個民警,所有這些東西,如果把剛才說的監控系統建立起來的話,這個是很大的成本。比如光攝像頭就需要200億,這是很大的成本,而且把這些東西全部用起來就是更大的一筆成本。所以怎么樣把這個傳感器網絡真正建好,是有一個很大的挑戰。

  大數據中心形成決策依據

  下一個問題講一下關于大數據中心。剛才說把感知網絡獲得的數據全部送到數據中心,這件事講講不是那么難,但是到中心的數據怎么樣形成決策,這中間是有一個過程的。這個過程通常是說,要把海量數據變成大數據,這是有一個過程。這個過程里最核心的要過三關,不是海量數據就是大數據,大數據是經過整理可以使用的大規模的數據才能叫做大數據,否則只是海量數據,只是一個簡單的堆積。這個大數據要想用到大數據,大概要有三關,第一關就是把所有搜集來的數據存儲起來。存儲就是用了非常大規模的存儲系統,什么數據都存得下,但這并不一定能做到。因為現在大多數像智慧城市里的系統,都不敢存很多監控視頻的數據,最大的系統大概也就存三個月就覆蓋掉,前面就沒有辦法存了,因為存不下,因為視頻數據量太大。怎么樣讓它存得下,這是一個技術挑戰。主要就是希望有一個辦法,要么壓縮的很小,要么把里面沒有用的東西扔掉。怎么樣壓的更小,這是我的老本行,就是做視頻編碼或者視頻壓縮,現在經過30年的攻關,現在技術上應該說已經做到,每10年翻一番。大家看這個圖,91年到94年,我們叫做第一代,第一代當時是針對的數字電視做的。到2003年作用到了第二代,這個仍然是針對互聯網電視和數字電視來做。現在剛剛完成了第三代,現在的監控視頻,絕大多數用的是第二代的技術,現在剛剛完成了第三代,就是一兩年前完成了第三代,基本上它現在監控視頻慢慢地有一部分已經往第三代轉移了,但是數字電視還是在第二代上。從壓縮效率來看,每一代是前一代的翻一倍,高清視頻第一代壓到150分之一,到第三代已經做到300分之一,我們希望第四代壓到600分之一。這些技術還在進展,這也是我們正在做的,國內有一支隊伍做的也很不錯。比如說在AVS這個領域,大家可能都知道,視頻編碼里我們在監控視頻已經比國外同樣水平效率更高一倍。從監控來看,我們已經進到第四代了。這個編碼現在基本上是已經變成國家標準,有些部分已經在廣電,所有的高清電視都在用這個東西。監控視頻還在往前推進,實現產業化還有一段時間,整個效能我剛才說了,比國外同等的水平效率會高一倍,主要原因就是我們里面用了一個很巧妙的背景建模技術,因為監控視頻的背景基本上不變,它的效率就會提高,我們把背景建模我們叫做場景模式,把它打開和關閉會差40%50%的編碼效率。

  HEVC就是第三代編碼技術,在極端的情況下,比較苛刻的情況下,效率提升40%,在寬松的情況下基本上就是兩倍了。這里一些案例,現在用高清視頻,非常高質量的用國外的同等的要接近4兆,壓的很死幾百K也可以,我們追求的是把每個細節看清楚,這個新的可能2兆就足夠了,這是第一關。

  第二關是表達,存儲的數據要在上面進行特征的抽取,對它進行比對,進行分析,這個需要表達。關鍵是你怎么樣把特征提取出來,比如機器學習,搞數據挖掘,其實它的算法最后效率高與低都取決于表達能力強與弱,表達也是非常關鍵的。在表達方面,國內很多團隊做的工作也相當不錯,比如現在對于汽車的表達,現在已經有一些很好的技術,比如是一些加強的SIFT特征的技術,可以把車牌和車型組合到一起進行表達,剛才車牌換掉,或者套牌車等,用這個技術表達一下就識別出來了。除非你那個套牌車的車和牌完全是一樣的,那個比較難識別的,按這個表達的話,這個牌和車不相匹配,要么車是假的,要么是牌是假的,用這個技術就可以解決了。通過這種辦法也可以在更高層面進行一個壓縮,如果我不是在原數據的層面壓縮,是在表達的層面壓縮,壓縮的效率可能還要高,可能是幾千比一了。

涩情五月  有了高效的存儲,有了表達,就可以做非常快速的檢索或者搜索。現在一千萬輛車,這個頂天了。一千萬輛車能不能在一秒鐘內完成搜索,這是我們設計的目標,這個系統就可以工作了。

  第三關就是計算關,有了存儲,有了表達,最上面那一層我們就要進行場景的分析,最后形成決策的輔助,這就是大數據的處理,這個處理最核心的就是數據的關聯。因為傳感器的數據來自不同的攝像頭,不同的地點,怎么樣把時間空間都關聯到一個空間上,這個是非常難的問題,如果關聯準了,后面就簡單,如果不準后面的壓力非常大,就是怎么關聯,里面的難點是什么,我就不講了。

涩情五月  通過這種關聯你可以進行分析跟蹤的技術,比如可以時時跟蹤這些人。另外對多個攝像機怎么樣進行對像的標識,可以通過一些算法。另外在A攝像機照到的人,怎么樣在B攝像機找到他,這已經有一些不錯的工作,所有這些工作都要再一個數據中心里完成,這個是我們做的原形系統,在北京大學的數據中心,已經可以做類似的工作。這是另外一些案例了。

  最后的演示給大家看一下,這是一個大規模城市卡口車輛的精細識別,你這個城市有很多卡口,這個卡口車輛在過,每過一個車輛我們用剛才說的表達把它完全記錄下來,根據這種表達,任何時候想找任何一輛車,任何一個車牌的車,或者里面駕駛員的情況都可以找出來,當然駕駛員可能不是那么清晰,我們這個數據馬上可以告訴你哪個人沒有系安全帶,所以馬上就標出來,哪個車沒有系安全帶,幾點幾分出來了,這個安裝了以后,整個事情就變得相對簡單了。

  總結一下。整個智慧城市的生態鏈有三個比較重要的部分,一個是傳感系統,一個是大數據中心,還有一個決策的環節。我前面把前兩個部分已經講的比較詳細了,當然技術上還要做一些工作。最關鍵環節是決策形成的流程,這個已經超出了技術范疇,它是一個管理范疇的事。我前面已經說到了,必須要由政策的制定者,要基于大數據形成決策,并進行落實,這是一個很大的挑戰,希望我們做大數據的人經常把這個理念向管理者灌輸,使他們對第三環節更重視,希望大數據真正體現它的好處。多謝大家!

標簽