<cite id="1ndtl"></cite>
<ruby id="1ndtl"></ruby>
<strike id="1ndtl"></strike>
<span id="1ndtl"><dl id="1ndtl"></dl></span><span id="1ndtl"><dl id="1ndtl"></dl></span>
<strike id="1ndtl"></strike>
<strike id="1ndtl"><dl id="1ndtl"><del id="1ndtl"></del></dl></strike>
<span id="1ndtl"></span>
<span id="1ndtl"><dl id="1ndtl"></dl></span>
<strike id="1ndtl"></strike>
<strike id="1ndtl"></strike><span id="1ndtl"><dl id="1ndtl"></dl></span>
<strike id="1ndtl"></strike><strike id="1ndtl"></strike>
<strike id="1ndtl"></strike>
<span id="1ndtl"></span>
<span id="1ndtl"><dl id="1ndtl"></dl></span>
<th id="1ndtl"><noframes id="1ndtl"><span id="1ndtl"><video id="1ndtl"><strike id="1ndtl"></strike></video></span> <strike id="1ndtl"></strike>
<strike id="1ndtl"></strike>
<span id="1ndtl"><dl id="1ndtl"></dl></span>
  1. 首頁
  2. 半導體的應用有哪些(瀚博半導體CEO錢軍 : 在特定應用方向,DSA架構的AI芯片比GPU更有性能優勢)

半導體的應用有哪些(瀚博半導體CEO錢軍 : 在特定應用方向,DSA架構的AI芯片比GPU更有性能優勢)

近日,高性能人工智能與視頻處理芯片解決方案提供商瀚博半導體發布了首款云端通用AI推理芯片SV100系列及基于該芯片的通用推理加速卡VA1,今年四季度量產上市。

瀚博半導體2018年12月成立于上海。瀚博A輪融資由快手、紅點創投中國基金、五源資本聯合領投;今年4月完成了5億元人民幣A+輪融資,由經緯中國和中國互聯網投資基金聯合領投,聯發科跟投。該公司主要研發高性能通用加速芯片,針對多種深度學習推理負載而優化,應用場景為計算機視覺、智能視頻處理、自然語言處理等。SV102是瀚博SV100系列的首款芯片,它面向云端的AI的通用化推理任務。

人工智能行業隨著持續的技術演進,算法模型的精度、性能等關鍵指標在眾多領域不斷取得突破性進展,已進入算法規模化應用落地階段。全球范圍內各行業數據中心對推理算力的需求在快速增長,下游客戶多樣化的算力應用場景,催生了多樣化的AI計算加速芯片需求。

瀚博創始人兼CEO錢軍表示,市面上鮮有主流GPU廠商外的其他更優解決方案,瀚博的SV102采用了DSA(Domain Specific Architecture,領域專用架構)架構,且主要適用于視頻流類信息的處理。

對于技術路線的選擇,錢軍表示,一是因為英偉達的GPU性能強大,在同一路線下創業公司很難取勝;二是計算機視覺任務占據了AI市場的大部分,視頻流占據數據流的 70%,而且比例持續攀升,適用于處理視頻類信息的DSA架構芯片,能取得較好的信息處理效果。

視頻解碼能力對芯片有著低延時、吞吐量大、能效低等要求。根據瀚博公開的產品性能指標,SV102的峰值算力為200TOPS(INT8);75瓦功耗下,其吞吐量2-10倍于GPU的AI吞吐率;且延時不到GPU的5%。

此次推出的SV100系列芯片可支持FP16, BF16和INT8等數據格式,并可以實現眾多主流神經網絡的快速部署及計算機視覺、視頻處理、自然語言處理和搜索推薦等多樣化推理應用場景。同時集成64路以上H.264/H.265/AVS2的1080p視頻解碼,廣泛適用于云端與邊緣智能應用場景,提升客戶的設備資產效益、降低運營成本。

除了SV102以外,瀚博半導體還計劃推出功率為15W和150W的推理產品,覆蓋更多市場。

瀚博同步推出的基于SV100系列芯片的VA1推理加速卡,為單寬半高半長75瓦PCIe x16卡,支持32GB內存和PCIe 4.0高速接口協議,無需額外供電,即可適用于所有廠商的人工智能服務器,實現數據中心高密度高算力部署。

在業務應用場景上,瀚博的芯片產品和辦卡產品主要用于網絡直播、流媒體、電商推薦、智能客服等領域。

瀚博半導體在北京、深圳和多倫多均有研發分部。公司核心員工平均擁有15年以上的相關芯片與軟件設計經驗,總員工數在200人以上。公司創始人曾為AMD高管,CEO錢軍曾在AMD任Senior Director,負責GPU(圖像處理器)和AI服務器芯片設計和生產,CTO張磊2013年晉升為AMD Fellow,負責AI、深度學習,視頻編解碼和視頻處理領域,其公司團隊部分成員曾設計了業界首款7nm制程 GPU。

以下是發布會現場的采訪內容:

1. 創始人履歷有豐富的GPU行業經驗和背景的,為什么你們這樣的團隊卻選擇了DSA開啟創業?

我從2009年開始,就開始思考怎樣逼近英偉達,但英偉達作為業界頭部公司,他們不斷耕耘,軟件的成熟程度,整個工程能力方方面面,你要在相同構架下打贏它,有很大難度。

要打敗英偉達,我們必須在構架上贏得優勢,我們的DSA構架整個核心IP設計全部都是我們自己的。我們在選擇我們第一個產品的時候,看到推理的市場非常大,需要一顆非常優質的產品。

我們更多的是做一個新構架的產品,通過這個構架,我們能在性能指標上超過它,再把產品賣到國外去。

2. 國內現在有缺芯問題,公司對于這個問題是如何解決的,對產品的量產會有影響嗎?

缺芯是全球性的,可能是產能跟需求的一個不匹配,也有另外一種說法是像挖礦等需求,造成了產能的一些傾斜。有些有需求的產品如汽車電子產品買不到芯片。

對瀚博而言,瀚博今年產能已出,明年大部分的產能已提前預知,不過如果剩下產品賣的特別好,也有可能面臨產能問題。

3. 最近AI界比較流行大規模訓練模型,你們的芯片會有這方面的考量或者有相關優化嗎?

我們關注到了這一點,所以做云端訓練的時候,絕對不可能是單一算力芯片的一個部署,你一定要考慮到連接,考慮到精度、有效性。

我們非常關注這個領域,我們的S102是一個推理芯片,暫時還不會面對這樣一個大的模型,但我們的算力是足夠支撐大的模型。

4. 這款芯片的研發歷時兩年,研發過程中遇到的困難是什么?我們是怎么去克服的?

我們整個芯片研發也經過了兩年多的時間。這不是我做過的最大的芯片,大家不要以為推理芯片比訓練芯片好做,其實難度并不低。在整個過程中,對初創公司而言,會遇到很多挑戰。

我覺得最重要的要從客戶需求看,構架要對,然后你要在整個模型階段就能把你的性能指標都能測試出來。

中間的話肯定會遇到各種各樣的一個問題,這方面,我們是基于核心團隊的專業知識,我們做過很多款芯片,我們做過20多款GPU,所有的GPU都是量產的,然后整個這一塊我們是非常強大。

S102不是我們第一個量產的產品,我們前面有一個7NM的芯片,也做得很好。那顆芯片給了我們一個通道,讓我們把我們know-how,我們整個流程的解決方案嚴謹性、完整地梳理了一遍。如今,通過這兩顆芯片,我們有了整個設計的完整性。

5. AI芯片生態很重要,我們想問一下你們現在對一些框架平臺的支持成功率怎么樣?

軟件的生態要一點點建立,我們主打的產品的話,讓我們有時間一邊建立生態,一邊賣產品。

整個軟件side,我們也看到,除了我們的AI引擎,還有我們的視頻CV的引擎。我們在互聯網端測的話,可能AI引擎會推出快一點,視頻會稍微慢一點。在計算機視覺方面,我們會把視頻引擎的所有功能都優化好,所以我們還在大力發展軟件團隊,我們的軟件人員以后會3倍、5倍于我們的硬件。

我們后期會發布我們15瓦到150瓦的產品,我們的軟件團隊會在我們基礎軟件的共同平臺上搭出不同的解決方案。

6. 我們的架構是DSA架構,您剛才提到DSA架構在云端推理這一塊,比GPU架構的性能更有優勢,可以解讀一下嗎?

你看和英偉達競爭的公司,像Habana,采用的都是DSA架構,沒有人采用GPU架構。

在同樣構架下,很難規避英偉達專利里的所有東西。怎樣和英偉達做差異化,去贏他,也是一個問題。

DSA構架也是同樣的道理,每一家公司采取的不一樣,但都可以看到,在某些領域,特別是推理方面,相比GPU是有優勢的。

7. 除打造芯片以外,還有一個尋找商業模式的問題,在怎么賣芯片這個問題上,瀚博半導體是如何思考的?

我們瀚博的行事風格就是低調務實,我不可能做一款沒有客戶的產品。

我們的芯片花了兩年時間打造,今天才發布。前期雖然我們做了另一款芯片,但很多的打磨我們都是自己在做。我們最終流片的話,也找到了很好的合作伙伴,快手投了我們,也和我們合作很緊密。

我覺得要賣產品,一定要理解客戶的需求,這部分我們花了很多功夫。

此外,我們打造了一個非常現代化的數據中心,在數據中心里面,我們有一部分,就會用我們剛才提到的所有的適配的服務器,我們會把自己的產品插在里面,做整個云端的虛擬式應用算法的東西。

我們軟件會大力開發,做好客戶的支持。

8. 我們硬件的遷移能做到什么程度,是否只需要做硬件的遷移,軟件上遷移能做到什么程度?是否可以只做硬件的遷移,軟件上是否需要再重新編譯?

對比云端訓練,云端推理芯片的遷移成本相對來說比較小。更重要的是,同樣的服務器,我們的性能是T4或者A10的2~10倍。 對客戶來說,是一個巨大的TCO (Total Cost Ownership) 的節省,這種情況下,有一小部分成本做遷移,客戶覺得是可以接受的。

他們在遷移的時候,使用編譯器也沒有編譯成本,是自動的。

相關文章
美女网站色