在數(shù)字化浪潮中,企業(yè)每天產(chǎn)生的視頻數(shù)據(jù)呈爆炸式增長(zhǎng),但這些海量視頻中,真正被有效利用的卻少之又少。大量未被處理的視頻數(shù)據(jù)如同沉睡的寶藏,被業(yè)界稱為“暗數(shù)據(jù)”。如何將這些PB級(jí)的視頻數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的數(shù)字資產(chǎn),成為視頻AI領(lǐng)域亟待攻克的新課題。
近日,一家專注于視頻AI的初創(chuàng)公司InfiniMind宣布完成580萬(wàn)美元種子輪融資,為這一難題提供了新的解決方案。這家總部位于日本東京的公司由兩位前谷歌員工創(chuàng)立,旨在通過構(gòu)建創(chuàng)新基礎(chǔ)設(shè)施,幫助企業(yè)無(wú)需編寫代碼即可將PB級(jí)閑置視頻和音頻資產(chǎn)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),支持快速查詢和分析,應(yīng)用于監(jiān)控、安全及內(nèi)容深度分析等領(lǐng)域。
本輪融資由亞洲知名深度科技風(fēng)投公司UTEC領(lǐng)投,CX2(Cox Exponential)、Headline Asia Ventures、Chiba Dojo以及一位來(lái)自a16z Scout的人工智能研究員參與跟投。這筆資金將用于加速Deepframe模型的開發(fā)、擴(kuò)展PB級(jí)視頻處理的工程基礎(chǔ)設(shè)施、招聘工程師以及拓展日本和美國(guó)市場(chǎng)。
在互聯(lián)網(wǎng)數(shù)據(jù)中,視頻數(shù)據(jù)占比超過80%,但現(xiàn)有工具難以有效分析和利用這些數(shù)據(jù)。企業(yè)積累的視頻素材包括數(shù)十年歷史的廣播節(jié)目存檔、工廠全天候監(jiān)控錄像、零售監(jiān)控視頻以及無(wú)人機(jī)和衛(wèi)星圖像等。盡管云服務(wù)廠商能檢測(cè)到人或車輛等目標(biāo),但僅限于簡(jiǎn)單標(biāo)記,缺乏對(duì)上下文的理解。新一代視頻AI模型雖能處理視頻內(nèi)容,但處理時(shí)長(zhǎng)有限,開源方案也僅能應(yīng)對(duì)數(shù)小時(shí)的視頻,無(wú)法滿足企業(yè)數(shù)天、數(shù)周甚至數(shù)年的視頻分析需求。
InfiniMind聯(lián)合創(chuàng)始人兼CEO Aza Kai表示:“在谷歌工作時(shí),我們發(fā)現(xiàn)客戶擁有PB級(jí)視頻數(shù)據(jù),卻無(wú)法從中獲取有效信息。他們提出的問題看似簡(jiǎn)單,卻找不到答案。這促使我們思考如何整合視覺、音頻和語(yǔ)音理解功能,將視頻轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。”
InfiniMind的解決方案是通過構(gòu)建視頻理解基礎(chǔ)設(shè)施,將視頻轉(zhuǎn)化為結(jié)構(gòu)化企業(yè)數(shù)據(jù)。其技術(shù)能夠關(guān)聯(lián)不同事件,理解垂直行業(yè)中長(zhǎng)視頻內(nèi)容的事件因果關(guān)系,將目標(biāo)素材轉(zhuǎn)化為可搜索、可操作的數(shù)據(jù),形成可查詢的知識(shí)庫(kù),支持企業(yè)商業(yè)智能工具的直接集成。
2025年4月,InfiniMind推出了首款A(yù)I引擎產(chǎn)品TVPulse。該產(chǎn)品利用AI分析技術(shù),實(shí)現(xiàn)對(duì)海量電視廣播數(shù)據(jù)的精確逐秒搜索,幫助媒體和零售公司追蹤產(chǎn)品曝光度、品牌影響力、市場(chǎng)分析、競(jìng)品活動(dòng)監(jiān)測(cè)及風(fēng)險(xiǎn)管理等。目前,TVPulse已為批發(fā)商和媒體行業(yè)的付費(fèi)企業(yè)客戶提供服務(wù),累計(jì)分析內(nèi)容超過10萬(wàn)小時(shí)。
InfiniMind的旗艦產(chǎn)品Deepframe則專注于長(zhǎng)視頻理解,能夠處理200小時(shí)的視頻和音頻素材,精確定位特定場(chǎng)景、演講者或事件。該產(chǎn)品計(jì)劃于今年3月進(jìn)行測(cè)試,4月正式發(fā)布。與現(xiàn)有方法孤立分析片段不同,Deepframe以統(tǒng)一數(shù)據(jù)流方式處理視頻、語(yǔ)音和環(huán)境音頻,追蹤長(zhǎng)視頻中的因果關(guān)系。例如,在安全事件場(chǎng)景中,它能檢測(cè)完整敘事:誰(shuí)進(jìn)入現(xiàn)場(chǎng)、接觸了什么、去了哪里以及最終發(fā)生了什么。
與TwelveLabs等提供通用視頻分析API的公司不同,InfiniMind專注于企業(yè)部署,通過虛擬私有云(VPC)和本地部署滿足數(shù)據(jù)主權(quán)要求,解決許多組織采用云端AI時(shí)的障礙。Deepframe還包含微調(diào)工廠,可生產(chǎn)多種行業(yè)專用模型,幫助客戶在成本、精度和速度之間實(shí)現(xiàn)最優(yōu)平衡。
InfiniMind的兩位聯(lián)合創(chuàng)始人Aza Kai和Hiraku Yanagita在谷歌有近10年的合作經(jīng)驗(yàn)。Aza Kai擁有9年以上工程經(jīng)驗(yàn),曾從事數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和云基礎(chǔ)設(shè)施工作,設(shè)計(jì)大規(guī)模機(jī)器學(xué)習(xí)解決方案并領(lǐng)導(dǎo)亞太地區(qū)數(shù)據(jù)科學(xué)團(tuán)隊(duì)。Hiraku Yanagita則在谷歌日本擁有10年以上數(shù)字營(yíng)銷經(jīng)驗(yàn),專注于品牌和數(shù)據(jù)解決方案,為企業(yè)客戶提供深入分析服務(wù)。
他們?cè)缭诠雀韫ぷ鲿r(shí)便注意到技術(shù)發(fā)展的可能性。2021年至2023年,隨著視覺語(yǔ)言模型的進(jìn)步,視頻AI開始超越簡(jiǎn)單物體標(biāo)記。“過去10年,GPU成本下降和性能提升固然重要,但模型能力的提升才是關(guān)鍵。”Aza Kai表示。2024年,技術(shù)成熟且市場(chǎng)需求明確,兩人決定創(chuàng)立InfiniMind(曾用名SDio),分別擔(dān)任CEO和COO。目前,公司在東京有10余名員工,并與東京大學(xué)的研究合作者共同推進(jìn)模型評(píng)估和視頻理解基準(zhǔn)測(cè)試。
憑借技術(shù)創(chuàng)新,InfiniMind入選了多個(gè)知名項(xiàng)目,包括AWS生成式人工智能加速器(GAIA 2025)、日本經(jīng)濟(jì)產(chǎn)業(yè)省的生成式人工智能挑戰(zhàn)計(jì)劃(GENIAC)、NVIDIA Inception計(jì)劃以及Google for Startups云計(jì)劃。公司計(jì)劃將總部遷至美國(guó),同時(shí)保留日本辦公室,以進(jìn)一步拓展全球市場(chǎng)。















