前谷歌團(tuán)隊(duì)打造視頻AI新方案，讓PB級(jí)閑置視頻“變身”可檢索結(jié)構(gòu)化數(shù)據(jù)-資訊速遞-媒體界

前谷歌團(tuán)隊(duì)打造視頻AI新方案，讓PB級(jí)閑置視頻“變身”可檢索結(jié)構(gòu)化數(shù)據(jù)

發(fā)布時(shí)間：2026-02-13 14:17 來(lái)源：快訊作者：任飛揚(yáng)

在數(shù)字化浪潮中，企業(yè)每天產(chǎn)生的視頻數(shù)據(jù)呈爆炸式增長(zhǎng)，但這些海量視頻中，真正被有效利用的卻少之又少。大量未被處理的視頻數(shù)據(jù)如同沉睡的寶藏，被業(yè)界稱為“暗數(shù)據(jù)”。如何將這些PB級(jí)的視頻數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的數(shù)字資產(chǎn)，成為視頻AI領(lǐng)域亟待攻克的新課題。

近日，一家專注于視頻AI的初創(chuàng)公司InfiniMind宣布完成580萬(wàn)美元種子輪融資，為這一難題提供了新的解決方案。這家總部位于日本東京的公司由兩位前谷歌員工創(chuàng)立，旨在通過構(gòu)建創(chuàng)新基礎(chǔ)設(shè)施，幫助企業(yè)無(wú)需編寫代碼即可將PB級(jí)閑置視頻和音頻資產(chǎn)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)，支持快速查詢和分析，應(yīng)用于監(jiān)控、安全及內(nèi)容深度分析等領(lǐng)域。

本輪融資由亞洲知名深度科技風(fēng)投公司UTEC領(lǐng)投，CX2（Cox Exponential）、Headline Asia Ventures、Chiba Dojo以及一位來(lái)自a16z Scout的人工智能研究員參與跟投。這筆資金將用于加速Deepframe模型的開發(fā)、擴(kuò)展PB級(jí)視頻處理的工程基礎(chǔ)設(shè)施、招聘工程師以及拓展日本和美國(guó)市場(chǎng)。

在互聯(lián)網(wǎng)數(shù)據(jù)中，視頻數(shù)據(jù)占比超過80%，但現(xiàn)有工具難以有效分析和利用這些數(shù)據(jù)。企業(yè)積累的視頻素材包括數(shù)十年歷史的廣播節(jié)目存檔、工廠全天候監(jiān)控錄像、零售監(jiān)控視頻以及無(wú)人機(jī)和衛(wèi)星圖像等。盡管云服務(wù)廠商能檢測(cè)到人或車輛等目標(biāo)，但僅限于簡(jiǎn)單標(biāo)記，缺乏對(duì)上下文的理解。新一代視頻AI模型雖能處理視頻內(nèi)容，但處理時(shí)長(zhǎng)有限，開源方案也僅能應(yīng)對(duì)數(shù)小時(shí)的視頻，無(wú)法滿足企業(yè)數(shù)天、數(shù)周甚至數(shù)年的視頻分析需求。

InfiniMind聯(lián)合創(chuàng)始人兼CEO Aza Kai表示：“在谷歌工作時(shí)，我們發(fā)現(xiàn)客戶擁有PB級(jí)視頻數(shù)據(jù)，卻無(wú)法從中獲取有效信息。他們提出的問題看似簡(jiǎn)單，卻找不到答案。這促使我們思考如何整合視覺、音頻和語(yǔ)音理解功能，將視頻轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。”

InfiniMind的解決方案是通過構(gòu)建視頻理解基礎(chǔ)設(shè)施，將視頻轉(zhuǎn)化為結(jié)構(gòu)化企業(yè)數(shù)據(jù)。其技術(shù)能夠關(guān)聯(lián)不同事件，理解垂直行業(yè)中長(zhǎng)視頻內(nèi)容的事件因果關(guān)系，將目標(biāo)素材轉(zhuǎn)化為可搜索、可操作的數(shù)據(jù)，形成可查詢的知識(shí)庫(kù)，支持企業(yè)商業(yè)智能工具的直接集成。

2025年4月，InfiniMind推出了首款A(yù)I引擎產(chǎn)品TVPulse。該產(chǎn)品利用AI分析技術(shù)，實(shí)現(xiàn)對(duì)海量電視廣播數(shù)據(jù)的精確逐秒搜索，幫助媒體和零售公司追蹤產(chǎn)品曝光度、品牌影響力、市場(chǎng)分析、競(jìng)品活動(dòng)監(jiān)測(cè)及風(fēng)險(xiǎn)管理等。目前，TVPulse已為批發(fā)商和媒體行業(yè)的付費(fèi)企業(yè)客戶提供服務(wù)，累計(jì)分析內(nèi)容超過10萬(wàn)小時(shí)。

InfiniMind的旗艦產(chǎn)品Deepframe則專注于長(zhǎng)視頻理解，能夠處理200小時(shí)的視頻和音頻素材，精確定位特定場(chǎng)景、演講者或事件。該產(chǎn)品計(jì)劃于今年3月進(jìn)行測(cè)試，4月正式發(fā)布。與現(xiàn)有方法孤立分析片段不同，Deepframe以統(tǒng)一數(shù)據(jù)流方式處理視頻、語(yǔ)音和環(huán)境音頻，追蹤長(zhǎng)視頻中的因果關(guān)系。例如，在安全事件場(chǎng)景中，它能檢測(cè)完整敘事：誰(shuí)進(jìn)入現(xiàn)場(chǎng)、接觸了什么、去了哪里以及最終發(fā)生了什么。

與TwelveLabs等提供通用視頻分析API的公司不同，InfiniMind專注于企業(yè)部署，通過虛擬私有云（VPC）和本地部署滿足數(shù)據(jù)主權(quán)要求，解決許多組織采用云端AI時(shí)的障礙。Deepframe還包含微調(diào)工廠，可生產(chǎn)多種行業(yè)專用模型，幫助客戶在成本、精度和速度之間實(shí)現(xiàn)最優(yōu)平衡。

InfiniMind的兩位聯(lián)合創(chuàng)始人Aza Kai和Hiraku Yanagita在谷歌有近10年的合作經(jīng)驗(yàn)。Aza Kai擁有9年以上工程經(jīng)驗(yàn)，曾從事數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和云基礎(chǔ)設(shè)施工作，設(shè)計(jì)大規(guī)模機(jī)器學(xué)習(xí)解決方案并領(lǐng)導(dǎo)亞太地區(qū)數(shù)據(jù)科學(xué)團(tuán)隊(duì)。Hiraku Yanagita則在谷歌日本擁有10年以上數(shù)字營(yíng)銷經(jīng)驗(yàn)，專注于品牌和數(shù)據(jù)解決方案，為企業(yè)客戶提供深入分析服務(wù)。

他們?cè)缭诠雀韫ぷ鲿r(shí)便注意到技術(shù)發(fā)展的可能性。2021年至2023年，隨著視覺語(yǔ)言模型的進(jìn)步，視頻AI開始超越簡(jiǎn)單物體標(biāo)記。“過去10年，GPU成本下降和性能提升固然重要，但模型能力的提升才是關(guān)鍵。”Aza Kai表示。2024年，技術(shù)成熟且市場(chǎng)需求明確，兩人決定創(chuàng)立InfiniMind（曾用名SDio），分別擔(dān)任CEO和COO。目前，公司在東京有10余名員工，并與東京大學(xué)的研究合作者共同推進(jìn)模型評(píng)估和視頻理解基準(zhǔn)測(cè)試。

憑借技術(shù)創(chuàng)新，InfiniMind入選了多個(gè)知名項(xiàng)目，包括AWS生成式人工智能加速器（GAIA 2025）、日本經(jīng)濟(jì)產(chǎn)業(yè)省的生成式人工智能挑戰(zhàn)計(jì)劃（GENIAC）、NVIDIA Inception計(jì)劃以及Google for Startups云計(jì)劃。公司計(jì)劃將總部遷至美國(guó)，同時(shí)保留日本辦公室，以進(jìn)一步拓展全球市場(chǎng)。

更多>同類內(nèi)容