<span id="x1frr"><rp id="x1frr"></rp></span>

            <sub id="x1frr"><dfn id="x1frr"><ins id="x1frr"></ins></dfn></sub>

              <thead id="x1frr"><var id="x1frr"><ruby id="x1frr"></ruby></var></thead>

              <address id="x1frr"><var id="x1frr"></var></address>
                <address id="x1frr"><dfn id="x1frr"></dfn></address>

                  創業邦公眾號二維碼
                  創業邦
                  幫助創業者成功
                  快鯉魚公眾號二維碼
                  快鯉魚
                  發現最前沿的創新公司
                  毒舌科技公眾號二維碼
                  毒舌科技
                  「毒」立思考的科技媒體
                  創業邦學園公眾號二維碼
                  創業邦學園
                  創業者一站式成長平臺

                  它幫大語言模型消除“幻覺”,一個月內三家向量數據庫創業公司獲新融資

                  阿爾法公社 2023-04-26 18:14

                  向量數據庫讓大預言模型擁有“長期記憶”,幫助它消除“幻覺”。

                  image.png

                  編者按:本文來自微信公眾號 阿爾法公社(ID:alphastartups),創業邦經授權轉載,頭圖來源攝圖網

                  阿爾法公社創始合伙人許四清:向量數據庫最早被研究人員用向量空間模型做存儲和查詢,其高效、靈活支持多模態、可分布式存儲,尤其是很好地支持并行計算等特征,成為生成式人工智能不可或缺的支撐。熟悉向量數據庫的大廠技術人員,面對極好的創業窗口,歡迎大家一起研究這個領域的機會。

                  ChatGPT的橫空出世,帶動了新一波生成式AI的創業浪潮。據統計,ChatGPT3.5出現以后,4個月左右的時間內,美國在人工智能領域發生了近500筆投資,總投資金額近160億美元,平均每個項目超過3000萬美元。

                  阿爾法公社創始合伙人許四清認為:“在這一輪生成式AI的創業競爭比賽里,‘得人才者得模型,得模型者得天下’。一個比較大的創業機會是在基礎模型底座和垂直應用結合,也就是得模型者得天下——懂模型的人利用模型,在大語言模型和技術基礎之上做模型的創新級應用?!?/p>

                  但大語言模型目前的一個通病是,它會“一本正經的胡說八道”,也就是產生“幻覺”,這限制了它在垂直領域的實用性。雖然此前OpenAI首席科學家Ilya Sutskever表示可以通過“人類反饋強化學習”(RLHF)來讓模型對錯誤的輸出結果進行調整,但這種方法并不能徹底解決大語言模型的“幻覺”問題。

                  相比RLHF,向量嵌入(vector embeddings)可能是一種更靠譜的方法。通過為大語言模型創建一個向量數據庫,把來源權威,可信的非結構化數據轉換成向量,并儲存到數據庫中,就能幫助大語言模型具有“長期記憶”,并且減少它產生“幻覺”的可能性。

                  面對這個機會,有遠見和敏感性的非凡創業者們不會錯過,就在過去一個月內,連續三家致力于向量數據庫的創業公司獲得融資,我們將在本文為大家理清向量數據庫到底怎么解決大模型的“幻覺”問題,以及我們欣賞的AlphaFounders又如何在這個新興賽道上“各顯神通”。

                  向量數據庫,助力解決大模型的“幻覺”問題

                  Vector database(向量數據庫),也稱為向量相似度搜索引擎或近似最近鄰(ANN)搜索數據庫,是一種專門用來處理向量嵌入的數據庫。它通過比較值并找到彼此相似的值來索引向量,以便于搜索和檢索。與其他傳統數據庫不同,它能夠處理復雜數據,如文檔、圖像、視頻和網頁上的純文本等非結構化數據,使人們(和系統)能夠搜索未標記的內容,這對于擴展大語言模型(LLM),比如ChatGPT所使用的GPT-4的用例尤為重要。

                  向量數據庫簡化了人工智能開發者對向量數據的管理。作為必不可少的AI原生基礎設施組件,通過把來源權威,可信的圖片、視頻和文本這樣的非結構化數據轉換成向量,并儲存到向量數據庫中,它就能幫助大模型具有“長期記憶”,并且減少大模型產生“幻覺”的可能性。

                  根據Gartner的數據,非結構化數據占企業生成的新數據比例高達90%,并且增長速度比結構化數據快三倍。與此同時,絕大多數人工智能研發項目從未投入生產,向量數據庫領域創業公司Qdrant的CEO兼聯合創始人Andre Zayarni認為這是因為缺乏正確的工具——最終,將大模型連接到實時的非結構化數據可以為任何希望構建更有用AI應用的人打開大量機會。

                  一個月內,3家向量數據庫創業公司獲得新融資

                  Chroma獲得1800萬美元種子輪融資

                  Chroma由Jeff Huber和Anton Troynikov共同創建,Jeff是連續創業者,入選福布斯30 Under 30精英榜,他的上一家企業獲得了YC投資,做的是低成本的假肢制造。Anton Troynikov也是連續創業者,同時長期擔任過Nuro和Meta的計算機視覺工程師。

                  作為向量數據庫研發商,Chroma的主要產品是開源的嵌入式向量數據庫。Chroma認為大模型浪潮催生了新的計算堆棧,這個新的堆棧包括:

                  LLM應用邏輯:Langchain、Llamaindex-使開發者能夠圍繞他們的用例編寫業務邏輯

                  LLM/嵌入提供商:OpenAI、Anthropic、Cohere-原始的CPU/馬力

                  嵌入式數據庫:Chroma-使大模型應用程序具有長期記憶。

                  1.png

                  很多AI領域的開發者表示他們希望能夠“使用自己的數據”做出ChatGPT式的產品,Chroma的數據庫通過基于嵌入式文檔檢索提供了這種“使用自己的數據”的橋梁。

                  近日,Chroma獲得由Quiet Capital領投的1800萬美元種子輪融資。除了機構投資者外,他們還獲得了MongoDB、Scale、Hugging Face、Jasper等公司創始人或高管的投資,受到了整個生成式AI生態的歡迎。

                  Weaviate獲得5000萬美元B輪融資

                  Weaviate同樣是AI原生向量數據庫研發商,它的數據庫可以存儲高達數十億個向量,還使處理這些向量更加容易。

                  Bob van Luijt是一個復合背景的連續創業者,15歲開始編寫軟件,卻又有伯克利音樂學院和哈佛商學院的學習經歷。他創立IT公司Kubrickology Innovations B.V,之后與Etienne Dilocker共同創立Weaviate,兩人分別擔任CEO和CTO。這兩位創業者看似沒有光鮮的大公司經歷,但是他們都有10年以上的自由工程師經歷,具有深厚的技術積累。

                  Weaviate的AI原生向量數據庫的功能包括:

                  可擴展的內置機器學習模塊——只需加載并搜索;Weaviate完成ML的繁重工作——任何數據類型、任何模型、任何用例。

                  更豐富的向量搜索——支持各種ML搜索,并且可以搜索向量以及生成向量的源對象。

                  高性能——亞秒級搜索,可擴展到數十億個對象,無間斷運行。

                  2.png

                  對于垂直領域的創業者,使用向量數據庫,可以讓他們僅對與模型連接的向量數據庫中存儲的內容進行小型和定期更新,以使模型意識到新信息,并減少需要重復訓練大語言模型和頻繁更新的需求,這樣即使在耗時的重新訓練權重更新之間,大模型也能提供強大而最新的定制答案。

                  Weaviate在今年早些時候推出了ChatGPT的Plug in插件,該插件的主要功能包括:

                  • 允許用戶連接一個向量數據庫到ChatGPT,其中包含專有數據,可以被ChatGPT用于回答非常具體的問題。

                  • 允許用戶持久化個人文檔和細節,使ChatGPT帶有個性化特色,因此答案不僅僅是一般性的,還可以根據向量數據庫中指定的細節為用戶量身定制。

                  • 用戶可以在連接的向量數據庫中持久化與ChatGPT的對話,以在打開和關閉ChatGPT標簽之間繼續對話。

                  簡而言之,使用此插件,用戶可以讓ChatGPT“了解”自己的自定義數據,并大幅度提高回答問題的質量。不僅如此,向量數據庫還可以用作ChatGPT的長期記憶存儲,原本ChatGPT可以在一次“聊天”中記住用戶的上下文,并提供反饋,而擁有“長期記憶”后,哪怕用戶關閉了某一次“聊天”,當他在新“聊天”中再一次提起相關話題時,ChatGPT也能接著上一次的話題繼續很好的給出回答。

                  3.png

                  自2022年初獲得A輪融資以來,Weaviate本月又獲得一輪5000萬美元的B輪融資,這輪融資由Index Ventures領投,參與投資的還包括Battery Ventures、NEA、Cortical Ventures、Zetta Venture Partners等知名機構。目前,Weaviate總共獲得6770萬美元的外部融資。

                  開源向量數據庫初創公司Qdrant獲750萬美元種子融資

                  Qdrant成立于2021年,它針對人工智能軟件開發人員,提供用于非結構化數據的開源向量搜索引擎和數據庫。

                  Qdrant的兩位創始人Andre Zayarni(CEO)和Andrey Vasnetsov(CTO)是老同事,他們在共同創立Qdrant之前,都在智能招聘公司moberries工作,Andre Zayarni是CTO,Andrey Vasnetsov是Lead Data Scientist。兩位創始人在moberries工作之前,也均具有較為深厚的技術背景和經驗,在多家歐洲的科技公司領導過技術團隊。

                  Qdrant認為向量數據庫已成為新人工智能技術堆棧的基本構建塊。它們使開發人員通過實時和真實世界的數據來擴展ChatGPT等基于大語言模型的應用程序的“知識庫”,從而構建更先進的應用程序。

                  Qdrant對近似最近鄰搜索(ANN)算法HNSW進行了獨特的定制修改,允許以最先進的速度查詢結果并應用過濾器,而不會影響結果。云原生支持分布式部署和復制,使引擎適用于具有實時延遲要求的高吞吐量應用程序。

                  4.png

                  Qdrant近期獲得750萬美元的種子輪融資,領投方為Unusual Ventures,42cap、IBB Ventures以及包括Cloudera聯合創始人Amr Awadallah在內的個人天使投資人。

                  OpenAI合作者Pinecone累計融資3800萬美元

                  除了在本月獲得融資的三家向量數據庫創業公司外,我們額外介紹一家在2022年獲得A輪融資的公司——Pinecone。

                  Pinecone由Edo Liberty創立,他本科畢業于特拉維夫大學,在耶魯獲得計算機科學的PHD。在創立Pinecone之前, Liberty是亞馬遜AI實驗室的領導者,并在AWS構建了SageMaker機器學習平臺和服務,根據谷歌學術,他的論文引用數高達4326,是一位兼具學術視野和工程經驗的非凡創業者。

                  Pinecone是向量數據庫領域的早期探索者之一,目前非?;鸬腁utoGPT就集成了它的產品。Pinecone也是OpenAI的合作方,用戶可以通過OpenAI的Embedding API生成語言嵌入,然后在Pinecone中為這些嵌入建立索引,以實現快速且可擴展的向量搜索。

                  5.png

                  Pinecone在2021年1月獲得Wing Venture Capital 領投的1000萬美元種子投資,在2022年3月底,又獲得Menlo Ventures領投的2800萬美元A輪融資,其他投資者還包括Tiger Global和前Snowflake CEO Bob Muglia等個人投資人。目前它的總融資額達到3800萬美元。

                  生成式AI催生底層技術變革,向量數據庫大有可為

                  每一次表層應用需求的轉變,都會推動底層基礎設施技術的更新。本次生成式AI的創新,來自于擁有超大數據量的大語言模型,而訓練用的數據又是非結構化的,數據類型的變化和數據量的變化,催生了向量數據庫的需求,而生成式AI創業的蓬勃之勢,顯示這個需求必然是巨大的。

                  生成式AI的發展可謂日新月異,而大公司的創新速度大概率比不上創業公司,這次生成式AI的爆發由OpenAI而不是Google引發,就證明了這一點。同理,向量數據庫的發展機會很可能不在大公司,而在創業公司。

                  生成式AI的創業在中國同樣大有可為,我們也相信向量數據庫在中國有很好的創業機會,期待與有志于向量數據庫方向的創業者多交流。

                  本文為創業邦原創,未經授權不得轉載,否則創業邦將保留向其追究法律責任的權利。如需轉載或有任何疑問,請聯系editor@cyzone.cn。

                  熱文榜 TOP

                  查看更多

                  客服微信: cyzone2019

                  上傳項目 文章投遞 尋求報道
                  • APP
                  • 公眾號
                  • 微博
                  • 知乎
                  中國創業者的信息平臺和服務平臺,幫助中國創業者實現創業夢想
                  創業邦公眾號,帶你隨時了解與創業有關的人、事、錢
                  邦哥自留地,輕松充電,秒知圈內事
                  創業邦知乎機構號,帶你以另一種方式了解世界

                  產品服務升級,如需試用本功能,敬請移步至睿獸分析

                  跳轉至睿獸分析打開 知道了,下次再去
                  精品国产乱码久久久久久_两个人的视频全免费观看高清_久久久久久久久久_嫩草院一区二区乱码