国产迷奸一区,国产小仙女视频一区二区,国产精品无码久久久久成人app,久久精品成人一区二区三区,97精品 ,天天干天天骚天天色,亚洲精品中文字幕不卡一区二区,www.szjiaye.cn,亚洲欧美v国产一区二区三区

  1. 首頁
  2. 大牛說
  3. 對話星塵數據章磊:大模型數據標注,需要擁有專家級知識

對話星塵數據章磊:大模型數據標注,需要擁有專家級知識

9月20日的直播,我們邀請了星塵數據創始人、CEO章磊,共同討論在自動駕駛和大模型發展的大背景下,數據標注行業將如何配合迭代進化

圖片

嘉賓精彩發言及觀點:

  • 當前數據標注的工具越來越復雜,管理越來越細致,自動化的算法要求越來越高;

  • 隨著自動駕駛的發展,我們會發現數據量本身其實不是問題,更重要的是數據價值;

  • 大模型標注需要你像一個完整的人,需要用到大量的知識,對人的要求非常高,甚至需要具備一些專家的知識才能夠去進行標注;

  • 未來每一個行業都可能需要大模型那么大模型怎么去落地,怎么產生直觀的效果提升辦公效率或者提高產出質量等會很關鍵。

以下為直播聊天實錄,有所刪減,完整直播視頻請查看「智車星球」視頻號:

智車星球數據標注這幾年有什么變化?有觀察到哪些趨勢?

章磊:數據的復雜程度和需求的復雜程度越來越高。幾年前是2D的圖像識別,后來是3D識別,然后是2D和3D融合、BEV、4D標注等等。越來越多的技術方案,標注規則也越來越細,對標注人員的要求也越來越高。

對于我們,挑戰主要有幾個,一是標注工具越來越復雜,二是管理得越來越細致,三是自動化的算法要求越來越高。以前可能一個算法就可以進行預標注或者輔助標注,現在得有七八個甚至十幾個算法做輔助配合,才能夠把一個標注的結果做到自動化。

目前行業主要有幾種發展策略,一是進行人力運營的優化,比如說將職高院校或者學校納入管理體系,讓人力變得更便宜,或者增加一些人力管控方案。

另外一種策略是商務路線或者銷售路線,去打大客戶,保證長期穩定的項目,這樣也能保證一定的利潤。

第三種是做營銷路線,這種可能不賺錢,甚至是貼錢,但先把規模做大,然后通過融資滾動起來。

還有一種是我們走的技術路線,通過自動化的輔助標注,加上數據閉環的迭代,真正有效地降低標注成本,提高標注效率。這條路線相對不能在比較短的時間內產生比較好的效果,比如一個算法迭代一版可能就是一到兩個月,要真正迭代出效果,可能需要在一個方向花費一年、兩年甚至更長的時間。

這么長的一個時間周期,對于商務合作、運營管理以及整個公司的運作都是挑戰和難度,但我們相信算法可以降低90%以上的人力成本,也可以大幅提升交付效率,滿足整個行業的需求。

但從一個技術人員的角度來說,技術本身都沒有難點,只要在時間和資源無限的情況下,沒有一個技術是因為認知而導致有門檻的。但這是理想情況,現實情況下,你的時間節點、資源、人力和規劃都不可能是完美的,所以如何對任務進行編排、分解、每一個任務怎樣去協同,是比較有挑戰的。本質上這是個任務管理工作,你得在認知算法的前提下進行管理,另外還有就是要把招人和管理這兩件事做好。

智車星球:如何看待和自動駕駛車企的合作競爭,隨著自動標注的自動化比例不斷提升和大模型的發展,車企有可能自己來做標注嗎?

章磊:我們是產業鏈的一環,是基礎設施算法,自研就要考慮投入產出比這件事。

前兩年很多大廠因為要滿足市值維護和不斷提升股價的需求,它需要不斷擴充業務邊界。但我覺得這不是一個常態,一個成熟的市場應該是大家各自分工,各自做最專業的事情。

當然我們不能完全排除車廠自己去做標注工作,一方面內部迭代可能效率會更高,第二數據相對會更安全,基于這兩點肯定會有公司自己去做。

但任何一個方案都不是100%去替代其他東西的,就像電視機出來那么多年,收音機仍然存在。

智車星球:標注企業是否會始終聚焦在標注,還是說會有發展成人工智能公司?

章磊:我們的定位并不是一家數據標注公司,我們是一家數據的基礎設施公司。

我們處理的數據實際上是AI、機器學習要用到的數據,這其實是一個比較新的領域。我們想解決的是AI數據層的問題,這些問題不僅僅是數據標注。隨著自動駕駛的發展,我們會發現數據量本身其實不是問題,更重要的是數據價值。

我們認為最終一個完整的數據閉環,它如果能解決數據的入庫、流程編排、預處理、數據的價值發現以及數據的送標,數據驗收,還有模型訓練過程管理和模型價值指標分析等等這些工作,那么這個數據閉環可以極大加快算法的迭代過程。

還有隨著大模型的發展,我們發現大模型需要的數據也是五花八門。今年下半年的一個趨勢,就是垂類的應用。垂類應用它就需要業務相關的數據,把它分成預訓練數據、人類偏好數據等等這些流程的數據策略。

首先有了數據策略以后,就可以進行一個任務的編排,然后做數據的生產。之后就可以通過數據閉環去檢測模型缺什么,可以通過benchmark或者其他一些方式去發現模型的缺陷,然后進一步的去迭代和改進。

我們在做的另一件事就是benchmark本身——怎么去衡量算法和模型。每家客戶都有自己內部的一些指標,但這個指標或者說你沿著這條路徑走了很長時間以后,你不知道自己是領先還是落后,與行業平均水平相比到底如何。這就需要一家第三方公司去給一些反饋和建議,這也是未來數據層比較好的一個方向。

智車星球:目前高速NOA做數據標注的話,數據量大概是多少?

章磊:高速場景一般比較干凈,我們認為一般20~50萬幀的數據量,是可以訓練出一款比較好的算法。這里的一幀是指所有傳感器的一幀,所以一幀可能包括了有好幾張圖片。

智車星球:數據孤島這個問題現在還存在嗎?

章磊:數據孤島的定義分企業內和企業外。企業內的數據孤島是每一個部門有自己的數據,很多大企業各個部門之間數據很難打通,這是一種。另外一種是企業和企業之間,數據孤島的原因是源于交易雙方的不信任。

當然也會有改變,如果自動駕駛最后變成一個標準化的問題,那么就像小學、初中、高中課本,我們是可以統一去定制的。到了大學里面,每家客戶的場景不一樣,我們就按照自定義的方式去做定制化的開發。

智車星球:現在星塵也有很多大模型客戶,請您介紹一下大模型的數據標注有哪些的特點和難點?

章磊:CV的標注可能更需要像個運動員,能夠高效且非常整齊地做一個動作,比如說把車識別出來。而在NLP中,更需要你像一個完整的人,比如數學的問題或者代碼問題集,這可能需要你用到大量的知識去把它寫出來。

從這個角度來講,對人的要求非常高,甚至需要具備一些專家的知識才能夠去進行標注。另外,你要根據他的垂類應用場景去幫他設計一整套的數據集,里面包括開源數據、閉源數據和專業的私有化數據,從這些角度規劃和設計,然后把這些數據生產出來,然后再進行模型訓練。

智車星球:最近Scale AI在嘗試一些新業務,尋找第二增長曲線,但目前還沒有找到另一個核心支撐。您怎么看?

章磊:Scale AI做了很多工具,比如管理工具、測試工具、開發工具等。我們可以看到它從一家數據標注公司已經變成了一家數據閉環和infer的這么一家公司,它覆蓋的面會更大。

當然如果從財報看,直至上個季度它的大模型收入體量并不大,但是結果永遠是滯后的。我們從投資人的角度或者說從未來去看,我們能看到一個明顯趨勢,過去我們服務的是一小部分懂算法的人,但是今天或者將來會越來越多去服務各行各業的人。每一個行業都可能會需要大模型,那么大模型怎么去落地,怎樣產生直觀的效果提升辦公效率或者提高產出質量等會很關鍵。

對于大模型這樣的需求,其實算法公司會很難,雖然大部分大模型的流程和所需要的工具類似,但算法會涉及到很多定制化的需求,其中很大一部分就是數據生產工作,而數據生產工作正好就是數據公司的一個強項。從這個角度來講,我們將來的路其實是會越來越寬的。

智車星球:覺得現在數據行業在國內已經是紅海市場了嗎?

章磊:市場環境的第一個特點是長江后浪推前浪。最近自動駕駛和電動車的一波熱潮,又帶動了很多新的進入者,但商業規律本身是沒有變化的,任何急功近利的人都可能被拍死在沙灘上。比如說想靠低價去快速擴大規模的,可能因為資金鏈斷裂,或者是任何這個行業的融資情況變化,就會導致現金流支撐不下去,這是一種。

另外一種就是靠客戶關系,但數據服務這件事情是具備可比性的,客戶關系做得即便很強,可能并不是核心競爭力。還有就是優化人力,一旦發現人力優化不下去但技術還在往前走的時候,就沒有辦法去克服客觀規律,當所有的成本已經低于人力成本的時候,就沒法正常經營了。

我們也看到有一些新的公司,他們也是通過技術來解決問題。整個行業肯定不可能只有一家公司最后走出來,我們也希望大家各有各自的特點,然后去解決各自一些有優勢的問題,我覺得這是一個比較良好的健康的行業和氛圍。

來源:第一電動網

作者:智車星球

本文地址:http://m.155ck.com/kol/212011

返回第一電動網首頁 >

收藏
13
  • 分享到:
發表評論
新聞推薦
大牛作者

智車星球

服務智能汽車創業者,提供媒體報道、品牌公關、會議活動、投融資對接等其他定制服務。

  • 178
    文章
  • 7651
    獲贊
閱讀更多文章
第一電動網官方微信

反饋和建議 在線回復

您的詢價信息
已經成功提交我們稍后會聯系您進行報價!

第一電動網
Hello world!
--> 主站蜘蛛池模板: 山丹县| 吉木乃县| 沙坪坝区| 云龙县| 慈利县| 黄浦区| 贞丰县| 扶绥县| 南充市| 通海县| 涡阳县| 康平县| 四子王旗| 泊头市| 额敏县| 吴川市| 富阳市| 泽库县| 山阴县| 珠海市| 施甸县| 罗江县| 布拖县| 温泉县| 阿勒泰市| 乌什县| 西吉县| 乐亭县| 手游| 伊宁市| 荆州市| 勃利县| 霍山县| 大足县| 饶河县| 深水埗区| 长治县| 大名县| 威海市| 通州区| 乐陵市|