設(shè)為首頁(yè)加入收藏

微信關(guān)注
官方微信號(hào):南方財(cái)富網(wǎng)
加關(guān)注獲取每日精選資訊
搜公眾號(hào)“南方財(cái)富網(wǎng)”即可,歡迎加入!
APP下載會(huì)員登錄網(wǎng)站地圖

合合信息IPO:文檔解析技術(shù)加速財(cái)報(bào)精準(zhǔn)“研讀”

2024-09-20 12:45 互聯(lián)網(wǎng)

  隨著上市公司2024年中報(bào)披露高峰期的到來(lái),海量財(cái)務(wù)報(bào)告的解讀成為金融行業(yè)從業(yè)者面臨的重大挑戰(zhàn)。為了緩解這一壓力,并提升人工智能大模型在財(cái)報(bào)分析中的準(zhǔn)確性和效率,合合信息對(duì)其大模型“加速器”方案中的PDF文檔解析技術(shù)進(jìn)行了優(yōu)化升級(jí),旨在將非結(jié)構(gòu)化的PDF內(nèi)容高效轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),助力大模型實(shí)現(xiàn)從“泛讀”到“精讀”的飛躍。

  PDF作為主流電子文件格式,廣泛應(yīng)用于企業(yè)財(cái)報(bào)、年報(bào)等重要文件的發(fā)布。然而,這些文件往往包含復(fù)雜的表格、圖表、證照等元素,對(duì)AI大模型的文檔解析能力提出了嚴(yán)峻考驗(yàn)。傳統(tǒng)大模型在處理此類文件時(shí),常因“理解力”不足和數(shù)據(jù)讀取錯(cuò)誤,導(dǎo)致關(guān)鍵信息丟失或誤解,進(jìn)而影響分析結(jié)果的準(zhǔn)確性。

  合合信息的PDF文檔解析技術(shù)則通過多文檔元素識(shí)別和版面分析能力,能夠精準(zhǔn)識(shí)別文檔中的段落、公式、頁(yè)眉、頁(yè)腳等多種元素,并有效應(yīng)對(duì)財(cái)報(bào)中常見的無(wú)線表、合并單元格、不規(guī)則行距等復(fù)雜版面問題。該技術(shù)不僅提升了表格結(jié)構(gòu)還原的準(zhǔn)確性,還能推斷出人類閱讀時(shí)的自然順序,避免了機(jī)械排序帶來(lái)的信息割裂,實(shí)現(xiàn)了真正的“所見即所得”。

  據(jù)合合信息技術(shù)團(tuán)隊(duì)成員介紹,上市公司年報(bào)頁(yè)數(shù)大多集中在200至300頁(yè)的范圍內(nèi),一個(gè)熟練的分析師可能在幾天到一周的時(shí)間內(nèi)完成對(duì)年報(bào)的基本分析,PDF文檔解析工具最快能在1.5秒完成百頁(yè)文檔的解析,按8小時(shí)為一天工作時(shí)間計(jì)算,解析工具可幫助大模型在一日內(nèi)對(duì)數(shù)千家企業(yè)的年報(bào)數(shù)據(jù)進(jìn)行精準(zhǔn)分析。隨著無(wú)紙化辦公、數(shù)字化趨勢(shì)發(fā)展,PDF文檔解析技術(shù)有望被應(yīng)用于更廣泛的場(chǎng)景。

  目前,合合信息登陸科創(chuàng)板上市,并啟動(dòng)IPO申購(gòu)。憑借其在智能文字識(shí)別及商業(yè)大數(shù)據(jù)領(lǐng)域的深厚積累和技術(shù)優(yōu)勢(shì),合合信息正為全球C端用戶和多元行業(yè)B端客戶提供更加數(shù)字化、智能化的產(chǎn)品和服務(wù)。未來(lái),隨著技術(shù)的不斷迭代和應(yīng)用場(chǎng)景的持續(xù)拓展,合合信息有望在更多領(lǐng)域?qū)崿F(xiàn)突破,推動(dòng)人工智能技術(shù)的普及和應(yīng)用。

   廣告