下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、人工智能(入|)項(xiàng)目法律盡職調(diào)查應(yīng)注意事項(xiàng)吳國平北京市隆安律師事務(wù)所與傳統(tǒng)產(chǎn)業(yè)的法律盡職調(diào)查不同,很多初創(chuàng)期人工智能項(xiàng)目的團(tuán)隊(duì)不足10 人,沒有不動產(chǎn)、沒有商標(biāo)、沒有專利,僅有的程序文件還未進(jìn)行軟件著作權(quán) 登記,所以對律師團(tuán)隊(duì)的專業(yè)性提出了更高的要求。從商業(yè)角度來講,任何一 個革命性的技術(shù)或者系統(tǒng),其商業(yè)價值都是難以衡量的,因此司項(xiàng)目可能意味 著巨額的回報(bào),也可能成為隨時破裂的泡沫。如何在投資人決策中增加律師的 話語權(quán),這是所有法律人應(yīng)該深入學(xué)習(xí)的問題,現(xiàn)根據(jù)已有的經(jīng)驗(yàn),總結(jié)在AI 項(xiàng)目中律師盡職調(diào)查應(yīng)注意的問題(全文3779字,因知識產(chǎn)權(quán)保護(hù)問題,僅顯 示部分章節(jié))。一、AI項(xiàng)目與傳統(tǒng)軟件程
2、序的差異以識別一盆花的種類作為示例,傳統(tǒng)軟件程序首先將花朵的特征建議模型, 例如共計(jì)20個變量來確定花朵的特征,然后需要將已知的花朵特征按照上述變 量來進(jìn)行存儲,形成一個龐大的數(shù)據(jù)庫,而后將這20個特征的組合同數(shù)據(jù)庫里 的所有數(shù)據(jù)進(jìn)行一一對比,如果不一致,則對比下一組數(shù)據(jù),程序依此循環(huán), 直到找到匹配的數(shù)據(jù),則屏幕輸出數(shù)據(jù)庫里花朵的名字。上述表述的就是典型 的傳統(tǒng)軟件程序。AI項(xiàng)目的處理思維與上述的傳統(tǒng)程序完全不同,人工智能的程序處理是模 仿人的學(xué)習(xí)過程,如下圖示例,如果將人的手臂換成機(jī)器手臂,則不必計(jì)算前 方蠟燭的距離,也不必計(jì)算馬達(dá)的通電時間(決定甩鞭的力度)、機(jī)器臂長 度、鞭子的初始位置
3、,只需要隨機(jī)取兩組隨機(jī)變量,然后啟動馬達(dá),記錄鞭稍 與蠟燭的距離,取較小記錄的這一組數(shù)字和隨機(jī)設(shè)定的第三組數(shù)字的結(jié)果進(jìn)行 對比,以此循環(huán),很快就能找到可以擊滅蠟燭的數(shù)據(jù)。上述過程不同于從已有 數(shù)據(jù)庫中進(jìn)行索引的過程,與人類嘗試學(xué)習(xí)的過程一致。但是,上述示例過于簡單,也缺乏商業(yè)應(yīng)用的場景,實(shí)踐中處理復(fù)雜事 物,對人類的神經(jīng)網(wǎng)絡(luò)進(jìn)行建模仍然是不可能完成的任務(wù),人類大腦的神經(jīng)網(wǎng) 絡(luò)仍然是世界上最智能的“東西”,對于象征性思維和抽象邏輯思維仍然無法 通過類似數(shù)據(jù)庫檢索的形式得到完美的答案,例如開發(fā)聊天機(jī)器人場景中下面 人(標(biāo)注H)與機(jī)器人(標(biāo)注M)的對話:H:你知道水滸傳嗎?M:知道。H:你知道水滸傳
4、里的武松嗎?M:知道。H:你知道武松在景陽岡喝了多少碗酒嗎?M: 18 碗。上面的三個問題,機(jī)器人可以很輕松從數(shù)據(jù)庫中檢索出問題的答案,至于 是文字輸出還是語音輸出都只是工具的問題,重點(diǎn)是對話可以順暢地完成,對 話繼續(xù):H:武松為什么要喝那么多酒?M: #$#a%$&a%*&a%a&*$%$對于人類來講,一個人喝兩瓶白酒意味著“喝高了”,但是對于計(jì)算機(jī)程 序來講,除非數(shù)據(jù)庫中預(yù)設(shè)了“喝高了”的字段(我們暫且不分析如何通過邏 輯關(guān)系表述這一字段),否則計(jì)算機(jī)是無法理解“喝高了”這一概念,更無法 對上面武松喝酒的問題進(jìn)行檢索并給出適合的答案。人類語言交流的特殊性在 于,人類生物大腦可以很輕松地捕捉
5、“情景語言”從而理解談話者通過語言想 表達(dá)的真正意義,對于上面的問題,人類可能回答諸如酒精度數(shù)太低、店小二 故意多放空碗為了騙錢或者武松思念哥哥等等,但是,對于計(jì)算機(jī)程序來講, 輸入的數(shù)據(jù)(上例中“武松為什么要喝那么多酒”)不能由水滸傳中找到 相關(guān)的信息,也就無從檢索出可能的答案。通過上述幾個示例,律師對于AI項(xiàng)目的審查,需要對傳統(tǒng)軟件項(xiàng)目與AI 項(xiàng)目進(jìn)行區(qū)分,防止“穿上馬甲”以新概念騙取投資人的情況發(fā)生。當(dāng)然還有 另外一種騙局,即將偽裝成人工智能的部分以人工代替,某公司聲稱開發(fā)的AI 平臺能夠創(chuàng)建、操作和更新維護(hù)數(shù)字產(chǎn)品,通過他們的BuilderCare和 CloudOps等產(chǎn)品,任何人都能
6、夠在AI輔助下構(gòu)建定制數(shù)字產(chǎn)品,比如App 或網(wǎng)站,并保持必要更新,在此過程中,可以節(jié)省大量的程序員工作,相對傳 統(tǒng)軟件的開發(fā)程序可以節(jié)省超過60%的成本。該項(xiàng)目成功獲得了諸多投資公司 的資金,但是因?yàn)閮?nèi)部人員糾紛而被披露原來所謂的AI項(xiàng)目都是人工完成的。 上述騙局還出現(xiàn)在聊天機(jī)器人、人工應(yīng)答項(xiàng)目、同聲傳譯等項(xiàng)目中。當(dāng)然,這并無意味著律師對項(xiàng)目真實(shí)性的審查需要細(xì)化到審查算法的層 面,實(shí)踐中項(xiàng)目方將算法等實(shí)現(xiàn)過程視為高度機(jī)密,披露資料里可能僅僅表述 為“優(yōu)化后的決策森林回歸算法”。這為律師的盡調(diào)工作提出了更高的要求, 需要對盡職調(diào)查所涉及行業(yè)有充分的認(rèn)識,并且具有一定的計(jì)算機(jī)行業(yè)背景, 否則可能
7、無法展開實(shí)質(zhì)性的工作。二、AI項(xiàng)目基礎(chǔ)數(shù)據(jù)來源合法性的審查基于不同的應(yīng)用場景,不同的AI項(xiàng)目對基礎(chǔ)數(shù)據(jù)的需求量不同。當(dāng)然,有 時候基礎(chǔ)數(shù)據(jù)來源不足也是限制AI項(xiàng)目的重要瓶頸,如果僅僅通過網(wǎng)絡(luò)爬蟲方 式取得相關(guān)數(shù)據(jù),如何對抓取的數(shù)據(jù)進(jìn)行分類、標(biāo)簽也是成本極高的工作,更 何況有的醫(yī)療項(xiàng)目需要獲取的是病人的病歷。有研究數(shù)據(jù)表明,96%的AI項(xiàng)目 開發(fā)者都遇到了訓(xùn)練質(zhì)量和基礎(chǔ)數(shù)據(jù)數(shù)量相關(guān)的問題,并且大多數(shù)項(xiàng)目需要獲 取超過100,000個基礎(chǔ)數(shù)據(jù)樣本才能表現(xiàn)良好。盡管采用貝葉斯線性回歸算法 可以有效解決樣本數(shù)量不足的問題,但是算法的選取仍然應(yīng)該以效能為第一因 素。人類可以輕松地識別貓與虎的照片,但是對
8、于計(jì)算機(jī)程序,這是十分困難 的問題,就現(xiàn)有技術(shù)來講,甚至識別貓本身就是很困難的,例如一個卷曲身體 或者部分被遮擋的貓,更不用說識別家貓和野貓了(嚴(yán)格來講這不是生物學(xué)的 分類,很難通過程序建模)。如下示例,人類可以一眼就分辨出哪一張圖片是 喝酒,但是對于計(jì)算機(jī)來講,如何精確識別、分辨仍然是十分艱巨的任務(wù)。H神虬H也忒俐3d降機(jī)迎4 ,同4itWflittlif 伸計(jì)崎ULFYMd:倒2某個AI項(xiàng)目的視覺識別系統(tǒng)是以網(wǎng)絡(luò)抓取的圖片作為程序算法的基礎(chǔ)訓(xùn)練 數(shù)據(jù),這項(xiàng)工作并不需要很復(fù)雜的技術(shù),服務(wù)器和爬蟲軟件即可完成,最終項(xiàng)目 組由網(wǎng)絡(luò)抓取了近十億張圖片,通過大量的人工分類并耗費(fèi)了大量的存儲資 源,最
9、終形成了2萬多個分類數(shù)據(jù)庫,在此之后,項(xiàng)目組通過神經(jīng)網(wǎng)絡(luò)算法完 成了 “機(jī)器學(xué)習(xí)”,最終實(shí)現(xiàn)了 “計(jì)算機(jī)視覺”。在此過程中,律師應(yīng)當(dāng)對基 礎(chǔ)數(shù)據(jù)獲取過程的合法性進(jìn)行審查,(2017)京0108刑初2384號判決書作為 司法實(shí)踐中對數(shù)據(jù)抓取定性的重要案例,法官認(rèn)為被告人在數(shù)據(jù)抓取的過程中 使用偽造device_id繞過服務(wù)器的身份校驗(yàn),使用偽造UA及IP繞過服務(wù)器的訪 問頻率限制等行為構(gòu)成非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)罪,盡管該案判決后爭議 較多,法官事后也專門刊文進(jìn)行說明,但是法學(xué)與計(jì)算機(jī)科學(xué)對交叉領(lǐng)域有著 不同認(rèn)識,會導(dǎo)致當(dāng)事人額外的風(fēng)險。對此,盡職調(diào)查律師應(yīng)當(dāng)額外注意。首 先需要根據(jù)項(xiàng)目具體使
10、用的爬蟲工具制定具體的律師調(diào)查方案,例如以C+編 寫的 DataparkSearch、HTTrack、ICDL Crawler 或者以 Java 編寫的 YaCy、WebSPHINX、WebLech等,有的工具可以直接將抓取內(nèi)容保存為數(shù)據(jù)庫優(yōu)化格 式便于以后索引,有的則力求保存網(wǎng)站結(jié)構(gòu)和頁面內(nèi)容,因?yàn)槌绦騿T對抓取工 具的不同菜單設(shè)置,可能導(dǎo)致律師無法還原數(shù)據(jù)抓取時所采用的設(shè)置,如果抓 取工具提供了日志功能,則有助于律師進(jìn)行審查。律師必須進(jìn)行審查的工作還包括對數(shù)據(jù)標(biāo)簽化所花費(fèi)時間的合理性,抓取 的數(shù)據(jù)存在重復(fù)化、無標(biāo)簽的特點(diǎn),該類工作大多由人工完成,該項(xiàng)工作花費(fèi) 大量的時間。當(dāng)事人為了吸引投資人
11、有可能刻意夸大基礎(chǔ)數(shù)據(jù)的數(shù)量級,相應(yīng) 的標(biāo)簽化時間也會被加大,如果此間存在不合理的情形,則律師應(yīng)當(dāng)對投資人 進(jìn)行提示。該項(xiàng)律師審查可能會面臨另外一個挑戰(zhàn),即當(dāng)事人可能會提出標(biāo)簽化數(shù)據(jù) 系由第三方購買,確有國外的機(jī)構(gòu)提供標(biāo)簽化數(shù)據(jù),國內(nèi)也有公司從事該項(xiàng)業(yè) 務(wù),對此律師應(yīng)當(dāng)對購買協(xié)議、付款時間、數(shù)據(jù)傳送時間、數(shù)據(jù)存儲位置逐一 進(jìn)行審查,必要時應(yīng)當(dāng)向出售方進(jìn)行核對。獲取基礎(chǔ)數(shù)據(jù)另外一個重要的問題是著作權(quán)風(fēng)險問題,以爬蟲抓取為獲得 方式的項(xiàng)目都面臨無法獲得著作權(quán)人授權(quán)的問題,即使由第三方購買標(biāo)簽數(shù) 據(jù),這也是無法繞過的問題。但是因?yàn)锳I項(xiàng)目對基礎(chǔ)數(shù)據(jù)的使用都是非公開的 方式進(jìn)行的,因此由舉證責(zé)任判斷整
12、體民事賠償?shù)娘L(fēng)險較小,但是因?yàn)锳I項(xiàng)目 獲取的基礎(chǔ)數(shù)據(jù)是如此巨大,律師應(yīng)當(dāng)針對項(xiàng)目的具體實(shí)施過程為投資人評估 行政處罰和刑事責(zé)任(侵犯著作權(quán)罪),這種風(fēng)險在內(nèi)部人員糾紛中很容易被 披露或者被檢舉告發(fā)。當(dāng)然,我們還需要對行業(yè)性AI項(xiàng)目的數(shù)據(jù)獲取進(jìn)行分析,與視覺系統(tǒng)的數(shù) 據(jù)獲取、挖掘不同,行業(yè)性AI項(xiàng)目基礎(chǔ)數(shù)據(jù)無法通過爬蟲方式進(jìn)行公開獲取, 只能通過行業(yè)內(nèi)機(jī)構(gòu)并通過行業(yè)內(nèi)人員的協(xié)助進(jìn)行獲取。糖尿病性視網(wǎng)膜病變糖尿病的主要并發(fā)癥之一,也是導(dǎo)致失明最快的原 因,2017全球約有4.25億糖尿病患者(國際糖尿病聯(lián)盟公布數(shù)據(jù))面臨病變風(fēng) 險。檢測糖尿病眼病的最常見方法之一是讓??漆t(yī)生通過眼底燈和裂隙燈檢查 眼嚴(yán)查眼部血管和視網(wǎng)膜,以此確定是否有疾病以及嚴(yán)重程度。AI項(xiàng)目通能過 對眼底圖片的RGB色彩模型以及HSI色彩模型,最后對獲得的反射圖像進(jìn)行貝 葉斯變化檢測,從而能夠通過這個AI項(xiàng)目代替醫(yī)生檢查視網(wǎng)膜照片病變的跡 象,至少可以幫助醫(yī)生篩選更多的患者。為了達(dá)到較高的靈敏度和特異性,該 項(xiàng)目需要至少十萬張眼底影像進(jìn)行訓(xùn)練,同時上述數(shù)據(jù)還需要有專業(yè)的眼科醫(yī) 生進(jìn)行分類(標(biāo)簽化)。國家衛(wèi)生健康委員會曾就醫(yī)療數(shù)據(jù)的獲取、存儲、使用出具管理辦法,將 醫(yī)療數(shù)據(jù)的管理提升到個人信息安全、群眾生命安全、國家戰(zhàn)略安全的高度, 事實(shí)上,AI項(xiàng)目的數(shù)據(jù)訓(xùn)練無需患者的姓名、聯(lián)系方式等
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 河南省周口市淮陽區(qū)馮塘鄉(xiāng)馮塘學(xué)校2024-2025學(xué)年八年級上學(xué)期期末測試英語試卷(含答案)
- 2021高三生物二輪限時訓(xùn)練-光合作用與細(xì)胞呼吸2
- 蘭州市2022高考英語閱讀理解和短文改錯自練(9)及答案
- 【KS5U名校】安徽省淮北市2021屆高三第二次模擬考試文科綜合試卷(掃描版-含答案)
- 【備戰(zhàn)2021高考】全國2021屆高中政治試題匯編(11月第一期):K單元中華文化與民族精神
- 【全程復(fù)習(xí)方略】2020年人教A版數(shù)學(xué)文(廣東用)課時作業(yè):2.5對-數(shù)-函-數(shù)
- 內(nèi)心掏空的那一刻-保育員工作總結(jié)
- 四年級數(shù)學(xué)(小數(shù)加減運(yùn)算)計(jì)算題專項(xiàng)練習(xí)與答案匯編
- 五年級數(shù)學(xué)(小數(shù)四則混合運(yùn)算)計(jì)算題專項(xiàng)練習(xí)及答案匯編
- 【狀元之路】2021高考物理一輪復(fù)習(xí)課時作業(yè):7-3-實(shí)驗(yàn)(一)
- 2024五凌電力限公司招聘5人高頻考題難、易錯點(diǎn)模擬試題(共500題)附帶答案詳解
- 五年級上冊數(shù)學(xué)脫式計(jì)算300題及答案
- 市政公司3年戰(zhàn)略規(guī)劃方案
- 2024年全國中考英語試單選(動詞時態(tài))
- 2024年江蘇護(hù)理職業(yè)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 2024年安徽醫(yī)學(xué)高等??茖W(xué)校高職單招(英語/數(shù)學(xué)/語文)筆試題庫含答案解析
- 血糖儀使用規(guī)范課件
- DB21-T 2931-2018羊肚菌日光溫室栽培技術(shù)規(guī)程
- 貴州省黔東南州2023-2024學(xué)年九年級上學(xué)期期末文化水平測試化學(xué)試卷
- 《空調(diào)零部件介紹》課件
- 2024年度醫(yī)院內(nèi)分泌與代謝科述職報(bào)告課件
評論
0/150
提交評論