Progress meeting , 20210407

進度會議,2021年04月07日

這半月主要爬wikisource文本

並於mySQL建立文本之關聯架構

​並在進度會議中說明工作狀況與遇到的問題

0407.png
實習日記

2021.04.06

這兩個禮拜所做出的成品

讓自己在工作中信心增長

雖然在途中偶有困難

但與主管討論過後都順利的解決了

-

在wikisource 中 找到存有所有文本之頁面-"所有頁面"

並從此頁面page1作為練習

下載文本後在網上找父類別

再判斷此父類別上面是否還存有類別目錄

重複此循環一直到找到源頭-分類

並在mySQL記錄類別之間的關係

因網站的文本數龐大及類別架構散亂

導致在crawlering時要不斷修正特例

雖然會有些心煩

但這也是在訓練自己的細心程度​及耐心