Progress meeting , 20210407
進度會議,2021年04月07日
這半月主要爬wikisource文本
並於mySQL建立文本之關聯架構
並在進度會議中說明工作狀況與遇到的問題
實習日記
2021.04.06
這兩個禮拜所做出的成品
讓自己在工作中信心增長
雖然在途中偶有困難
但與主管討論過後都順利的解決了
-
在wikisource 中 找到存有所有文本之頁面-"所有頁面"
並從此頁面page1作為練習
下載文本後在網上找父類別
再判斷此父類別上面是否還存有類別目錄
重複此循環一直到找到源頭-分類
並在mySQL記錄類別之間的關係
因網站的文本數龐大及類別架構散亂
導致在crawlering時要不斷修正特例
雖然會有些心煩
但這也是在訓練自己的細心程度及耐心