2012年10月25日 星期四

使用正規表示法處理大量 img 連結和書籤name

由於 http://adisonwu.blogspot.tw/2012/10/99.html 東西有點多 所以有人建議提供書籤方式 也由於內容實在有點多.. 所以使用了正規表示法處理 以下為處理步驟筆記
  1. 抓原始碼,去掉不處理的部份
  2. 為每行加入行號,作為稍後書籤名稱位置依據
  3. 過濾出不處理成書籤的部份移除行號:^\s?[0-9]+(.*(img)+.*)$,取代成 \1(a檔案)
  4. 先將上述內容複製一份,作為等會添加連結之用(b檔案)
  5. a檔案:將有行號的加入連結 ^\s*([0-9]+)(.*)$ ,取代成 <a name='\1'></a>\2
  6. B檔案:移除有img的行,^.*(img)+.*$,取代成空白,這邊會出現空白行,使用 \r+ 取代成\r
  7. b檔案:^\s*([0-9]+)(.*)$取代成 <a href='#\1'>\2</a>
  8. 整合 A檔案和 B檔案,收工
  9. 當然還是有一些小問題,例如有些圖片不只一行,這時候就需要手動檢查 b檔案內容,不過已經節省很多時間了

沒有留言: