忍者ブログ

 ラジオな時、ノマドな時。〈Ver.2〉

(シゴトメモ 01)webarchiveをhtmlに

MacのSafariでWebページを保存すると、webarchive形式のファイルとして保存される(すくなくとも自分の愛用しているバージョンでは)。で、これをAndroidのパッドくんに持ち込んでも閲覧することはできないので、あらかじめhtmlとかpdfとかいった閲覧可能なデータ形式に変換しておく必要がある。

現在、パッドくんで執筆中の物語作品でも、バックデータとしてwebarchive形式のデータファイルがけっこうあるため、これらを、できれば一括変換でhtmlに変えたい(pdfだと直接編集がキホンできないので、見やすく整形可能なhtmlにした)。

そこで調べてみたら、自分の旧いMac環境の場合、Terminalに以下のように記述して実行した方が、もっとも手早そうだ。

textutil -convert html -output /[(ful)path/]new_file.html /[(ful)path/]target_file.webarchive

ということで、取得先ファイルと格納先フォルダのフルパスを確認して、上記の書式にのっとって、テキストファイルに、target_file.webarchiveのそれぞれの名称とhtmlファイルの個別の名称に書き換えたコマンド群を1行単位で並べてゆく。

こうして作った、一括処理用のテキストデータを立ち上げたばかりのTerminalにコピペする。すると、別々のフォルダ内にあるwebarchiveファイルを一気に、好みのフォルダとファイル名でhtmlファイルに変換できる(はずだ)。

(はずだ)というのは、この記事を書いているいま現在では、まだ試していないため。現時点で未確認なのが2つある。1つは、取得先のtarget_fileの文字数制限があるのではないか、ということ。ある場合は、前もってタイトルの文字数を減らしておく必要がある。

2つめは、格納先フォルダを前もって拵えてスタンバっておかなくてはならないかどうか、ということ(ちなみに、ワンファイルのwebarchiveとちがってhtmi変換後はhtmlやjpg等複数ファイルに分岐するので、この種のフォルダはwebarchiveファイルごとに設けた方がいいようだ)。

どちらの不明点も、これからテストを繰り返してゆけばわかることだが、とりあえず現時点での懸案事項としてメモ^^:

 ↓

ということで、上記2点につき試してみたところ1も2も該当したため、(すくなくとも自分の旧いOS環境では)target_fileのタイトル文字数をある程度短くして、htmlファイル格納先のフォルダも前もって用意しておく必要があることがわかった(限界文字数は未確認→半角31文字(全角15文字)まで〔かな^^? であれば、Windowsは半角255文字(全角127文字)のようで、この点に関しては、余計な作業をしなくてすむぶん羨ましい^^;〕)。

格納先ディレクトリはTerminalのmkdirコマンドで、短めたファイル名と同名のフォルダを、textuil処理の前(の行)に前置的に設定するのがいちばんスムーズのようだ。

対象ファイルは50件以上あるので、下拵えにそれなりの時間がかかるが、ハンディなパッドくんでも内容を確認できる環境はあったほうがいいので、htmlに変えることは必須だ。

なお、これから参考資料としてWebデータをゲットするときは、htmlファイル形式で保存するOperaかSeaMonkeyで取得することにした。

 <2019-12-26 記>


 
webarchive→html変換は個数(格納フォルダ数)にして44個だった。ちなみに、フォルダ名に空白があるとmkdirコマンドはそこで名称そ確定してしまうようで、「そんなフォルダは存在しない」と叱られて、つづく(べき)対象ファイルの変換作業はスルーされるようだ。

基本的には、ターゲットファイルをAAA.webarchiveとした場合、

mkdir /(ful)path/AAA/
textutil -convert html -output /(ful)path/AAA/index.html /(ful)path/AAA.webarchive

とすることで、同じフォルダ内のタイトル同名フォルダ内に、固定的に指定したindex.htmlとその他のデータファイル群が生成される。もちろん、Terminal立ち上げ直後に「cd fulpath」を実行してAAA.webarchiveのあるフォルダに移動すれば、以後は「/(ful)path/」部分の記載を省略できる。

ということで、こうやってこしらえたバックデータ群をパッドくんのmicroSDカードにコピーすれば、創文しながらいつでも(専門知識関連のデータを)参照できるので、きっともっとシゴトも捗ることだろう。もちろん、パッドくんのWiFiでネットにアクセスすればいいだけの話ではあるけれど、パッドくんでのネットアクセスはしないことにしているので^^; というのも、なにぶん野良APKを100個以上もインストールしているので、アクセスしたらたちまちEseUS系の西隣大陸御用ハッカー筋に丸覗きされそな感じがするもんで。あと、この件では、Wondershareっつうのも西隣大陸資本〔本社は深圳のよう〕なので、こちらも併せて御用心)

で、やはり、ネットからWebデータをMacOS以外のマシンでも使う可能性があるときは、webarchive形式ではなく、ファイル数はふえるけれどhtml+files(付属フォルダ)で保管しておいたほうがいい、ということを身に沁みて体感した作業でもあった。

(補足)
パッドくんにファイルを移したあと、htmlベースのデータファイル群を閲覧したが、「HTML Viewer」というアプリで見て、見目よくしたいときは「HTML Editor」で整形することになる。両方をかねた「LiveHTML」でもたいていは開くことができるが、内部メモリの関係か(?)開けないのもあるようだ。で、これらのデータファイル群は不必要な画像ファイルなどあれこれ数が多いので、削除や移動等のファイル操作をするときは、複数ファイル一括処理など(「X-plore」より)小回りのきく「Total Commander」が便利だ。

 <2019-12-28 記>


  
PR

コメント

カレンダー

04 2025/05 06
S M T W T F S
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
26 27 28 29 30 31

プロフィール

HN:
Kay
性別:
非公開
自己紹介:
Kay(ケイ)といいます。現在、Livedoor Blog「ラジオな時、ノマドな時。」から引っ越し中です。暇を見つけてやってゆくので、時間がかかりそうです(^^)

最新記事

(05/25)
(04/30)
(04/04)
(03/31)
(03/11)
(02/28)
(01/31)
(12/31)
(12/09)
(11/30)
(11/25)
(10/28)
(10/12)
(10/12)
(10/12)
(10/12)
(09/30)
(08/31)
(07/31)
(06/30)
(05/28)
(04/30)
(03/31)
(02/10)
(02/06)

ブログ内検索

最古記事

(06/26)
(11/06)
(11/18)
(01/03)
(02/11)
(02/18)
(02/19)
(02/24)
(03/21)
(03/28)
(04/01)
(04/05)
(04/07)
(04/12)
(04/15)
(04/17)
(04/18)
(04/29)
(04/30)
(04/30)
(05/01)
(05/28)
(08/11)
(09/22)
(09/24)