noteで書いた「全ての文字数」をカウントする方法
これまで書いた記事が
「何文字」か気になった。
noteにはエクスポート機能があるので、
出力してテキスト形式にした後マージして、
すぐにカウントできるだろう、と思った。
しかし、少し手間取ったので、
手順をここにまとめておく。
この手順に関しては、
ネットをザっと見ても出てこなかった。
誰か記事にはしていると思われるが、
少なくとも検索上位には来ていない。
一部、pythonを使用しコードを書いて文字数カウントしていたが、pythonだと環境が整っていない方もいるので、できるだけアナログで簡易的な方法でやってみた。
私も以前PCにpythonを入れたけれど、全く使えないのでいつの日にか勉強して使えるようになりたい。
また、これより簡単で優れた方法もあると思うので、もしあれば教えていただきたい。
なお、この手順はPCでのもの。
スマホでも別の方法で出来るかもしれない。
◆手順(エクスポート~メモ帳へ出力)
note>自分の記事>エクスポート
「エクスポート」を押すと、
確認画面が表示される。
そして「エクスポート開始」を押すと、
メールで通知しますという表示が出る。
少し待つと、登録しているメールへ通知が来る。
メール画面から遷移すると、
ダウンロードページへのリンクが出来ている。
そのページからダウンロードをすると、
・「assets」フォルダ
・「note-ID.xml」ファイル
この2つが出来ている。
assetsフォルダの中身は画像が入っている。
今回文字数を計測するので、
画像は不要。
なので、もう一方の.xmlのファイルを開いてみる。
この時点で嫌な予感がした。
なぜなら、.txtかと思っていたが、
.xmlという未知の拡張子だったから。
これ開くのにも面倒なんだろうなと感じた。
メモ帳(サクラエディタ)で開いた。
タグと文字と日付みたいなものが混在している。
文字以外のものを全て削除しなければならない。
この時点での文字数は649,763字
◆手順(ChatGPTで確認)
私はすぐに「置換」をし、
余計なものを全部取り除こうとした。
メモ帳で置換ができるのか?
エクセルに一回出力し、そこから置換?
少しだけ思い当たるのを色々いじってみたが、
なんだかよくわからない。
しかもエクセルに吐き出すと、
.xmlのせいか文字コードのせいか
わからないが文字化けする。
まあでも今回は文字数をカウントするので、
文字化けは関係ないと思われるけれど。
ネットでも手順がうまく調べられない。
しかし、私にはChatGPT先生という
心強い味方がいたのだ。
こういう時に、
より簡単な方法を調べてくれるのが生成AI。
#プロンプト
「.xml」形式で文字とタグが混在している文章です。 その中から、全てのタグを削除して、 文字数のみをカウントする方法を教えてください。
#条件 今は「.xml」形式となっていますが、他の形式に変換しても構いません。 より簡易的な方法
ツールを使いたくないから、
方法1が一番とっつきやすい。
VSCodeとNotepad++どちらでもよかったが、
今回はVSCodeを利用することにした。
ではこの出力された手順通りにやってみる。
◆手順(VSCodeでの作業)
・ツールダウンロード
まず、ネット上でVScodeをダウンロードする。
ダウンロードボタンを押し、
すぐに完了した。
※ちなみにこれは全部英語だけれど、学生で仕事をしていない私でもすぐにわかったので、PCで仕事している人や作業している人はすぐに分かると思う。
左上「file」>「openfile」を押すと、
どのファイルを選択するかが出てくる。
ここで先ほどダウンロードした
.xmlのファイルを選択する。
選択をすると、読み込むことができた。
ここから、タグをすべて削除していく。
・タグを削除
VScodeは「置換」をすることができる。
なので置換をしてすべて削除する。
先ほど出力されたものを、
そのまま入れる。
置換元に入力すると、
該当するモノがすべてオレンジ色になった。
これが削除される「タグ」である。
とても分かりやすい。
これをすべて削除する。
見事にタグがすべて無くなった。
これで文字数だけになったと思うが、
さらにURLと日付の塊が出力されている。
・URLを削除する
次にURLをすべて削除する。
再びChatGPT先生に聞く。
#プロンプト
方法1のVScodeでタグはすべて削除しました
次に、URLを全て削除する方法
2つの正規表現での入力が出てきたが、
なんとなく後者を使用した。
これで置換し、
無事「タグ」と「URL」は削除完了した。
では最後に「日付」を全て削除する。
・日付を削除する
再びChatGPT先生に聞く。
日付の塊に関しては一見全部バラバラに感じるけれど、なんか規則性があるので、その規則を2つほどプロンプトに打ち込む。
#プロンプト
URLもすべて削除成功しました 次にJun 2024 21:51:02 +0900000 22 Jun 2024 05:25:50 +0900000この形式のものが混在しています。 これを削除してください
2つの正規表現が出てきたので、
今回は出力された2つを置換した。
すべて置換を押すと、完了。
これで「タグ」「URL」「日付」を削除し、
文字だけが残った。
最後に全選択(ctrl+A)し、
最下部の文字数を確認して完了。
◆問題点
この文字数は「下書き」や「予約投稿」が含まれる。
「公開中のみ」を絞って出力することはできない。
しかし、今現時点で書き上げた文字数
という意味では、
未公開分もすべて含むのは間違いではないと思う。
◆まとめ
エクスポート
→VScodeで読み込み
→置換でタグ、URL、日付を削除
→文字数確認し完了
タイトルや細かい記号が入ったままなので、
正確な文字数をするには、もう一手間必要。
しかしここからさらに手間加えるのであれば、
もうpythonをインストールし、
コードをコピーして処理した方が良い。
◆あとがき
ここまでの記事
-----
期間:67日
合計文字数:53,230字
合計記事数:114記事(公開中104記事)
-----
文字数が意外に少なかった。
「タイトル」や「■」や「つづく。」
が入ってしまっているので、
これでもまだ少し多い。
それも考慮すると、
大体52,000~53,000字前後
と言ったところ。
月平均26,000字くらい書いているので、
1年続ければ312,000字(26,000*12)
これくらい書けば、
少しは文章がうまくなるのかもしれない。
つづく。
■noteについてのアレコレはこちら