スポンサーリンク
Python

[Python]tabulaで表抽出したら、空の表や、空のセルがむっちゃでたので、無理やり対応した思い出

pdfから表を抽出するライブラリを使っていた時の話。 tabulaを使っていたけど、表抽出って汎用的にやるのが難しいので、どうしてもターゲットになる表に対して、力業で読めるようにしてあげる必要がある。 以下のようなイメージで取得したところ、...
サイト関連

[AdSense]広告配置場所について

★2022年の時点で自動配置が推奨であり、その通りに自動配置に変更したため、過去の情報となります。 AdSense の広告とかを新規に設定する場合、設定方法は検索すれば、わかりやすく詳しくまとめていらっしゃる方がたくさんみつかります。 ただ...
Flutter

[Flutter]Android license status unknown.でAndroid StudioのJavaを使うように設定した話

Flutterの初期設定でエラーが発生して、対応したときのメモ。 ネットで拾えたのと少し違う対応をしています。 概要 「Android license status unknown.」のエラー 原因は、環境変数JAVA_HOMEにJava ...
Python

[Python]tabulaが起動しない場合の対策。(ArgumentError) invalid byte sequence in Windows-31J

解決策 exeファイルを叩いて実行するのではなく、 コマンドプロンプトでRUBYOPTにUTF-8を設定する。 set RUBYOPT=-EUTF-8 tabula.exe ※Windowsの環境変数として設定することでも対処可能 事の発端...
Python

[Python][tesseract]画像ファイルを光学式文字認識(OCR)を使って文章抽出する

前回の続き。 OCRによる文章抽出において、Google Cloud Vision APIを使った場合とtesseractを使った場合を比較しようかなと思い試していました。 結果的に、精度は、Google Cloud Vision APIの...
Python

[Python][Google Cloud Vision API]画像ファイルを光学式文字認識(OCR)を使って文章抽出する

Google Cloud Vision APIを使って、OCRによる文章抽出を行いました。 そもそもは、PDFの文章抽出を行おうとしており、PDFファイルそのものをOCRにかけることはできないため、 PDFからPNGファイルに変換して、画像...
Python

[Python]PDFファイルをページ毎にpngへ変換する

PDFファイル内の文章を光学式文字認識(OCR)にかけてみようと思い、その前準備として、 PDFファイルの内容を一括で画像ファイルに変換するコードを書いたときの話です。 Python3.7で確認しました。 pdf2imageというパッケージ...
Python

[Python]たまに使うけど、書くのがめんどくさく、コピペしたいコード

キーボード打つのがめんどくさかったけど、 たまにしか出てこないので、コピーするときに探すことがあったので。 ここに書くと、次からはタイプするような気もする。 環境はpyhon3.7 文字列のリスト配列から、任意の文字列を含む要素を取り出す方...
フリーランス、個人

COMP POWDERの適切量を模索しています

追記 半年続けた状況をまとめました。 COMP POWDERを昼と夜に消費しているのですが、どれぐらい消費するものか計算してもすぐに忘れるので、忘備録として残しておきます。 必要な摂取量(2019/10/09更新) 1食、スコップ3杯(14...
Python

[Python]TypeError: initial_value must be str or None, not bytes

どこかからコードをコピーしてそのまま使おうとしてエラーだった話。 そのコードがPython2系のコードだったのが原因だった。 エラーメッセージ TypeError: initial_value must be str or None, no...
スポンサーリンク