Python[Python]tkinterを使って画面やボタンなどを表示させてみた Pythonって統計・解析処理系でよく使うイメージがあって、GUIアプリは作ったことなかった。PDFや画像を解析するとき、解析に使うパラメータでどう結果が変わるか視覚的判断するために、作ってみました。※これまでもグラフ(matplotlib... 2019.12.18Python
Python[Python]Windowsアプリ(exeファイル)を作る PythonでWindows上で動くGUIアプリを作ったのですが、Python環境がないパソコンでも使ってもらおうと、exeファイルの生成方法を調べました。PyInstallerでexeファイルを生成できます。公式:Using PyInst... 2019.12.17Python
Python[Python]正規表現・改行含む複数行マッチング・繰り返しマッチング・複数条件マッチング Pythonで、掲題通り、改行を含んだ文字列を検索とか置換を行いたくて、その正規表現について調べました。対象文字列の例※日本語の文字列です以下の文字列が、test_textに代入されているケースを想定あああいいい[start:うううえええお... 2019.12.11Python
Python[Pythonはあまり関係ない話]scikit-imageの参考画像が参照できなくなった件について調べた scikit-image(画像処理に特化した Python 画像ライブラリ)で、サンプル画像を使おうとしたときに、軽くネットをみて実装したコードがエラーとなったことがきっかけで少し調べた情報を残しておきます。Pythonあんま関係ないです。... 2019.12.10Python
Python[Python]tabulaで表抽出したら、空の表や、空のセルがむっちゃでたので、無理やり対応した思い出 pdfから表を抽出するライブラリを使っていた時の話。tabulaを使っていたけど、表抽出って汎用的にやるのが難しいので、どうしてもターゲットになる表に対して、力業で読めるようにしてあげる必要がある。以下のようなイメージで取得したところ、コメ... 2019.11.20Python
Python[Python]tabulaが起動しない場合の対策。(ArgumentError) invalid byte sequence in Windows-31J 解決策exeファイルを叩いて実行するのではなく、コマンドプロンプトでRUBYOPTにUTF-8を設定する。set RUBYOPT=-EUTF-8tabula.exe※Windowsの環境変数として設定することでも対処可能事の発端PDFの表を... 2019.11.14Python
Python[Python][tesseract]画像ファイルを光学式文字認識(OCR)を使って文章抽出する 前回の続き。OCRによる文章抽出において、Google Cloud Vision APIを使った場合とtesseractを使った場合を比較しようかなと思い試していました。結果的に、精度は、Google Cloud Vision APIの方が... 2019.11.03Python
Python[Python][Google Cloud Vision API]画像ファイルを光学式文字認識(OCR)を使って文章抽出する Google Cloud Vision APIを使って、OCRによる文章抽出を行いました。そもそもは、PDFの文章抽出を行おうとしており、PDFファイルそのものをOCRにかけることはできないため、PDFからPNGファイルに変換して、画像ファ... 2019.11.02Python
Python[Python]PDFファイルをページ毎にpngへ変換する PDFファイル内の文章を光学式文字認識(OCR)にかけてみようと思い、その前準備として、PDFファイルの内容を一括で画像ファイルに変換するコードを書いたときの話です。Python3.7で確認しました。pdf2imageというパッケージを使用... 2019.11.01Python
Python[Python]たまに使うけど、書くのがめんどくさく、コピペしたいコード キーボード打つのがめんどくさかったけど、たまにしか出てこないので、コピーするときに探すことがあったので。ここに書くと、次からはタイプするような気もする。環境はpyhon3.7文字列のリスト配列から、任意の文字列を含む要素を取り出す方法str... 2019.10.29Python