類似文検索 [科学、数学]
(いずみ野から見た富士山)
Ubiquitous Knowledge Processing LabのSentence BERTが、いつの間にかセンテンスのペアとコサイン類似度で学習できるようになっていたので、類似文検索とかできるのかなと思ってやってみました。
Sentence Transformers: Multilingual Sentence Embeddings using BERT / RoBERTa / XLM-RoBERTa & Co. with PyTorch
https://github.com/UKPLab/sentence-transformers
e-Gov 法令検索
https://elaws.e-gov.go.jp/document?lawid=340AC0000000033
から、「所得税法」のテキストをダウンロードして、scikit-learnのTfidfVectorizerとk-meansを使って、似ている文と似てない文のペアを作ってSentence BERTで学習させます。
ノートパソコンのGPU GeForce GTX 1650 Ti のcpu が98%、メモリ使用量が3.8GB、温度72℃になって大活躍(ちょっと非力かな)
検索例
なんとなく、できているようだけど、もうひと工夫必要かな。
Ubiquitous Knowledge Processing LabのSentence BERTが、いつの間にかセンテンスのペアとコサイン類似度で学習できるようになっていたので、類似文検索とかできるのかなと思ってやってみました。
Sentence Transformers: Multilingual Sentence Embeddings using BERT / RoBERTa / XLM-RoBERTa & Co. with PyTorch
https://github.com/UKPLab/sentence-transformers
e-Gov 法令検索
https://elaws.e-gov.go.jp/document?lawid=340AC0000000033
から、「所得税法」のテキストをダウンロードして、scikit-learnのTfidfVectorizerとk-meansを使って、似ている文と似てない文のペアを作ってSentence BERTで学習させます。
ノートパソコンのGPU GeForce GTX 1650 Ti のcpu が98%、メモリ使用量が3.8GB、温度72℃になって大活躍(ちょっと非力かな)
検索例
保険の控除について | |
---|---|
類似度 | テキスト |
0.6734283 | (13)「生命保険料の控除額」の項には、法第190条第2号の規定によりその年分の給与所得控除後... |
0.61133957 | (新規則第七十五条(給与所得者の保険料控除申告書の記載事項)の規定は、施行日以後に提出する新法第百九十六条第三項... |
0.59923416 | (10)「(源泉)控除対象配偶者の有無等」及び「控除対象扶養親族の数」の「従」と記載されている項には、従たる給与についての扶養控除等申告書を... |
国外投資信託の配当金の課税について | |
---|---|
類似度 | テキスト |
0.88332444 | (13)「4) 非課税適用分及び上場株式等の配当等の支払の取扱者への支払分の欄の「支払額」の項には、法又は租税特別措置法により所得税が課せられない国外投資信託等... |
0.8652865 | ((5)「課税」の各欄には、その月において、交付をした国外投資信託等の配当等、国外株式の配当等又は上場株式等の配当等で源泉徴収を... |
0.86452144 | 「配当等の金額」の項には、その年中に支払を受けるべき国外投資信託等の配当等又は国外株式の配当等の金額を記載すること。 |
なんとなく、できているようだけど、もうひと工夫必要かな。
ブラックホール [科学、数学]
2020年のノーベル物理学賞はブラックホールがこの宇宙に実在することを理論と観測で示した理論物理のロジャー・ペンローズ(Roger Penrose)博士と天文分野の研究者ゲンツェル(Reinhard Genzal)博士、ゲズ(Andrea Ghez)博士が受賞しました。
ペンローズ博士のブラックホルに関する論文は、1965年に発表されているので、今までノーベル賞を受賞していなかったのはちょっと意外です。
もう少し早ければ、ホーキング博士も一緒に受賞できたのでしょうか?
ノーベル賞受賞の対象については、ノーベル財団のホームページに一般向けの解説とちょっと専門的な解説がありました。
https://www.nobelprize.org/prizes/physics/2020/press-release/
Popular Science Background: Black holes and the Milky Way’s darkest secret (pdf)
https://www.nobelprize.org/uploads/2020/10/popular-physicsprize2020.pdf
Scientific Background: Theoretical foundation for black holes and the supermassive compact object at the galactic centre (pdf)
https://www.nobelprize.org/uploads/2020/10/advanced-physicsprize2020.pdf
ブラックホール発見の歴史なども書かれていて、とてもおもしろそうなので読んでみることにしました。
質量が非常に大きくて光すら星の重力圏から脱出できないブラックホールのような物についての発想は、18世紀には、ジョン・ミシェルによって既に発表されていたそうです。
「ホーキングの最新宇宙論」(日本放送出版協会)には、大砲の弾が重力によって地面に戻って来る図があります。
重力が非常に大きくなれば、光も地面に戻ってくるという発想だったんですね。
でも、その後、マイケルソンとモーリーにより光の速さは常に一定であることが発見されて、星の重力が大きくても光は大砲の弾のように、だんだん上に向かう速度が落ちて最後には地面に戻って来ることなないのでは?ということになって、この問題はアインシュタインが一般相対性理論を確立するまで未解決でした。
一般相対性理論で、重力によって物体の軌道が変化するのは、空間の歪みによるものだというように説明することで、光も脱出できないような星が存在してもおかしくないということになったのですが、一般相対性理論的な解釈って、身の回りの事象に当てはめてみると、とっても違和感があって理解するのが難しい、たとえば、カルロ・ロヴェッリの「すごい物理学講義」(河出書房新社)では、放り投げたボールが落ちてくるのは引力によるものではなく、重力によって歪んだ空間の中では放物線の軌道をとることによって"ボールは「時間をかせいでいる」"って説明しています...難しい。
アインシュタインの一般相対性理論は、物理学者にも難しかったそうで(レベルは違いますが)、アインシュタイン方程式の解を求めるのは非常に困難だったそうです。
1963年には、Roy Kerr博士によって、アインシュタイン方程式に制約条件おいた場合のカー解(Kerr solution)が発表されましたが、星とそのブラックホールは完全な球で、無限遠方では時空が平坦であることなど極めて理想的な条件を仮定した解であり、現実の宇宙ではブラックホールできないのではと考えられていたそうです。
ペンローズ博士はこれまでに使われてきた方法を拡張し、理想的な条件を考えなくても、ブラックホールが存在できることを数学的に証明したそうです。
なんのことだか、よくわからないので...
Éric Gourgoulhonさんのサイトにあった。
SageMathで書かれたカー解の計算などのプログラムを動かしてみました。
Introduction to black hole physics
https://luth.obspm.fr/~luthier/gourgoulhon/leshouches18/index.html
Checking that Kerr metric is a solution of Einstein equation
Carter-Penrose diagram of Schwarzschild spacetime
こまかいことが気になって、ノーベル財団の解説なかなか読み進みません。( centerのスペルがcentreになっているからイギリス英語なんだな、とか...)
SageMath [科学、数学]
パソコンに、計算機代数、組み合わせ、数値計算などが行えるSageMathと言うソフトをインストールしました。
condaコマンドでインストールすると、Jupyter notebookの環境と統合できるみたいです。これは、便利
https://anaconda.org/conda-forge/sage
正600胞体の描画とかできる。
Creative CommonsのFree licenseになっているComputational Mathematics with SageMath という本の2018年版のPDFがダウンロードできます。
http://sagebook.gforge.inria.fr/english.html
2019年版はAmazonで1万円近い値段がついてる...
condaコマンドでインストールすると、Jupyter notebookの環境と統合できるみたいです。これは、便利
https://anaconda.org/conda-forge/sage
正600胞体の描画とかできる。
Creative CommonsのFree licenseになっているComputational Mathematics with SageMath という本の2018年版のPDFがダウンロードできます。
http://sagebook.gforge.inria.fr/english.html
2019年版はAmazonで1万円近い値段がついてる...
Computational Mathematics with SageMath
- 作者: Zimmermann, Paul
- 出版社/メーカー: Society for Industrial & Applied Mathematics,U.S.
- 発売日: 2019/01/30
- メディア: ペーパーバック
ドイツ戦車問題(ベイズ推定) [科学、数学]
最近テレビのワイドショーなどでも出てくるベイズという言葉
ベイズというと、感度とか特異度とか偽陽性などの話題で出てくるベイズの定理が有名(?)ですが、ベイズの定理の考え方に基づき、観測されたデータから、知りたい値を推定するベイズ推定という便利な手法があります。
観測されたデータだけから、全体を知るという例では、第二次世界大戦中に連合軍がドイツの戦車の生産台数を推定した「ドイツ戦車問題:The German Tank Problem 」が有名です。
Wikippediaでは、Frequentist analysisの手法としてMinimum-variance unbiased estimator (最小分散不偏推定)とBayesian analysisの手法の説明が書かれています。
https://en.wikipedia.org/wiki/German_tank_problem
Bayesian analysisの手法では、こんな感じで、観測されたドイツの戦車のシリアル番号から、全体の生産台数を推計します。
ベイズというと、感度とか特異度とか偽陽性などの話題で出てくるベイズの定理が有名(?)ですが、ベイズの定理の考え方に基づき、観測されたデータから、知りたい値を推定するベイズ推定という便利な手法があります。
観測されたデータだけから、全体を知るという例では、第二次世界大戦中に連合軍がドイツの戦車の生産台数を推定した「ドイツ戦車問題:The German Tank Problem 」が有名です。
Wikippediaでは、Frequentist analysisの手法としてMinimum-variance unbiased estimator (最小分散不偏推定)とBayesian analysisの手法の説明が書かれています。
https://en.wikipedia.org/wiki/German_tank_problem
Bayesian analysisの手法では、こんな感じで、観測されたドイツの戦車のシリアル番号から、全体の生産台数を推計します。
時系列モデル [科学、数学]
せっかくGPU搭載のパソコンを買ったので、GPUを使って時系列データの予測とかできる時系列モデル全部乗せAtsPy ( Automated Time Series Models in Python )
というのを動かしてみました。
Automated Time Series Models in Python (AtsPy)
https://github.com/firmai/atspy
ARIMAやFacebookのオープンソースのPROPHETなど12種類のモデルが利用できます。
インストールは、
pip install atspy
だけでできます。簡単...
データは、FREDにある、フィンランドの電力、ガス、スチーム、空調のエネルギー供給量を使ってみました。
https://fred.stlouisfed.org/series/FINPREND401IXNBM
Automatedというだけあって、すごく簡単に、いい感じで予測できました。
というのを動かしてみました。
Automated Time Series Models in Python (AtsPy)
https://github.com/firmai/atspy
ARIMAやFacebookのオープンソースのPROPHETなど12種類のモデルが利用できます。
インストールは、
pip install atspy
だけでできます。簡単...
データは、FREDにある、フィンランドの電力、ガス、スチーム、空調のエネルギー供給量を使ってみました。
https://fred.stlouisfed.org/series/FINPREND401IXNBM
import pandas as pd
# Get the dataset from FRED
# Production: Energy:
# Production and distribution of electricity, gas,
# steam and air conditioning: Total for Finland
# (FINPREND401IXNBM)
rom pandas_datareader.data import DataReader
start = '2000-01-01'
end = '2020-03-01'
df = DataReader('FINPREND401IXNBM', 'fred', start=start, end=end)
from atspy import AutomatedModel
model_list=["HWAMS", "Prophet", "TATS"]
am = AutomatedModel(df = df , model_list=model_list,
season="infer_from_data",forecast_len=24 )
forecast_in, performance = am.forecast_insample()
forecast_out = am.forecast_outsample()
all_ensemble_in, all_ensemble_out, all_performance =
am.ensemble(forecast_in, forecast_out)
all_ensemble_in[["Target","TATS__X__TATS_Prophet",
"TATS", "Prophet", "TATS_Prophet"]].plot()
all_ensemble_out[["TATS__X__TATS_Prophet", "TATS",
"Prophet", "TATS_Prophet"]].plot()
Automatedというだけあって、すごく簡単に、いい感じで予測できました。
実効再生産数の推定をやってみました [科学、数学]
今日も、まぶしい青空が広がりました。
最近、テレビでよく見る、クラスター対策班・西浦博北海道大学教授のCOVID-19の実効再生産数モデルとデータが、jupyterで公開されていました。
https://nbviewer.jupyter.org/github/contactmodel/COVID19-Japan-Reff/tree/master/
<追記>
GitHubに公開されているものの方が、良いみたいです
https://github.com/contactmodel/COVID19-Japan-Reff
---
オープンソースのRとStan (rstan)を使っているので、パソコンがあれば、誰でも(?)ためすことができます。
(グラフの表示がなかったので、追加しました。)
イギリスのインペリアルカレッジの、COVID-19の死亡数の推定モデルもRとStanを使っていて、プログラムとデータがGitHubで公開されています。
covid19model
https://github.com/ImperialCollegeLondon/covid19model
家のノートパソコンだと計算するのに10分以上かかる...
有料のソフトではなく、オープンソースを利用して、データやプログラムを公開することで、多くの人にレビューしてもらうことや、知識を共有することができることは、とても良いことだと思います。
最近、テレビでよく見る、クラスター対策班・西浦博北海道大学教授のCOVID-19の実効再生産数モデルとデータが、jupyterで公開されていました。
https://nbviewer.jupyter.org/github/contactmodel/COVID19-Japan-Reff/tree/master/
<追記>
GitHubに公開されているものの方が、良いみたいです
https://github.com/contactmodel/COVID19-Japan-Reff
---
オープンソースのRとStan (rstan)を使っているので、パソコンがあれば、誰でも(?)ためすことができます。
(グラフの表示がなかったので、追加しました。)
イギリスのインペリアルカレッジの、COVID-19の死亡数の推定モデルもRとStanを使っていて、プログラムとデータがGitHubで公開されています。
covid19model
https://github.com/ImperialCollegeLondon/covid19model
家のノートパソコンだと計算するのに10分以上かかる...
有料のソフトではなく、オープンソースを利用して、データやプログラムを公開することで、多くの人にレビューしてもらうことや、知識を共有することができることは、とても良いことだと思います。
国立科学博物館に行きました [科学、数学]
1970年2月11日に、日本初の人工衛星「おおすみ」が打ち上げられてから、50年目ということで、国立科学博物館の展示を見に行きました。
おおすみ(エンジニアリングモデル)
レーダー用コンソール
おおすみ(エンジニアリングモデル)
レーダー用コンソール
カルロ・ロヴェッリ の本 [科学、数学]
年末年始の休みに読もうと思って、今年話題になった カルロ・ロヴェッリ の「時間は存在しない」と、「すごい物理学講義」を買いました。
タイトルだけ見ると、トンデモ科学本みたいですけど、
原題は、それぞれ、L'ordine del tempo (時間の順序)、La realtà non è come ci appare. La struttura elementare delle cose (「現実は、私達に見えているものとは違う」のような意味)
で、とても真面目な物理の本です。
「すごい物理学講義」すこし読んでみました。
古代ギリシアの物理(このころは哲学?)から、ニュートンの古典力学と、ファラデーやマウスウェルの古典電磁気学、アインシュタインの相対性理論へと、理論の発展して行く様子(最後は量子重力理論まで)が、とてもわかりやすく書かれています。
たしかに、こんな授業があったら「すごい物理学講義」かもしれません。
3章の、拡張された現在 の図
過去と、未来の間の現在 - 過去でも未来でもない中間的な領域 - は、自分(観測者)から遠いところほど大きくなるって、日常生活での感覚とはかけ離れていますが、最近、超新星爆発するのではと話題のペテルギウスは、地球から650光年ぐらい離れているので、もしかするとペテルギウスの近くで観測している人にとっては、すでに爆発してしまった後かもしれません。
オリオン座のベテルギウスに異変、超新星爆発の前兆か 天文学者
2019.12.27 Fri posted at 14:50 JST
https://www.cnn.co.jp/fringe/35147489.html
遠く離れているところに対しては、「まさに今この時」というのは、ありえない、ということらしいです。
フォースを感じれば、ある?
(丸の内で会ったダースベーダー)
タイトルだけ見ると、トンデモ科学本みたいですけど、
原題は、それぞれ、L'ordine del tempo (時間の順序)、La realtà non è come ci appare. La struttura elementare delle cose (「現実は、私達に見えているものとは違う」のような意味)
で、とても真面目な物理の本です。
「すごい物理学講義」すこし読んでみました。
古代ギリシアの物理(このころは哲学?)から、ニュートンの古典力学と、ファラデーやマウスウェルの古典電磁気学、アインシュタインの相対性理論へと、理論の発展して行く様子(最後は量子重力理論まで)が、とてもわかりやすく書かれています。
たしかに、こんな授業があったら「すごい物理学講義」かもしれません。
3章の、拡張された現在 の図
過去と、未来の間の現在 - 過去でも未来でもない中間的な領域 - は、自分(観測者)から遠いところほど大きくなるって、日常生活での感覚とはかけ離れていますが、最近、超新星爆発するのではと話題のペテルギウスは、地球から650光年ぐらい離れているので、もしかするとペテルギウスの近くで観測している人にとっては、すでに爆発してしまった後かもしれません。
オリオン座のベテルギウスに異変、超新星爆発の前兆か 天文学者
2019.12.27 Fri posted at 14:50 JST
https://www.cnn.co.jp/fringe/35147489.html
遠く離れているところに対しては、「まさに今この時」というのは、ありえない、ということらしいです。
フォースを感じれば、ある?
(丸の内で会ったダースベーダー)
量子コンピュータ [科学、数学]
9月21日のFINANCIAL TIMESにGoogleが、量子コンピュータを使って、スーパーコンピュータだと1万年ぐらいかかる計算を3分20秒で計算することができたという記事がでていました。
Google claims to have reached quantum supremacy
https://www.ft.com/content/b9bb4e54-dbc1-11e9-8f9b-77216ebe1f17
NASAのエンジニアの人が書いた記事の方がちょっと詳しい
Quantum Supremacy Using a Programmable Superconducting Processor – Cached Google NASA Paper
https://usahitman.com/quantum-supremacy-googlepaper/
53-qubit (量子ビット)の量子コンピュータで、253 ^1016の状態空間(?)の確率分布からの100万回のサンプリングを200秒で計算できたけど、同じことを最新のスーパーコンピュータで実行しようとすると1万年かかるということらしいです。
量子コンピュータで、実際に役に立つ計算、たとえば新薬の開発や化学反応のシュミレーションなどに利用できるようになるためには、数百量子ビットが必要らしいので、実用化は、まだちょっと先だけど、限られた問題でも最新のスパコンに勝てるようになったのは、大きなニュースだと思うのですが、まだニュースの情報が少なくて詳しい内容がよくわかりません...週明けには、もっと詳しいことがわかるのかな?
Google claims to have reached quantum supremacy
https://www.ft.com/content/b9bb4e54-dbc1-11e9-8f9b-77216ebe1f17
NASAのエンジニアの人が書いた記事の方がちょっと詳しい
Quantum Supremacy Using a Programmable Superconducting Processor – Cached Google NASA Paper
https://usahitman.com/quantum-supremacy-googlepaper/
53-qubit (量子ビット)の量子コンピュータで、253 ^1016の状態空間(?)の確率分布からの100万回のサンプリングを200秒で計算できたけど、同じことを最新のスーパーコンピュータで実行しようとすると1万年かかるということらしいです。
量子コンピュータで、実際に役に立つ計算、たとえば新薬の開発や化学反応のシュミレーションなどに利用できるようになるためには、数百量子ビットが必要らしいので、実用化は、まだちょっと先だけど、限られた問題でも最新のスパコンに勝てるようになったのは、大きなニュースだと思うのですが、まだニュースの情報が少なくて詳しい内容がよくわかりません...週明けには、もっと詳しいことがわかるのかな?