Initial import

nunorc · nunorc · commit a6f344b848ea · 2019-08-08T12:04:52.000+01:00
diff --git a/.gitattributes b/.gitattributes
@@ -0,0 +1 @@
+model-pretrained/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
diff --git a/.gitignore b/.gitignore
@@ -0,0 +1 @@
+__pycache__
diff --git a/README.md b/README.md
@@ -0,0 +1,91 @@
+
+# qaptnet
+
+**qaptnet** is an implementation of the [BERT](https://github.com/google-research/bert) model,
+fined tuned for question-answering tasks, trained on a Portuguese dataset. The model is
+available from the `model-pretrained` directory, as a [PyTorch](https://pytorch.org/) model,
+and the training process was performed using the
+[pytorch-transformers](https://github.com/huggingface/pytorch-transformers) package.
+In an nutshell the goal of the model is: given a question, and a context, i.e. a snippet of
+text that contains the answer to the given question, output the start and end token index that
+spans the answer.
+
+The question-answering dataset is available from the
+[squad-v1.1-pt](https://github.com/nunorc/squad-v1.1-pt) repository, a Portuguese
+translation of the [SQuAD](https://rajpurkar.github.io/SQuAD-explorer/) dataset.
+
+`qaptnet.py` is a simple Python package to interface with the pre-trained
+model. Check the `requirements.txt` file for the package dependencies.
+
+## Synopsis
+
+```python
+# import the model
+from qaptnet import qaptnet
+
+# create a new default object
+ptnet = qaptnet()
+
+# query the model
+ptnet.query(context = context, question = question)
+```
+
+## Examples
+
+The following snippets illustrate some examples of queries to the model, for the question
+and corresponding context.
+
+```python
+context = """Arquitetonicamente, a escola tem um caráter católico. No topo da cúpula de ouro
+do edifício principal é uma estátua de ouro da Virgem Maria. Imediatamente em frente ao edifício
+principal e de frente para ele, é uma estátua de cobre de Cristo com os braços erguidos com a
+lenda &quot;Venite Ad Me Omnes&quot;. Ao lado do edifício principal é a Basílica do Sagrado
+Coração. Imediatamente atrás da basílica é a Gruta, um lugar mariano de oração e reflexão.
+É uma réplica da gruta em Lourdes, na França, onde a Virgem Maria supostamente apareceu a Santa
+Bernadette Soubirous em 1858. No final da unidade principal (e em uma linha direta que liga
+através de 3 estátuas e da Cúpula de Ouro), é um estátua de pedra simples e moderna de Maria."""
+
+question = 'A quem a Virgem Maria supostamente apareceu em 1858 em Lourdes, na França?'
+```
+
+```python
+>>> ptnet.query(context=context, question=question)
+'Santa Bernadette Soubirous'
+```
+
+```python
+context = """Beyoncé Giselle Knowles-Carter (nascida em 4 de setembro de 1981) é uma cantora
+americana, compositora, produtora de discos e atriz. Nascida e criada em Houston, Texas, ela se
+apresentou em várias competições de canto e dança quando criança, e alcançou a fama no final dos
+anos 90 como vocalista do grupo de R &amp; B Destiny&#39;s Child. Dirigida por seu pai, Mathew
+Knowles, o grupo tornou-se um dos grupos femininos mais vendidos de todos os tempos. Seu hiato
+viu o lançamento do álbum de estreia de Beyoncé, Dangerously in Love (2003), que a consagrou como
+artista solo em todo o mundo, ganhou cinco prêmios Grammy e apresentou os singles número um da
+Billboard Hot 100 &quot;Crazy in Love&quot; e &quot;Baby Boy&quot; ."""
+
+question = 'Em que cidade e estado Beyonce cresceu?'
+```
+
+```python
+>>> ptnet.query(context=context, question=question)
+'Houston, Texas'
+```
+
+```python
+context = """Em 17 de Outubro desse ano, a Comissão da Administração dos Bens pertencentes ao
+Estado inquire junto da Sociedade Martins Sarmento se o seu edifício se encontra em condições de
+segurança tais que possa, sem perigo, receber e conservar em exposição os objectos de valor
+histórico e artístico correspondente ao chamado Tesouro da Colegiada de Guimarães. Poucos dias
+depois, a 28 do mesmo mês, a Delegação da Procuradoria da República, em Guimarães, informava que
+o Ministro da Instrução, concordando com o parecer da Comissão Jurisdicional, autorizou que
+fossem entregues, mediante rigoroso inventário, a essa Sociedade os móveis de carácter histórico
+ou artístico arrolados nos edifícios das extintas congregações religiosas desta cidade. No
+entanto, o Arquivo só nasceria em 1931, através decreto nº 19.952, de 27 de Junho do dito ano."""
+
+question = 'Em que ano nasceu o arquivo?'
+```
+
+```python
+>>> ptnet.query(context=context, question=question)
+'1931'
+```
diff --git a/model-pretrained/config.json b/model-pretrained/config.json
@@ -0,0 +1,25 @@
+{
+  "attention_probs_dropout_prob": 0.1,
+  "directionality": "bidi",
+  "finetuning_task": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "num_labels": 2,
+  "output_attentions": false,
+  "output_hidden_states": false,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "torchscript": false,
+  "type_vocab_size": 2,
+  "vocab_size": 119547
+}
diff --git a/model-pretrained/pytorch_model.bin b/model-pretrained/pytorch_model.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3051a96750894951478511eec3b2639e9b3fb65078140a9fa40f870974e42aec
+size 711467814
diff --git a/model-pretrained/training_args.bin b/model-pretrained/training_args.bin
diff --git a/qaptnet.py b/qaptnet.py
@@ -0,0 +1,37 @@
+
+import torch
+from pytorch_transformers import BertTokenizer, BertForQuestionAnswering
+
+class qaptnet():
+    def __init__(self,
+                 data_source = 'https://github.com/nunorc/squad-v1.1-pt/raw/master',
+                 source = 'model-pretrained',
+                 base = 'bert-base-multilingual-cased',
+                 do_lower_case = False):
+        self.data_source = data_source
+        self.source = source
+        self.base = base
+        self.do_lower_case = do_lower_case
+
+        # init tokenizer and model
+        self._build_tokenizer()
+        self._build_model()
+
+    def _build_tokenizer(self):
+        print('Building tokenizer:', self.base)
+        self.tokenizer = BertTokenizer.from_pretrained(self.base, do_lower_case=self.do_lower_case)
+
+
+    def _build_model(self):
+        print('Building model from:', self.source)
+        self.model = BertForQuestionAnswering.from_pretrained(self.source)
+
+    def query(self, context=None, question=None):
+        string = f"[CLS] {question} [SEP] {context} [SEP]"
+        
+        starts, ends = self.model(torch.tensor(self.tokenizer.encode(string)).unsqueeze(0))
+
+        s, e = torch.argmax(starts[0]), torch.argmax(ends[0])
+
+        return self.tokenizer.decode(self.tokenizer.encode(string)[s:e+1])
+
diff --git a/requirements.txt b/requirements.txt
@@ -0,0 +1,2 @@
+torch
+pytorch_transformers

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+model-pretrained/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+version https://git-lfs.github.com/spec/v1`
	`2`	`+oid sha256:3051a96750894951478511eec3b2639e9b3fb65078140a9fa40f870974e42aec`
	`3`	`+size 711467814`