stjiris
/

bert-large-portuguese-cased-legal-mlm-sts-v1.0

@@ -11,7 +11,7 @@ tags:
 datasets:
 - assin
 - assin2
-- stjiris/portuguese-legal-sentences-v0
 widget:
 - source_sentence: "O advogado apresentou as provas ao juíz."
   sentences:
@@ -36,11 +36,11 @@ model-index:
         type: Pearson Correlation
         value: 0.8249826985133595
 ---
-# stjiris/bert-large-portuguese-cased-legal-mlm-sts-v0
 This is a [sentence-transformers](https://www.SBERT.net) model: It maps sentences & paragraphs to a 1024 dimensional dense vector space and can be used for tasks like clustering or semantic search.
-stjiris/bert-large-portuguese-cased-legal-mlm-sts-v0 derives from [BERTimbau](https://huggingface.co/neuralmind/bert-large-portuguese-cased) large.
-It was trained using the MLM technique with a learning rate 3e-5 [Legal Sentences from +-30000 documents](https://huggingface.co/datasets/stjiris/portuguese-legal-sentences-v0) 130k training steps (best performance for our semantic search system implementation)
 It is adapted to the Portuguese legal domain and trained for STS on portuguese datasets. [assin](https://huggingface.co/datasets/assin), [assin2](https://huggingface.co/datasets/assin2) and [stsb_multi_mt](https://huggingface.co/datasets/stsb_multi_mt) portuguese subdataset
@@ -55,7 +55,7 @@ Then you can use the model like this:
 from sentence_transformers import SentenceTransformer
 sentences = ["Isto é um exemplo", "Isto é um outro exemplo"]
-model = SentenceTransformer('stjiris/bert-large-portuguese-cased-legal-mlm-sts-v0')
 embeddings = model.encode(sentences)
 print(embeddings)
 ```
@@ -75,8 +75,8 @@ def mean_pooling(model_output, attention_mask):
 sentences = ['This is an example sentence', 'Each sentence is converted']
 # Load model from HuggingFace Hub
-tokenizer = AutoTokenizer.from_pretrained('stjiris/bert-large-portuguese-cased-legal-mlm-sts-v0')
-model = AutoModel.from_pretrained('stjiris/bert-large-portuguese-cased-legal-mlm-sts-v0')
 # Tokenize sentences
 encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

 datasets:
 - assin
 - assin2
+- stjiris/portuguese-legal-sentences-v1.0
 widget:
 - source_sentence: "O advogado apresentou as provas ao juíz."
   sentences:
         type: Pearson Correlation
         value: 0.8249826985133595
 ---
+# stjiris/bert-large-portuguese-cased-legal-mlm-sts-v1.0
 This is a [sentence-transformers](https://www.SBERT.net) model: It maps sentences & paragraphs to a 1024 dimensional dense vector space and can be used for tasks like clustering or semantic search.
+stjiris/bert-large-portuguese-cased-legal-mlm-sts-v1.0 derives from [BERTimbau](https://huggingface.co/neuralmind/bert-large-portuguese-cased) large.
+It was trained using the MLM technique with a learning rate 3e-5 [Legal Sentences from +-30000 documents](https://huggingface.co/datasets/stjiris/portuguese-legal-sentences-v1.0) 130k training steps (best performance for our semantic search system implementation)
 It is adapted to the Portuguese legal domain and trained for STS on portuguese datasets. [assin](https://huggingface.co/datasets/assin), [assin2](https://huggingface.co/datasets/assin2) and [stsb_multi_mt](https://huggingface.co/datasets/stsb_multi_mt) portuguese subdataset
 from sentence_transformers import SentenceTransformer
 sentences = ["Isto é um exemplo", "Isto é um outro exemplo"]
+model = SentenceTransformer('stjiris/bert-large-portuguese-cased-legal-mlm-sts-v1.0')
 embeddings = model.encode(sentences)
 print(embeddings)
 ```
 sentences = ['This is an example sentence', 'Each sentence is converted']
 # Load model from HuggingFace Hub
+tokenizer = AutoTokenizer.from_pretrained('stjiris/bert-large-portuguese-cased-legal-mlm-sts-v1.0')
+model = AutoModel.from_pretrained('stjiris/bert-large-portuguese-cased-legal-mlm-sts-v1.0')
 # Tokenize sentences
 encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')