Laura Tolosi,保加利亚索非亚的开发者
Laura is available for hire
Hire Laura

Laura Tolosi

Verified Expert  in Engineering

Machine Learning Developer

Location
Sofia, Bulgaria
Toptal Member Since
February 4, 2019

Laura has a Ph.D. 来自马克斯普朗克信息学研究所, Germany, 在计算生物学领域, 专注于使用统计学和机器学习的癌症生物标志物检测. 她从事自然语言处理领域的项目,如命名实体识别, sentiment analysis, fake news detection. Recently, 她一直致力于将强化学习方法应用于金融工具交易.

Availability

Part-time

Preferred Environment

R, Python

The most amazing...

...我做的项目是分析一个新的神经母细胞瘤肿瘤数据集,并寻找可能导致儿童癌症的病毒DNA.

Work Experience

数据科学家和机器学习工程师

2018 - PRESENT
Self-employed
  • 为加密货币的算法交易实现了强化学习框架.
  • 基于变形金刚(BERT),使用NLP最先进的方法从头开始实现聊天机器人.
  • 使用Google Dialogflow和Google Cloud执行聊天机器人.
  • 实现了从技术文档中自动提取关系的框架.
  • 实现了一个用于估计电子商务客户的产品回购率的模块. 在相同的上下文中,编写了识别异常购买率的算法.
  • 基于机器学习的交易数据模式检测解决方案(金融领域). 将启发式编写为生成标记数据的半自动化过程.
Technologies: Python

Lead Scientist | Text Analysis

2012 - 2018
Ontotext Ad
  • Developed ML models for NLP, 包括领域适应的方法, 自动特征选择的方法, f -测度优化方法. 应用逻辑回归、SVM、CRF等模型进行分类和序列标注.
  • 在R中开发了一个机器学习模型,用于将tweet分类为谣言/非谣言.
  • 获得了关系数据库、本体和关联数据方面的深入知识. 实现了一个用Java编写的分类模型, 自动将维基百科页面分类为“食品和饮料”主题.
  • 为了帮助大型出版公司的推荐系统,用LDA试验了主题模型.
  • 构建了训练词向量嵌入和图嵌入的原型.
  • 用R和Java开发了英语和保加利亚语的情感分析模型. 这些方法对英语有监督,对保加利亚语无监督.
  • 在自动化和半自动集成各种RDF资源(如DBpedia和Geonames)方面获得了丰富的经验.
技术:本体、RDF、Java、R

PhD

2006 - 2012
Max-Planck Institute für Informatik
  • Gained expertise in cancer genetics, 专注于拷贝数畸变,并在表观遗传学等领域获得了额外的深入知识, transcriptomics, and viral genomes.
  • 使用有监督和无监督机器学习方法建模癌症遗传数据. 使用的监督方法是:逻辑回归, elastic net, SVM, decision trees, and random forest.
  • 用统计语言R编写机器学习模型,并获得了R可视化技术的深入专业知识.
  • 获得向非专家(医生)展示复杂AI模型的丰富经验, 通过给出数学模型背后的直觉.
  • 使用各种方法进行特征选择:带有统计测试的过滤器, penalty methods for linear models, and pruning.
  • 具有扎实的计算统计和统计学习知识. This includes statistical tests, statistical distributions, estimators, and bias-variance decomposition.
  • 撰写科学论文,学习如何在会议和客户面前发表高质量的演讲.
  • 与医院的医生密切合作. 与医生进行跨学科的交流, 为了最大限度地为患者提供机器学习解决方案.
Technologies: Python, R

加拿大遗产信息网(CHIN) -数据分析

http://lauratolosi.shinyapps.io/museums/
中国拥有一个来自加拿大各地博物馆的大型文物数据库. 该数据库是通过收集博物馆提供的所有数字数据集获得的, which are end-of-life, 这意味着它们不再被维护. 在目前的状态下,数据收集很难使用,存在歧义(例如. many spellings of same author name), repetitions, 自动输入混合和不可解析的语言(EN或FR), 缺乏标准的对象分类(例如对象材料), types). Ontotext的任务是评估清理数据库和链接到LOD资源(DBpedia)所需的工作, Getty AAT, and others).

我和两个同事一起做这个项目. 我的职责是统计估计畸形数据的比例, 专注于它最重要的功能(例如. 博物馆,物品类别,类型,名称,语言). 我还必须估计有多少比例的错误是系统性的,可以通过自动方法(NLP)解决。.

最终,该项目取得了成功,超出了加拿大机构的预期.

Brexit Twitter Analysis

在英国脱欧公投前的几周, Ontotext将Twitter上关于该主题的讨论流式传输到GraphDB中, using the PHEME (www.pheme.本体模型和语义充实管道, 它提供实体到LOD数据(如Geonames和DBpedia)的链接. 我被分配的任务是分析这些推文,确定哪些是英国公投的主要参与者,以及他们的立场.r.t. the main question: #leave or #stay? 通过使用一些简单的引导技术围绕两极分化的标签(例如. #leave, #exit; #stay, #remain), 我可以对这组推文进行情绪分析, 它提供了对不同类型实体的情绪的估计:政治家, political parties, geographical locations., age groups. 我的分析显示,支持“退出”的游说比支持“留下”的要强大得多,至少在Twitter上是这样. 该报告在公投前几天发布(http://ontotext).@ twitter- user-support-brexit/),在投票结果与分析结果相符后,它受到了很多关注.

加密货币的算法交易

我有好奇心和野心,想知道为加密货币市场实现算法高频交易员是多么容易. I conducted this project by myself. 使用的技术是Python和Keras, 方法是用深度神经网络进行强化学习. 我使用的是公开数据,即比特币三年的价格. 我还生成了合成数据,用于测试算法. 我自学了强化学习和时间序列预测的主题.

社交媒体(Twitter)上的谣言检测

PHEME是一个非常成功的研究项目,由欧盟第7个研究工作计划资助, 技术开发与示范. 该联盟有一个雄心勃勃的目标,即开发一个自动检测社交媒体谣言的平台, 旨在帮助记者通过这些渠道打击错误信息和虚假信息的扩散. 该工具是来自Twitter的数据流,过滤后覆盖有趣的政治事件. 数据分析是一个多语言文本处理管道,它位于一个本体之上,该本体模拟了Twitter上的谣言.

我参与了PHEME项目的许多方面. 作为一名数据科学家,我开发了一个ML模型来预测Twitter上的谣言. As a member of Ontotext's team, 协调整合来自各合作伙伴的各种管道组件. 我写可交付成果、报告和科学论文来描述我们的工作.

挖掘高度结构化的信息(MobiBiz,伦敦)

我被MobiBiz聘请为自由职业数据科学家(通过Toptal),实现并将能够从高度结构化的文档中提取关系的系统引入生产. 这些文件包括表格、章节、带有说明文字的图表等. 该解决方案基于开源的Fonduer算法. 我的任务是将该算法应用于特定的数据集,但要保持解决方案的通用性,以确保适用于未来类似的情况. 代码是用Python编写的,应用程序使用Postgres关系数据库, 使用SQLalchemy接口连接Python.

与书本人物对话的聊天机器人(南加州大学图书馆)

我帮助实现了两个聊天机器人, 描绘了刘易斯·卡罗尔的《欧博体育app下载》中的角色爱丽丝和柴郡猫. 这些角色可以与口头提问的用户互动. 语音识别系统将语音转换为文本,问答系统提供适当的答案. For this prototype, 角色有一组固定的反应可供选择, referring to facts from the book, 刘易斯·卡罗尔和他的书的传记信息, 以及一些关于南加州大学图书馆的话题.

我在项目中的角色是帮助我的团队选择一个语音识别系统,该系统可用于将用户的问题翻译成文本,并实现一个问答模型,该模型能够从可能的答案列表中选择合适的答案. I used BERT for question answering. 该系统作为web服务部署,并通过一个Flask应用程序实时接收请求.

Languages

R, Python 2, Python 3, Python, RDF, Java, SPARQL, SQL

Other

Machine Learning, Data Visualization, Random Forests, Clustering Algorithms, Natural Language Processing (NLP), Sentiment Analysis, Scientific Data Analysis, Research, Statistics, Computational Biology, GPT, 生成预训练变压器(GPT), BERT, Neural Networks, Convolutional Neural Networks (CNN), Deep Neural Networks, Generalized Linear Model (GLM), Information Retrieval, Applied Mathematics, Algorithms, Reinforcement Learning, Deep Reinforcement Learning, Chatbots, Custom BERT, ASR, Mixed-effects Models, Marketing Mix, Meta Robyn, Time Series, Ontologies, Deep Learning, Agile Data Science, Natural Language Understanding (NLU), Time Series Analysis

Libraries/APIs

Scikit-learn, TensorFlow, SQLAlchemy

Tools

PyCharm, Dialogflow, Git, GitLab

Platforms

Linux, Jupyter Notebook, RStudio

Frameworks

RStudio Shiny, Flask

Storage

JSON, PostgreSQL, Amazon S3 (AWS S3)

2006 - 2012

PhD in Computational Biology

马克斯-普朗克信息学研究所-萨尔布尔肯,德国

2005 - 2006

计算生物学硕士学位

马克斯-普朗克信息学研究所-萨尔布尔肯,德国

1999 - 2003

Bachelor's Degree in Computer Science

布加勒斯特大学-布加勒斯特,罗马尼亚

JULY 2020 - PRESENT

参加由Google Deep Mind组织的EEML深度学习暑期学校

EEML

Collaboration That Works

How to Work with Toptal

在数小时内,而不是数周或数月,我们的网络将为您直接匹配全球行业专家.

1

Share your needs

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.
2

Choose your talent

在24小时内获得专业匹配人才的简短列表,以进行审查,面试和选择.
3

Start your risk-free talent trial

与你选择的人才一起工作,试用最多两周. Pay only if you decide to hire them.

Top talent is in high demand.

Start hiring