Benjamin is available for hire

Benjamin Li

Verified Expert in Engineering

Software Developer

Location

奥克维尔，安大略省，加拿大

Toptal Member Since

November 3, 2021

Benjamin拥有超过二十年的软件和大数据开发经验, 包括数据建模和数据仓库设计. 他的活跃工具集包括Spark, Python, Scala, AWS, Azure, SQL, Hive, Linux, 微软商业智能解决方案, C#.NET, and Java. 他对细节的关注以及强大的分析和解决问题的能力使他成为任何团队的优秀补充. 本杰明是一个善良、用心的沟通者，他总是能写出高质量的作品.

Portfolio

Twitter(通过Avenue Code签订合同)

Scala, Scalding, HDFS, BigQuery, Apache Hive, Bash Script, Git, Phabricator...

道明银行(透过Procom签订合约)

Azure, Azure数据工厂，Azure数据库，Azure Synapse, Azure SQL数据库...

永明人寿(透过承办商)

大数据、亚马逊网络服务(AWS)、Apache Hive、亚马逊S3 (AWS S3)、AWS Glue...

Experience

SQL - 20 years 数据仓库设计——15年 Azure - 8 years Big Data - 5 years Spark - 4 years 亚马逊网络服务(AWS)——3年 Scala - 3 years Python 3 - 3 years

Availability

Part-time

首选的环境

Linux, PyCharm, IntelliJ IDEA, Apache Hive, Spark, 亚马逊网络服务(AWS), Azure, Visual Studio, Windows, SQL Server BI

The most amazing...

...我所做的事情是通过重新构建项目和增强代码，将运营成本降低了80%.

Work Experience

高级数据工程师

2022 - 2023

Twitter(通过Avenue Code签订合同)

开发了一个Scala类，将来自Scalding TypedPipe的Twitter用户事件聚合为数据科学(DS)和机器学习(ML)的指标。, 使我们有可能使用它们并找到洞察力.
使用Scala和Apache Beam API提取创建数据流作业, transform, 并为机器人加载(ETL)数据集来检测有害的推文.
重新设计了代理问卷的Appen UI模板, 减少了用于从Appen RESTful API收集代理响应和在BigQuery中存储数据的Python代码的复杂性.
开发Apache气流dag, tasks, 和运营商通过RESTful API从Appen清除历史数据，并授予PII合规性.
用Scala构建后端，用TypeScript构建前端, JSON, YAML代表解决骚扰的产品，代表信任和安全政策.
创建Python PySpark ETL管道提取, transform, 并以Parquet数据格式加载(ETL)数据集.
更新了一个基于looker的仪表板，可以查询多个数据集.

Technologies: Scala, Scalding, HDFS, BigQuery, Apache Hive, Bash Script, Git, Phabricator, Confluence, Jira, Big Data, 谷歌云平台(GCP), IntelliJ IDEA, Bazel, Cloud Dataflow, Apache Beam, Python 3, Apache Airflow, REST APIs, Visual Studio Code (VS Code), JavaScript, TypeScript, Apache Thrift, YAML, JSON, HTML, Google Analytics, Spark, Spark SQL, Jupyter Notebook, ETL, Looker, Data Visualization, Parquet, Data, Terraform, Docker, NoSQL, Data Governance, Streaming Data, ETL Tools, Monitoring, Google BigQuery, Google Cloud, Data Science, Machine Learning, Database Migration

Data Specialist

2021 - 2022

道明银行(透过Procom签订合约)

作为企业数据基础(EDF)顾问指导项目团队设计Azure数据工厂(ADF)管道，处理企业客户风险评级(ECRR)和事务监控(TM)使用的30多个MAL代码(500多个表)的数据。.
使用Azure Databricks和Spark DataFrame设计ETL，从原始区域加载源数据, such as CSV, XML, or CopyBook, and then cleanse, transform, 并将其作为4型SCD保存在策展区——镶木地板中.
概述了准备参数和调用Databricks笔记本的ADF管道. 将管道集成到Rahona编排框架中，以触发或调度SLA.
将QA测试集成到数字化CI/CD企业交付管道(EDP)中.ai. 协调跨多个团队的集成测试工作. 在Datadog上监控管道.

Technologies: Azure, Azure数据工厂，Azure数据库，Azure Synapse, Azure SQL数据库, Azure Data Lake, SQL, Spark, PySpark, Python 3, Scala, SQL Server Management Studio (SSMS), Data Management, Data Engineering, Big Data, Data Pipelines, Orchestration, Data Analytics, Git, Bitbucket, Confluence, Jira, Visual Studio Code (VS Code), Datadog, Leadership, Data, 解决方案架构, Database Migration, Cloud

Big Data Consultant

2019 - 2021

永明人寿(透过承办商)

在项目第二阶段担任技术主管，为团队提供技术指导. 主持每日scrum会议，促进团队活动.
重新设计了项目架构和代码，将AWS Glue作业的数量从150个减少到30个. 这降低了80%的运营成本.
开发Python和PySpark代码，处理历史数据批量加载和每日CDC加载，并构建每日快照.
创建Hive SQL和Spark SQL，处理复杂的业务转换逻辑.
开发了CI/CD管道来构建, package, 并将项目部署到开发中, system integration, 生产测试.
调优系统性能并定位数据倾斜问题. 为业务团队提供调整数据模型的建议，避免问题再次发生.
在Amazon EMR和AWS Glue中测试了该解决方案，并将AWS Glue作业解决方案部署到生产环境中.

Technologies: 大数据、亚马逊网络服务(AWS)、Apache Hive、亚马逊S3 (AWS S3)、AWS Glue, Zeppelin, SQL, Python 3, PySpark, Spark SQL, Linux, Git, Confluence, Scala, PyCharm, IntelliJ IDEA, Jenkins Pipeline, CI/CD Pipelines, Scrum, Bash, Data Lakes, 数据仓库设计, Apache Spark, Amazon Neptune, Amazon Elastic MapReduce (EMR), Shell Scripting, Amazon EC2, Amazon RDS, Data Warehousing, Data Management, Data Engineering, Data Architecture, Data, 亚马逊虚拟私有云(VPC), AWS IAM, AWS CloudFormation, Amazon CloudWatch, Data Integration, Kubernetes, NoSQL, 解决方案架构, 技术架构, Data Auditing, Finance

大数据解决方案设计师|架构师

2016 - 2019

道明银行集团(透过承办商)

领导一个由三个解决方案开发人员组成的团队，并成功地为不同的业务线(LOB)交付了几个项目.
与来自不同业务线的业务分析师合作，明确功能需求.
为项目设计解决方案, 文档化的设计规范, 并与团队成员分享开发工作.
使用各种源数据为复杂业务逻辑开发Apache Hive查询，并提供ETL解决方案.
创建了一个Oozie工作流和调度程序来编排和调度作业.
构建了以copybook格式处理大型机数据文件的Java解决方案.
指导解决方案开发人员, 共同的设计意图, best practices, and guidelines, 并审查解决方案开发人员的代码.

技术:大数据, Cloudera, Apache Hive, Oozie, Linux, ETL, SQL, Java, HDFS, TIBCO, Bash Script, MapReduce, IntelliJ IDEA, VirtualBox, Git, Confluence, Jenkins, Bash, Data Lakes, 数据仓库设计, Apache Maven, Leadership, Team Mentoring, Data Architecture, Data, 解决方案架构, 实体关系, ELT, Risk Management, Banking & 金融，金融，金融风险管理

高级软件开发人员

2016 - 2016

Creditron

根据业务需求开发SSRS报告，并将其部署到Azure SSRS.
修复了现有功能中的错误，并为使用ASP的电子支票处理(ECP)支付应用程序开发了新功能.NET, C#.NET, .. NET Framework和SQL Server.
创建SQL脚本来填充数据，并通过SSRS报告展示典型ECP系统的用例和场景.
Designed a .NET应用程序使用SSRS web服务自动部署SSRS报告.

技术:SQL Server集成服务(SSIS), SQL Server报表服务(SSRS), SQL Server 2015, C#.NET, ASP.NET, Visual Studio, Azure, Azure SQL Databases, 数据仓库设计, SQL, Microsoft SQL Server, Data Management, Data Engineering, Stored Procedure

高级软件开发人员| Scrum Master

2008 - 2016

Hatch

开发SSIS包，从数据库等各种来源加载数据, CSV files, XML files, SOAP web service, RESTful API, and FTP. 应用数据卫生逻辑和使用c#脚本任务开发转换. 将数据加载到数据库.
使用c#创建了应用程序的数据访问层和业务逻辑层.NET and .使用。NET框架来处理SQL Server数据库中的数据.
架构RESTful API，用于应用程序访问SQL Server数据库中的数据.
Used ASP.NET来开发web应用程序的表示层.
扮演scrum管理员的角色, facilitated teamwork, 主持每日scrum会议, sprint planning, sprint review, 回顾会议.
构建了一个Windows服务，将员工数据从本地SAP系统和Active Directory服务器复制到Azure SQL server数据库.
创建SSRS报告，向项目经理显示项目进度.
使用Power BI为项目经理组装一个交互式仪表板.

技术:SQL Server集成服务(SSIS), SQL Server报表服务(SSRS), SQL Server 2015, C#.NET, ASP.. NET、t - sql (transact - sql)、TFS、 .NET, Data Modeling, Azure, Azure Active Directory, Scrum Master, SQL, 数据仓库设计, Design Patterns, 面向服务的架构(SOA), SOAP, REST APIs, UML, Web Services, Microsoft SQL Server, Databases, Database Structure, 数据库事务, Transactions, SAP, Data Engineering, Data Management, Scrum, 认证ScrumMaster (CSM), Leadership, Communication, Data Visualization, Microsoft Power BI, Microservices, APIs, 商业智能(BI), Database Modeling, 实体关系, Stored Procedure, API Design

高级软件工程师|组长

2004 - 2008

Epsilon

领导7人的工程团队，为数字营销业务设计了一个BI解决方案.
使用SSIS设计和开发ETL包来提取和清理数据, 应用业务转换逻辑, 并将数据加载到数据仓库中.
构建数据模型. 定义了SSAS多维数据集的维度和事实. 开发了一种策略来刷新多维数据集，以赶上仓库中的数据更改.
开发一套SSRS报告，可视化活动的业务见解.
创建了一个工具来自动将SSRS报告部署到不同的项目和农场.
通过开发带有仪表板和向下钻取功能的web应用程序，可以按不同类别和粒度查看数据.

技术:SQL Server集成服务(SSIS), SQL Server报表服务(SSRS), SQL Server分析服务(SSAS), C#.. NET, SQL Server BI, SQL, c++， ASP.NET, Data Modeling, Scrum Master, 数据仓库设计, t - sql (transact - sql), UML, Design Patterns, 面向服务的架构(SOA), SOAP, Web Services, Microsoft SQL Server, Data Management, Data Engineering, Leadership, Team Leadership, Data Visualization, 商业智能(BI), DAX

Software Developer

2004 - 2004

Redknee

实现了支持多种语言的Unicode短消息服务(SMS).
设计了一个线程池来处理来自套接字和文件的并发标签长度值(TLV)记录.
实现了用于跨分布式组件通信的CORBA接口.

技术:Java, Oracle, Linux, StarTeam, CORBA, Design Patterns, Jakarta Server Pages (JSP)， SQL

Software Developer

2001 - 2004

Invatron

对潜望镜有贡献, 一个决策支持系统，旨在优化连锁商店的易腐食品运营，以及一个具有多个子系统的广泛分布的实时系统，如服务器, MB, Proxy, hhMQ, TSP, TSP-PE, Scheduler, and HITS.
采用面向对象的方法对降价组件进行了分析和设计. 开发数据模型，并在多个数据库系统中实现SQL脚本.
开发抽查，以审查和更新实时库存. 为随机加权(2型UPC)产品开发新的条形码降价，为非2型UPC产品开发优惠券折扣. 通过串行和WiFi实现标签打印.
在c++模板中构建了一套通用算法，使用Windows上的Visual c++和Linux、Unix上的GCC处理各种易腐食品操作，将应用程序部署到不同的操作系统上.
通过开放数据库连接(ODBC)创建了一个数据访问层，以访问多个数据库系统, 包括SQL Server, Oracle, DB2, Informix, and Sybase. 应用程序可以与各种数据库系统一起部署.
构建一个消息传递框架，用于跨决策支持系统的组件进行通信.
交付了一套嵌入式应用程序来检查和调整库存, 核对一下，把价格记下来, 并为各种设备打印条形码标签，如手持扫描仪和壁挂式价格检查器.
开发了一个安装守护进程，用于自动检查和安装手持扫描仪等设备的新应用程序版本, 壁挂式价格检查器, 以及分布式连锁店的销售点(POS)机器.

Technologies: C++, Windows, Linux, SQL, SQL Server 2015, Oracle, IBM Informix, IBM Db2, Sybase, Visual Studio, GCC, Bash, Unix, Message Bus, ODBC, Data Modeling, 实体-关系模型(ERM), t - sql (transact - sql), Microsoft SQL Server, 包装消费品, Food, Point of Sale, POS, Access Points, 实体关系, PL/SQL

高级软件工程师|组长

1995 - 2000

中国建设银行广东分行

带领团队开发了一个使用C语言的客户-服务器系统, C++, Pro*C, 和SQL在各种Unix和Linux平台上使用Informix数据库系统.
从业务线收集需求, 设计了数据库和ER图, 并在Informix SQL脚本中实现数据模型.
排除生产问题，调查根本原因，并找到解决方案.

Technologies: C, C++, Pro*C, SQL, IBM Informix, Unix, Linux, HP-UX, Sco Unix, Bash, C Shell, Bourne Shell, KornShell, 实体-关系模型(ERM), Data Modeling, 实体关系

Experience

针对保险业务的AWS EMR/Glue ETL项目

这是一个AWS上的ETL项目，用于从企业数据湖中的多条业务线中提取数据. 数据根据业务逻辑进行转换，并加载到Tableau报表的消费区域中，以便可以在集成的数据模型上快速构建报表, 不管来自不同业务线的各种数据模型.

共同申报准则(CRS)

共同报告标准(CRS)是全球税务机关之间针对银行账户的监管项目. 我开发了复杂的Hive查询, Oozie workflow, 和调度器，从主数据管理(MDM)系统中提取数据，并从财富管理系统中合并账户. 我发现了数据差异, 找出了根本原因, 并增强了企业数据模型，使该应用程序提供的数据准确可靠.

数据湖摄取数据流

这是银行用于将企业数据摄取移动到数据湖的附加组件. 我设计了解决方案并实现了Java类来解析摄取日志, extract bad records, 将主机copybook转换为Unicode, 并将数据持久化到Hive表中，供业务用户查看和修复数据. 我将应用程序的性能提高了20倍.

全球采购情报(GPI)

我设计了一个数据模型，c#.NET and ASP.NET web application, 具有复杂逻辑的SSIS包, 和SSRS报告的全球采购情报(GPI)系统，帮助优化采购决策显著.

企业数据基金会(EDF)

EDF是Akora云(Azure)企业管理区内的一个统一层。, 汇集与企业相关的数据用于分析, reporting, 以及下游应用的消耗. 我开发了Azure数据工厂(ADF)数据管道, Azure Databricks笔记本, 和Azure Synapse数据库.

Periscope Server

Periscope是一个决策支持系统(DSS)，旨在优化连锁商店的易腐食品操作. 它是一个广泛分布的实时系统，包括一个中央Periscope服务器和消息代理, 以及分布在各个商店的几个子系统:代理, hhMQ, TPS, TSP, PE, Scheduler, HITS, etc.

Python和PySpark Job for False Discovery Rate (FDR)

虚假发现率(FDR)根据定义的规则(针对广告用户的特殊规则)评估机器人在评估tweet和用户方面的有效性, 违章者贴标签. FDR项目从机器人中抽取了一部分标记数据, 将其发送给人工代理进行评估, collects results, 并分析了误标率.

广告技术的商业智能解决方案

本项目使用SSIS进行提取, transform, 并加载广告活动和响应数据, such as view, click, or purchase, 从事务系统到数据仓库. 然后，它使用SSRS报告来帮助客户可视化活动的见解.

Skills

Languages

SQL, Bash, C#.NET, C++, Java, Python 3, Scala, Python, t - sql (transact - sql), UML, C, Pro*C, C Shell, Bourne Shell, Snowflake, Bash Script, JavaScript, TypeScript, YAML, HTML, Stored Procedure

Frameworks

Spark, ASP.NET, .. NET, Jakarta Server Pages (JSP)， Hadoop, YARN, Apache Spark, Apache Thrift

Paradigms

Database Design, 商业智能(BI), ETL, Scrum, Agile, MapReduce, Design Patterns, 面向服务的架构(SOA), Microservices, Data Science

Storage

SQL Server 2016, Apache Hive, SQL Server集成服务(SSIS), SQL Server报表服务(SSRS), Microsoft SQL Server, 数据库体系结构, Amazon S3 (AWS S3), HDFS, Azure SQL Databases, SQL Server分析服务(SSAS), Azure Active Directory, MySQL, PostgreSQL, Data Lakes, IBM Informix, IBM Db2, Sybase, Redshift, Data Pipelines, JSON, Databases, Database Structure, 数据库事务, SQL Server Management Studio (SSMS), Datadog, Azure SQL, Data Integration, NoSQL, Database Modeling, PL/SQL, Google Cloud, Database Migration

Other

Data Modeling, Big Data, 数据仓库设计, Data Engineering, Data Analysis, Data Analytics, Reverse Engineering, 软件工程, Software, TIBCO, SQL Server 2015, Azure Data Factory, CI/CD Pipelines, Scrum Master, Data Warehousing, StarTeam, CORBA, SOAP, Web Services, Message Bus, Sco Unix, 实体-关系模型(ERM), 企业架构, MSMQ, Azure Data Lake, Amazon Neptune, Shell Scripting, Amazon RDS, Transactions, SAP, Azure Databricks, Data Management, Orchestration, 包装消费品, Food, Point of Sale, POS, Access Points, Leadership, Team Leadership, 认证ScrumMaster (CSM), Communication, Team Mentoring, Consulting, Data Visualization, Data Architecture, Parquet, Data, Data Governance, Streaming Data, 解决方案架构, APIs, ETL Tools, Monitoring, 技术架构, Data Auditing, DAX, 实体关系, 数据构建工具(dbt), ELT, API Design, Risk Management, Finance, 财务风险管理, Google BigQuery, Machine Learning, Cloud

Platforms

Linux, Windows, 亚马逊网络服务(AWS), Zeppelin, Azure, Apache Kafka, Databricks, Oracle, Unix, HP-UX, KornShell, 谷歌云平台(GCP), Visual Studio Code (VS Code), Amazon EC2, Azure Synapse, Jupyter Notebook, Docker, Kubernetes

Libraries/APIs

PySpark, Jenkins Pipeline, REST api, ODBC, JDBC, STL, Scalding

Tools

PyCharm, IntelliJ IDEA, AWS Glue, Spark SQL, Git, Confluence, Jenkins, Cloudera, Oozie, Visual Studio, TFS, SQL Server BI, Apache Airflow, VirtualBox, GCC, Hue, Eclipse IDE, BigQuery, Apache Maven, Phabricator, Jira, Bazel, Cloud Dataflow, Apache Beam, Amazon Elastic MapReduce (EMR), Google Analytics, Bitbucket, Looker, Microsoft Power BI, Terraform, 亚马逊虚拟私有云(VPC), AWS IAM, AWS CloudFormation, Amazon CloudWatch

Industry Expertise

Banking & Finance

Education

1992 - 1995

计算机科学硕士学位

复旦大学-中国上海

1988 - 1992

计算机科学学士学位

国防科技大学-中国长沙

Certifications

MAY 2015 - MAY 2019

认证Scrum Master

Scrum Alliance

有效的合作

如何使用Toptal

在数小时内，而不是数周或数月，我们的网络将为您直接匹配全球行业专家.

Share your needs

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.

Choose your talent

在24小时内获得专业匹配人才的简短列表，以进行审查，面试和选择.

开始你的无风险人才试验

与你选择的人才一起工作，试用最多两周. 只有当你决定雇佣他们时才付钱.

对顶尖人才的需求很大.

Start hiring