角色:NLP数据科学家
地点:印度远程(在印度任何地方工作)
最低资格:来自认可机构的B. Tech.(或同等学历)
经验要求:7年
薪水:市场最佳
领域:最好是生命科学/制药
客户概况:一家为价值5亿美元的制药数据研究公司提供服务的独立研究和开发团队,帮助患者获得救命治疗方案。我们帮助客户在药物研发生命周期的每个步骤中应对复杂性,从研发到患者。
其他福利:健康保险,公积金,人寿保险,认证费用报销,退休金,24小时健康咨询台
关于公司:
我们总部位于美国匹兹堡,全球设有多个办事处。我们是一支由客户独特想法驱动的专业团队。我们在印度的海得拉巴、钦奈、班加罗尔和德里地区也设有小型办公室。虽然技术专业知识已经融入Agilite的基因,但我们不仅仅是工程师和开发人员,我们是值得信赖的产品战略师。我们自豪于成为关键市场洞察力的可靠资源,具备设计、构建和扩展大型创意的知识和经验,为我们在美国和欧洲不断增长的客户列表提供服务。我们的首选工作模式是“任何地方工作”(WFA)。此外,您还可以自行决定工作时间表。我们只需要结果。我们以人为本的文化建立在非凡员工创造非凡事物的信念上。与我们合作,在一个能够实现您的“生活的意义”(Ikigai)的地方,您的愿望和业务目标交汇。
职位描述:
我们正在寻找一位熟练的NLP数据科学家,专注于语言模型,加入我们的人工智能和生命科学解决方案团队。您在处理和理解自然语言数据方面的专业知识,以及对电子健康记录(EHR)和实验室报告分析的了解,将在推动我们的数据科学项目和创新方面发挥重要作用,特别是在制药领域开发丰富的多模态真实世界数据集,以加快基于真实世界数据的药物研发进程。
职责:
- 使用NLP和开源大型语言模型(LLM)(如LLama2 Mixtral BERT等)从各种来源(如EHR、医疗笔记和实验室报告)中提取、处理和解释非结构化医疗数据。
- 与临床科学家和数据科学家合作,创建高效的医疗保健NLP模型,展示对数据的技术和医学两个方面的理解。
- 进行数据清理、预处理和验证,以保持从NLP过程中获取的洞察力的准确性和可靠性。
- 验证和向利益相关者展示数据发现,展示清晰有效的沟通能力。
所需技能/资格:
- 计算机科学、数据科学、计算语言学或相关分析领域的硕士或博士学位。
- 深入理解和直接经验(2年)处理和解释电子健康记录(EHR)和实验室检查结果是必须的。
- 在NLP方面有丰富经验(2年),对NLP技术(如命名实体识别(NER)、文本摘要、主题建模等)及其在医疗保健中的应用有深入了解。
- 对大型语言模型(LLM)(例如推理和微调)具有专业水平的理解和实际经验(1年)。
- 熟练使用Python和SQL,具有在NLP库(如NLTK、SpaCy、Hugging Face Transformers)和深度学习库(如PyTorch和TensorFlow)方面的丰富经验。
- 熟悉常见的数据科学和机器学习实践,如版本控制系统、敏捷方法和文档编写。
- 在AWS云环境和大型数据库(如AWS Redshift)上的工作经验。
- 使用开源工具(如MLflow)管理机器学习生命周期的经验。
- 注重细节,具有较强的分析和解决问题的能力。
- 具备出色的口头和书面沟通能力,能够向非技术人员传达复杂数据。
优先资格:
- 处理受保护健康信息(PHI)的经验,并熟悉与健康相关的数据隐私法律,如HIPAA。
- 熟悉标准的医疗保健编码和术语,如ICD10、CPT、LOINC和SNOMED CT。
- 在存储大量医疗保健非结构化文档和查询这些文档的上下文中,具备RAG(检索增强生成)和向量存储的经验。